部分资源需使用积分获取，注册就送积分，论坛互动、签到途径轻松获取。

部分图片较大，加载较慢，PC端浏览最佳！

Sora 全网最强资料

一、Sora到底是何方神圣

2024年2月15日凌晨，OpenAI发布文生视频大模型：Sora。

强到，能震惊人一万年的程度。。。

https://openai.com/sora

简单来说就是，AI视频要变天了！

如果要用三个词来总结Sora，那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”

、

1.1 话不多说先看几个效果视频

1.2 和竞品的效果对比

Sora和 Runway、Pika、SVD同一段提示词的对比，来看看效果：

1.3 正式认识一下sora

如果你把OpenAI Sora当作一个和DALLE类似的创意小玩意……那你可能要重新认识它了。

Sora实际上是一个基于数据的物理模拟引擎。它能够模拟各种各样的世界，不管是真实的还是幻想中的。通过一系列复杂的计算过程，比如去噪技术和梯度计算，这个模拟器能够学习到如何进行精细的渲染、模拟直观物理效果、进行长期的逻辑推理，以及实现语义理解。

如果说Sora是依赖使用Unreal Engine 5生成的大量合成数据进行训练，我一点都不会觉得意外。因为它的确需要这样做！

我们来分析一段视频。

视频提示是：“在一杯咖啡中航行的两艘海盗船进行战斗的逼真特写镜头。”

• 模拟器创建了两艘装饰各异的精美3D海盗船模型。Sora需要在其内部空间隐式地完成从文本描述到3D模型的转换。
• 这些3D模型能够在保持彼此距离的同时进行动态航行。
• 它还模拟了咖啡流体的动力学效果，包括船只周围形成的泡沫。值得一提的是，流体模拟本身就是计算机图形学中一个非常复杂的分支，需要依赖复杂的算法和方程式。
• 视频达到了近乎逼真的光影效果，仿佛是采用了光线追踪技术进行渲染。
• 考虑到杯子相比海洋的小尺寸，模拟器还采用了移轴摄影技术，营造出了一种微观世界的视觉感受。
• 虽然视频中的场景在现实世界中并不存在，但这个引擎还是按照我们所期望的物理规则正确地实现了场景模拟。

下一步是增加更多的输入模式和条件设置，我们就能得到一个全面的数据驱动的虚拟引擎，它将有望取代所有传统手工编制的图形处理流程。

1.4 技术原理

Sora 详细的技术报告发布了，相关从业者可能都需要看看。

里面有 Open AI的训练思路以及 Sora 详细的技术特性，我从里面找了一些要点，详细的可以去看完整内容。

简单来说 Sora 的训练量足够大也产生了类似涌现的能力。

技术特点：

三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界：Sora还能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力

长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。

与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

训练过程：

Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型（diffusion transformer）。

首先将视频压缩到一个低维潜在空间19中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加，样本质量有了显著提升。

Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。

https://openai.com/research/video-generation-models-as-world-simulators

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型，这些模型同时在视频和图像上进行训练，处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点：

1. 统一的视觉数据表示：研究者们将所有类型的视觉数据转换为统一的表示，以便进行大规模的生成模型训练。Sora 使用视觉补丁（patches）作为其表示方式，类似于大型语言模型（LLM）中的文本标记。

1. 视频压缩网络：研究者们训练了一个网络，将原始视频压缩到一个低维潜在空间，并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练，并生成视频。

1. 扩散模型：Sora 是一个扩散模型，它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

1. 视频生成的可扩展性：Sora 能够生成不同分辨率、时长和宽高比的视频，包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容，或者在生成全分辨率视频之前快速原型化内容。

1. 语言理解：为了训练文本到视频生成系统，需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术，首先训练一个高度描述性的标题生成器，然后为训练集中的所有视频生成文本标题。

1. 图像和视频编辑：Sora 不仅能够基于文本提示生成视频，还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务，如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

1. 模拟能力：当视频模型在大规模训练时，它们展现出了一些有趣的新兴能力，使得 Sora 能够模拟物理世界中的某些方面，如动态相机运动、长期一致性和对象持久性等。

1. 讨论：尽管 Sora 展示了作为模拟器的潜力，但它仍然存在许多局限性，例如在模拟基本物理交互（如玻璃破碎）时的准确性不足。研究者们认为，继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

这篇论文提供了对 Sora 模型的深入分析，展示了其在视频生成领域的潜力和挑战。通过这种方式，OpenAI 正在探索如何利用 AI 来更好地理解和模拟我们周围的世界。

1.5 官方论坛申请

Open AI 公布了一个 Open AI论坛，参与者可以参加 open AI 组织的线上和线下活动并且同 Open AI 员工深入交流，更有机会可以提前测试一些相关功能（Sora？）。

加入条件：

展示出对申请者专业领域和AI交叉领域的浓厚兴趣。

有能力在每个财政季度中投入1小时的时间参与活动。

在你的专业领域或学术学科中展示出专业知识。

这里申请：https://forum.openai.com/

二、提示词库

Prompt 1

A stylish woman walks down a Tokyo street filled with warm glowing neon and animatedcity signage. She wears a black leather jacket, a long red dress, and black boots, and carries a blackpurse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is dampand reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示：

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

暂时无法在飞书文档外展示此内容

牛的一批啊！60s，一镜到底，而且不止主人物稳定，连特么背景里面的人物，都稳定的难以置信从大中景无缝切换到脸部特写。

三、Sora最全拆解

1、360周鸿祎对视频大模型 sora 的理解

2、OpenAI首个AI视频模型炸裂登场，彻底端掉行业饭碗！60秒一镜到底惊人，世界模型真来了？

-公众号：新智元

https://mp.weixin.qq.com/s/93z4Ta91yLv7PB1pnBM9mg

3、OpenAI首个AI视频模型炸裂登场，彻底端掉行业饭碗！60秒一镜到底惊人，世界模型真来了？思维导图+总结版本

-知识星球

https://kmai.xiaoduoai.com/?tab=detail&id=65cf19bd844d386cd835f99e&from=kd

4、OpenAI全新发布文生视频模型Sora – 现实，不存在了

-公众号：数字生命卡兹克

https://mp.weixin.qq.com/s/C-wSkjzkNsX0EFaJFTv38w

5、OpenAI首个文生视频模型亮相，你觉得咋样？

-公众号：央视网

https://mp.weixin.qq.com/s/PS_WfoOX35XoScgoQJJVcA

6、OpenAI Sora发布：视频AI界的top1

-公众号：AIGC新知

https://mp.weixin.qq.com/s/c9ovxjBx0e-PoQikJd38lQ

7、眼见不再为实！OpenAI发布最强文生视频模型Sora【附60s演示视频】

-公众号：腾讯科技

https://mp.weixin.qq.com/s/fIM5PT5InZOAS8i2ZqB6sg

8、OpenAI王炸模型引爆科技圈，我们第一时间深读了官方技术报告

-公众号：腾讯科技

https://mp.weixin.qq.com/s/gSvxvOVqYtGcKw0ueDGbFA

9、重磅！OpenAI发布文生视频模型Sora，一次可生成1分钟！

-公众号：AIGC开放社区

https://mp.weixin.qq.com/s/m8DtOLmn_JkqZ5D5NYLIhA

10、Sora来了，现实不存在了？

-公众号：每日经济新闻

https://mp.weixin.qq.com/s/y82KaPSIjCROi9FLHXdf2A

11、OpenAI发布首个视频生成模型Sora

-公众号：CGTN

https://mp.weixin.qq.com/s/fnAOmwH8gOoO-Mc-pHs2hw

12、48个演示视频，最长60秒，看懂OpenAI视频大模型Sora

-公众号：深网腾讯新闻

https://mp.weixin.qq.com/s/4_hBzafAqZSC9GWJsIMVPA

13、OpenAI深夜发布首个文生视频模型Sora，现实将被彻底颠覆

-公众号：界面新闻

https://mp.weixin.qq.com/s/0RdUwGoVfQjKYRULZLabxw

14、炸裂AI技术Sora背后：奥特曼清单法

-公众号：孤独大脑

https://mp.weixin.qq.com/s/XfUKz8Q0ybXaTgLIeA7Csg

15、又一次被OpenAi刷屏，文生视频模型Sora真的要淘汰一波人

-公众号：伟豪学长AI

https://mp.weixin.qq.com/s/Cksnawt-L73KInM2s5b7Mg

四、Sora可能带来的影响

如果Sora能够真正意义上实现文生视频，可能会带来哪些影响呢？

1、没有演员的影视作品出现，对演员来说是个小挑战，将出现真正的“虚拟偶像”，此前的二次元人物并没有真正达到“偶像”的级别。
2、利好编剧行业，剧本、文本创作力成为核心竞争力。
3、Sora可能才是真正的文生视频，此前的文生视频大多只有2秒，仅仅是对象的小幅度移动。
4、OpenAI继续拉大领先程度，对众多还在进行大模型测试打分pk的厂商，构成压力。
5、直接的影响是影视行业，特别是特效行业。使用AI来制作一些特效和高风险的镜头，可以大幅降低拍摄成本，也可以避免很多危险。
6、摄影师行业也会受到影响，用文本来生成一些视频，可以省去很多拍摄工作。
7、短视频流行开以后，视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替，可能会有很多视频剪辑师失业。
8、对于很多短视频创作者来说，用AI来替代繁琐的剪辑工作，可以大幅提高工作效率。
9、很多歌手拍摄MV都是大成本制作，如果可以用AI来生成所需要的MV画面，也可以省去很大一部分制作成本。
10、另外，如果真正意义上的文生视频得以实现，可能会有不法份子利用这项技术实施新手段的违法犯罪。