ChatGPT官网

OpenAI发布“王炸级”的视频生成模型Sora,它的强大之处是什么?

chatgpt2024-10-22 06:09:32196

今天,在伊隆马斯克的社交媒体平台X上,最火爆的话题之一便是,人工智能初创公司OpenAI意外发布了视频生成模型Sora。根据OpenAI官方文章介绍以及分享的演示视频来看,Sora称得上是“王炸级”的AI工具,很多公司如Pika、Runway、invideo、veed、moonvally,等等,今后可能都会受到影响。就像OpenAI将图像生成模型DALL-E集成到ChatGPT产品中那样,如果OpenAI将视频生成模型Sora也集成到ChatGPT供所有用户使用,那么应该能够对视频相关的行业逐渐带来改变,比如影视制作、短视频创作、在线教育、广告传媒、游戏开发、直播,等等。

并且,OpenAI并不将Sora单纯当做一个AI视频生成模型工具来对待,是将视频生成模型Sora作为世界模拟器。对此,X平台上一位网友似乎有所感悟,他评论道:人类的时代正在结束——AI理解和模拟三维世界,总结物理定律,于是AI科学家的诞生只会是时间问题,AI被当作一个物种都说小了,想象人类发现的物理定律还只是冰山一角……一切将是时间问题,AI将找到造物主物理定律的源头。正如OpenAI一再宣称的那样,该公司的目标是做出通用人工智能AGI。

OpenAI Sora视频模型:8分钟案例视频展示

视频生成模型Sora的强大之处在于,它能够根据用户的文本描述,生成长达60秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

目前,Sora已对网络安全的红队成员开放,以评估可能存在的风险或潜在伤害。同时,OpenAI也邀请了视觉艺术家、设计师和电影制作人使用Sora,收集他们的反馈,以使模型更好地服务于内容创意行业。

Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款视频生成模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。

Sora对语言有着深刻的理解,能够精准地捕捉到用户的需求,并创造出充满生命力、情感丰富的角色。此外,Sora还能在同一视频中创造出多个画面,同时保持角色和视觉风格的一致性。

当然,Sora还不是完美的。比如在模拟复杂场景的物理效应,以及理解某些特定因果关系时,它可能会遇到难题。举个例子,视频中的人物可能会咬一口饼干,但饼干上可能看不到明显的咬痕。

在处理空间细节,比如分辨左右时,Sora也可能会出现混淆;在精确描述一段时间内发生的事件,如特定的摄影机移动轨迹时,也可能显得力不从心。

以下是OpenAI发布有关Sora的技术报告:

视频生成模型:构建虚拟世界的模拟器

我们致力于在视频数据上开展生成模型的大规模训练。具体来说,我们针对不同时长、分辨率和宽高比的视频及图像,联合训练了基于文本条件的扩散模型。我们采用了一种Transformer架构,这种架构能够处理视频和图像潜在编码的时空片段。我们的最大型号模型Sora,能生成高质量的一分钟视频。我们的研究显示,扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。

本技术报告主要介绍了两方面内容:(1) 我们如何将各种类型的视觉数据转化为统一的表示形式,从而实现生成模型的大规模训练;(2) 对Sora模型能力和局限性的定性评价。报告中没有包含模型和实施的详细信息。

之前的很多研究都探讨过利用各种方法对视频数据进行生成模型的建模,包括循环网络,生成对抗网络,自回归Transformer以及扩散模型。这些研究通常关注于特定类别的视觉数据,较短的视频,或是固定尺寸的视频。Sora是一种对视觉数据进行广义建模的模型,它能够生成各种时长、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。

视觉数据的创新转化:补片技术

受到大语言模型(LLM)在处理互联网规模数据、培养全能技能方面成功经验的启发,我们探索了如何将类似的优势应用于视觉数据的生成模型。大语言模型通过使用tokens ——一种统一处理代码、数学及多种自然语言的高效方式——实现了模态间的无缝转换。在本研究中,我们引入了视觉领域的对应物:视觉补片(patches)。研究表明,补片是一种高效的视觉数据表现形式,它们能极大地提升生成模型处理多样化视频和图像数据的能力。

补片技术

具体来说,我们通过先将视频数据压缩到低维度潜在空间,再将其分解成时空补片,从而实现视频到补片的转化。

视频压缩网络

我们开发了一种降维技术,该技术能够处理原始视频数据,并生成在时间和空间上都进行了压缩的潜在表征。Sora在这种压缩的潜在空间中接受训练,并能够生成新的视频内容。此外,我们还开发了一个解码器,能够将这些潜在表征还原为像素级的视频图像。

时空补片技术

通过对压缩后的视频输入进行处理,我们能够提取出一系列的时空补片,这些补片在模型中扮演着类似于Transformer Tokens的角色。值得一提的是,这套方案同样适用于图像处理,因为从本质上来说,图像可以被视为单帧的视频。采用基于补片的表现形式,Sora能够适应不同分辨率、持续时间及宽高比的视频和图像。在生成新视频内容时,我们可以通过将这些随机初始化的补片按照需要的大小排列成网格,来控制最终视频的大小和形式。

视频生成的Transformer扩展技术

Sora是一种扩散模型;它能够接受带有噪声的图像块(及条件信息如文本提示)作为输入,并被训练以预测出原始的“清晰”图像块。值得注意的是,Sora属于扩散型Transformer。Transformer技术在多个领域,包括语言建模、计算机视觉以及图像生成中都展现出了卓越的扩展能力。

本研究发现,扩散型Transformer同样能在视频模型领域高效扩展。下文中,我们通过对比训练过程中固定种子和输入条件下的视频样本,展示训练资源增加带来的样本质量显著提升。

视频的多样化持续时间、分辨率和宽高比

传统的图像和视频生成方法通常会将视频调整至标准尺寸,例如4秒长的视频以256x256的分辨率进行处理。我们发现,直接在视频的原始尺寸上进行训练能带来多重好处。

灵活的采样能力

Sora能够生成各种尺寸的视频,包括宽屏的1920x1080p、竖屏的1080x1920以及介于两者之间的任何格式。这使得Sora能够直接为不同设备制作符合其原生宽高比的内容。此外,它还允许我们在生成全分辨率内容之前,快速地以较低尺寸原型化内容,所有这些都能通过同一模型实现。

构图与布局的优化

我们的实验表明,在视频的原生宽高比上进行训练,能够显著提升视频的构图与布局质量。我们将Sora与另一个训练模型进行了对比,后者将所有训练视频裁剪为正方形,这是训练生成模型时的常规做法。与被裁剪成正方形的模型相比,Sora生成的视频展现了更佳的构图效果,有时候裁剪成正方形的模型生成的视频中主题只能部分展示。而Sora则能够更好地捕捉完整的场景。

语言理解

开发能够从文字生成视频的系统,我们需要大量的视频及其对应的文字说明。我们采用了DALL·E 3中引入的一种重新标注技术,并将其应用于视频。首先,我们训练了一个能够生成详细描述的模型,然后利用这个模型为训练集里的所有视频创建文字说明。我们发现,使用描述性强的视频说明进行训练,不仅能提高文字的准确度,还能显著提升视频的整体质量。

就像DALL·E 3一样,我们还使用GPT把用户的简短提示转化成详尽的说明,再将这些说明送给视频生成模型。这一过程使得Sora能够根据用户的指令,制作出高品质的视频。

图片和视频的提示功能

我们网站上的所有示例和展示的视频,都是从文字转化而来。不过,Sora还能接受图片或已有视频作为输入。这项功能让Sora能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。

让DALL·E图片动起来

只需一张图片和一个提示,Sora就能创造出视频。下面展示了一些基于DALL·E图片生成的视频示例。

视频时间延伸

Sora同样能够把视频往前或往后延伸。下面的视频,它们都是从一个生成的视频片段开始,向后延伸。因此,尽管视频的开头各不相同,但它们最终都汇聚于同一个结尾。

利用这种技术,我们能够将视频向前或向后扩展,创造出完美的无限循环效果。

视频到视频的创新编辑

扩散模型为基于文本提示的图像和视频编辑开辟了新天地。接下来,我们利用这些创新方法之一,SDEdit对Sora进行应用。这项技术赋予了Sora力量,让它能够不需要任何预先示例,就能改变视频中的风格和环境。

视频之间的流畅过渡

我们还可以利用Sora把两个风格迥异的视频平滑连接起来,使它们之间能够自然过渡,仿佛融为一体。

图像的魔法般创造

Sora的能力不仅限于视频,它还能创造出令人惊叹的图像。我们通过在一个时间仅为一帧的空间网格里排列高斯噪声块来完成这一魔法。这样,Sora能够创造出各种尺寸的图像,最大分辨率达到了2048x2048。

涌现的模拟能力

我们发现,在大规模训练下,视频模型展示出了一系列引人注目的涌现能力。这些功能让Sora有能力在一定程度上模拟现实世界中的人、动物和环境。这种能力的涌现,并不需要对三维空间、物体等有任何特定的预设偏好——它们纯粹是由数据规模驱动的结果。

三维空间的连贯性。Sora能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间中保持连贯移动。

远距离连续性与物体持久性。在生成长视频时,保持时间上的连续性一直是个挑战。我们观察到,Sora通常能够有效处理短距离和长距离的依赖关系。比如,即使人物、动物或物体被遮挡或移出画面,我们的模型也能保持它们的连续存在。同样,它能在同一视频样本中多次展示同一角色,确保其外观贯穿始终。

与世界的互动。Sora有时能模拟出简单地影响世界状态的行为。例如,画家在画布上留下的笔触随时间持久存在,或者某人吃汉堡留下的咬痕。

数字世界的模拟。Sora还能模拟数字化过程,如视频游戏。它能在控制Minecraft游戏角色进行基本操作的同时,高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示,即可激发这些能力的展现。

这些功能展示了,不断扩大视频模型的规模,是发展出能高度模拟物理及数字世界——包括其中的物体、动物和人——的高级模拟器的一条有前景的路径。

讨论

作为一个模拟器,Sora当前还有许多局限。比如,它无法精确模拟像玻璃破碎这样的基本物理互动。有些互动,比如吃东西,并不总能正确反映物体状态的改变。我们在OpenAI Sora介绍页中详细列出了模型的其它常见失误,包括长时间视频样本中出现的不一致性或物体的突然出现等问题。

我们相信,Sora现有的能力展现了,继续扩展视频模型的规模是朝向开发出能够精准模拟物理和数字世界以及其中的物体、动物和人类的高级模拟器的一条充满希望的途径。

(注:本文属于翻译转载)

本文链接:https://www.rongxin.vip/openai_sora_31.html

相关文章

网友评论