Sora问世，带来哪些新机遇？来听科创学者怎么说

发布者：吴健发布时间：2024-02-23浏览次数：10

去年，ChatGPT所带来的震撼还令我们记忆犹新。最近，OpenAI又悄无声息地放出了“大招”。文生视频大模型——Sora的出现再次颠覆人类对AI视频认知。

近日，浙江日报记者走进浙江大学杭州国际科创中心（简称科创中心）信息港园区，和生物与分子智造研究院AI交叉中心专家学者一起畅聊Sora。那么，什么是Sora大模型？Sora问世，将带来哪些新机遇？我们一起来看解读。

分镜头多角度，画面精细流畅，时长是此前市场上产品的2~5倍……2月16日，曾因ChatGPT一炮走红的人工智能研究公司OpenAI推出的文生视频大模型Sora，令全球从事文字、音视频以及科技的工作人士惊叹不已。

就在OpenAI已公布的演示视频中，我们看到一名时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街头；看到两艘海盗船在咖啡杯中缠斗，咖啡如海浪汹涌；看到可爱的水獭穿着黄色救生衣站在滑板上冲浪……惟妙惟肖，与实景拍摄、高清特效无异。网友的评价也出奇一致：炸裂！惊艳！颠覆！

Sora到底厉害在哪里？它又将掀起哪些新的浪潮？

Sora可简单视作一个人工智能视频生成工具：只需我们输入一段文字，它就能创建一个与真实世界接近的虚拟世界，时长可达60秒。此前在文生视频领域，谷歌、Meta、Runway、Pika等产品大都在30秒甚至10秒之内。

更让人啧啧称奇的是，Sora生成的视频，无论是光影色彩的转变，还是多镜头多角度的切换，甚至细微到纹理结构变化，都呈现出“大片感”。

“事实上，Sora依然遵循OpenAI的规模理论——大量数据、大模型和大量算力。”浙江大学杭州国际科创中心求是科创学者、AI交叉中心专家丁科炎估计，Sora与ChatGPT一样，也是来自大力出奇迹的“暴力美学”。Sora有远超同类的表现，其核心技术与底层逻辑却被普遍认为“还是老一套”，即时空Patch技术和DiT架构。

“打个比方，我们可以将一堆杂乱无章的积木整理好放入一个个小盒子中。如此一来，即便面对众多积木，只要找到了这个小盒子就能轻松找到所需积木。”丁科炎也给出自己的解读，由于前期用于训练的海量视频数据被转化成一个个“小方块”，当我们向Sora提供一个新任务时，AI就会从视频数据中提取出一些包含时间和空间信息的“小方块”，并将之交给Sora，让其根据这些信息生成新视频。

要知道，在文字、图片、视频等不同体裁中，视频生成是最难的。Sora不仅要理解文本指令的含义，即语义理解能力，不能输入“女孩”出来一“老头”，也不能违背逻辑与物理规则，如输入“狗坐在椅子上”出来“狗嵌入了椅子”；生产效果要好，画面流畅程度、稳定性、连贯性等都不能缺，比如太阳在左上角，不能右下角又无故生出阳光；还有就是时长，时间越长，视频表现力越强，AI“露馅”的可能性也越大。

Sora模型在模拟基本物理交互，如玻璃破碎等方面，不够精确。这可能是因为模型在训练数据中缺乏足够的这类物理事件的示例，或者模型无法充分学习和理解这些复杂物理过程的底层原理。“Sora还无法理解类似中国诗画的深刻意境。” 科创中心求是科创学者张强说，“我们距离通用人工智能的目标虽然还有相当的距离，但正在以越来越快的速度来挨近它。”

导航

Sora问世，带来哪些新机遇？来听科创学者怎么说