媒体聚焦

Sora问世,带来哪些新机遇
来源:浙江日报 发布时间:2024-02-23

分镜头多角度,画面精细流畅,时长是此前市场上产品的2~5倍……216日,曾因ChatGPT一炮走红的人工智能研究公司OpenAI推出的文生视频大模型Sora,令全球从事文字、音视频以及科技的工作人士惊叹不已。

  就在OpenAI已公布的演示视频中,我们看到一名时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街头;看到两艘海盗船在咖啡杯中缠斗,咖啡如海浪汹涌;看到可爱的水獭穿着黄色救生衣站在滑板上冲浪……惟妙惟肖,与实景拍摄、高清特效无异。网友的评价也出奇一致:炸裂!惊艳!颠覆!

  而这,也被视作整个AI产业、视频产业的新挑战、新机遇。连日来,有人为新“风口”的到来振奋不已;有人如音视频领域从业者感受到了危机:“要失业了。”

Sora到底厉害在哪里?它又将掀起哪些新的浪潮?

   “没想到这一天来得这么快!”“没想到效果这么有颠覆性。”这是记者采访业界人士时听到最多的两句话。

  尽管截至记者发稿,Sora尚未公开发布或未公测,有的只是OpenAI公布的数十段演示视频。但前有ChatGPT为证,后有Sora远超其他模型的效果——任谁都会思考,一个新的时代是否来了?

Sora可简单视作一个人工智能视频生成工具:只需我们输入一段文字,它就能创建一个与真实世界接近的虚拟世界,时长可达60秒。此前在文生视频领域,谷歌、MetaRunwayPika等产品大都在30秒甚至10秒之内。

更让人啧啧称奇的是,Sora生成的视频,无论是光影色彩的转变,还是多镜头多角度的切换,甚至细微到纹理结构变化,都呈现出“大片感”。

要知道,在文字、图片、视频等不同体裁中,视频生成是最难的。Sora不仅要理解文本指令的含义,即语义理解能力,不能输入“女孩”出来一“老头”,也不能违背逻辑与物理规则,如输入“狗坐在椅子上”出来“狗嵌入了椅子”;生产效果要好,画面流畅程度、稳定性、连贯性等都不能缺,比如太阳在左上角,不能右下角又无故生出阳光;还有就是时长,时间越长,视频表现力越强,AI“露馅”的可能性也越大。

“事实上,Sora依然遵循OpenAI的规模理论——大量数据、大模型和大量算力。”浙江大学杭州国际科创中心求是科创学者、AI交叉中心专家丁科炎估计,SoraChatGPT一样,也是来自大力出奇迹的“暴力美学”。

“打个比方,我们可以将一堆杂乱无章的积木整理好放入一个个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。”丁科炎也给出自己的解读,由于前期用于训练的海量视频数据被转化成一个个“小方块”,当我们向Sora提供一个新任务时,AI就会从视频数据中提取出一些包含时间和空间信息的“小方块”,并将之交给Sora,让其根据这些信息生成新视频。

“某种程度上,Sora已经可以像人一样,对世界有了一定认知。”丁科炎说。

目前来看,Sora有自己的局限性,或将成为各方追赶的机遇。

Sora还无法理解类似中国诗画的深刻意境。”浙江大学杭州国际科创中心求是科创学者张强说。中国绘画史上有个著名典故叫“深山藏古寺”。有人在山腰间画座古庙,半遮半露;有些只能让古寺露出小角。但最佳答案是,崇山峻岭之中有和尚在挑水。

机遇,还在于比拼的最终方向并不只是Sora,而是通用人工智能(AGI)。