文生视频，不能只“叫好”

2024-03-27 11:43:08 来源：法人杂志作者：李辽

◎ 文《法人》杂志全媒体记者李辽

一位身穿皮衣的时髦女人走在日本东京雨后的街头，她的身后霓虹闪烁、游人穿梭，地面上的积水映出光怪陆离的城市倒影。跟随她自信的脚步，镜头移动，水中倒影变幻，与繁华的街头交相辉映。切换到脸部特写，女人展露出惬意的笑容，墨镜映照出这座城市的灵动镜像······

▲cfp

这段视频总长60秒，一镜到底，画面主体稳定，人物表情生动，场景逼真，运镜复杂，一经发布便引发热议。因为这并非实景拍摄，而是今年2月，由openai公司推出的文生视频大模型sora根据文本提示所生成，其以假乱真的程度令人惊叹“眼见不再为实”，也对即将到来全新的ai风险显现出隐隐担忧。

从“一眼假”到“真假难辨”

文生视频是生成式ai的一个重要分支，能够根据用户提供的文字内容和图片自动生成视频。上一个引发网络热议的ai生成视频是2023年年初网友发布的“威尔·史密斯吃意大利面”。该视频画质粗糙，主人公动作机械，面条在快要进嘴时发生严重形变，无端消失后又重新从下巴出现，各种诡异、滑稽而又尴尬的细节提醒着大家，这是一个“ai味十足”的视频。

当时，ai生成视频仅停留在博网友一笑的层面，很难正常使用，更别提为商业赋能。但不到一年时间，sora发布的几段视频竟足以令人真假难辨。

据悉，这次sora发布了多个视频。除了时髦女人在东京街头的漫步，还有ai想象中的龙年春节视频，画面中有舞狮团队、抬头观望的儿童、举着手机拍照的路人，近百人在各自的角色中有条不紊地活动。另有一段视频，镜头对准列车窗玻璃，当列车行驶时，窗外不时出现近距离的高楼遮挡物，此时车内人物投射在窗玻璃上的镜像短暂出现，惊鸿一瞥，让人很难看出破绽。

近日，浙江大学光华法学院特聘研究员、硕士生导师周翔在接受《法人》记者采访时称：“此次sora生成的视频，在保持一致的连续时空内，对合成内容中的最小单元进行了有意义的关联组合，将其拼接成一段有逻辑的动感视频，展现了令人震撼的技术。”

中国科学院大学计算机博士、瑞泊（北京）人工智能科技有限公司联合创始人苟甜也认为，这次sora生成的视频说明，它可以很好地理解空间与时间的关系，实现了对现实世界的理解和对世界的模拟两层能力。她举例说：“东京街头的视频中，水洼中的倒影跟随镜头移动发生变化，而这个变化符合物理规律，但之前的视频做不到这么精细。另一段视频中，镜头以第一人称视角，跟随滑轨车从高处滑下，呈现出的空间感十分真实，但此前的视频展现出的空间感却显得混乱，可以说是‘一眼假’。”

如今，sora能生成60秒的视频，已经把以往的模型和其他模型远远甩在身后。毕竟，有很多模型仍在几秒钟的视频连贯性中苦苦挣扎。

趣解生成原理

大模型的训练原理是什么？文生视频sora的原理又是什么？为什么之前的视频达不到逼真的效果？

苟甜做了一个形象的比喻：“训练大模型如同我们要训练一个人闭着眼睛打麻将。初始阶段，我们让他只接触‘一饼’的牌，通过触感来记忆它的形状和质感。随后引入‘二饼’和‘三饼’，让他通过触摸来区分和记忆每种牌的特点。虽然他看不到牌的具体模样，但通过触感学习能够识别出不同的牌。在学习过程中，他还被告知，当这三种牌结合在一起时，可以形成一种赢牌的组合。通过这种方式，即便是闭眼，他也能根据已学的触感策略来玩游戏并寻求胜利。”

她说：“当sora对海量视频进行学习时，其实不只是学习了视频中的画面特征。可能还学习到，随着时间推移，一些物体动作的变化引起其它物体变化，这种真实世界中的互动关系，从而对真实世界进行了较好的模拟。同时，sora也学习到了视频对应提示文字内容中的语义特征。”但她也称，这次sora的成功，倒不是因为其背后所使用的技术有多大创新，而是使用了更多更好的数据。通过收集和预处理大量视频数据来训练模型，并使用gpt-4等语言模型对提示的文字进行细化和润色，同时融合了transformer模型和扩散模型技术。“事实证明，‘大力出奇迹’的技术路线再次展现出强大威力。”

周翔认为，就像是为了练就修建大桥的能力，不断将大桥拆散再拼装，在反复的过程中，去学习跨结构、支座系统、桥墩、桥台和墩台之间的组合关系。因此，sora学习视频的过程并非简单和随机的，而是对物理世界进行了充分理解。

尽管目前sora并未使用与以往不同的新技术，但其视频生成方式需要强大的算力和巨大的资金支持。对于一个60帧的视频（约6秒至8秒），sora要生成至少约120万个token（文本处理最小单位），这是相当大的计算量，无疑提高了门槛，使同行难以跟进。这也意味着，未来对算力的需求将再次迎来爆发。

谈“颠覆”为时过早

目前，文生视频主要应用在传媒影视领域。sora展现出的强大视频生成能力，让人不禁担心，未来是否将淘汰掉编剧、导演、演员、摄影、灯光、特效等传统工种？其实，早在2016年，ai就参与到影视剧本的创作中。在当年的伦敦科幻电影节，名为“benjamin”的ai模型在学习了《星际穿越》等多部科幻影片的剧本之后，创作出了长达9分钟的科幻电影《sunspring》。这让网友惊叹：“编剧不是人，这才是真正的科幻。”

据悉，sora生成视频发布后，科幻片导演葛云峰便与团队紧急开会，探讨后期制作业务转型、新片拍摄调整等问题。他对媒体称：“新片预计投资数千万元规模，如果后期制作引入sora或类似模型，预计拍摄成本会降低700万元至800万元，相当于空出了一位或者几位主演的片酬。”另一位科幻片导演郁刚则对媒体表示，sora的出现，意味着科幻电影的优秀创作者终于不再被巨额视效费用限制。

在电影制作界，ai平台wonder studio被广泛应用于3d效果生成。北京冬奥会开幕式倒计时短片导演龙江波因为擅长利用特效，被网友们称为视觉系导演。他称：“如果之后sora继续进化，再与wonder studio相结合，3d动画及相关行业将被颠覆。”

但目前，龙江波还没有应用sora进行电影创作。“要说它能颠覆整个电影行业，还为时过早。”他称，制作一部电影非常复杂，“要有引发观众共鸣的剧本，根据每一个情节做相应分镜，寻找演员拍摄，完成后要将拍摄素材进行剪辑，而sora目前还无法对这个任务拥有成熟的理解。另外，真人表演及表情的随机感和温度感极为复杂和不可预测，这种不确定性和非工业性，往往是作品独特的魅力所在。就像社会发展到今天，仍然会有手工作业的模式存在。不可否认，ai制作开创了一个新纪元，它一定是一个绝佳的数字工具，创作者自身的美学和认知及观点的输出和表达，会变得比以往更加重要。具体来说，其中最为重要的是创作者要懂得如何选择，如何在大大小小的节点中懂得作判断，真正好的作品都是基于无数个超凡智慧的选择而成为经典，而不是依靠某种工具，神笔马良的故事是童话、神话，却不是科学。”

想让模型生成一部真正的电影，苟甜认为，首先它必须是一位非常成熟的电影制作人，知晓电影制作背后的所有步骤，明白怎么拆分任务，但目前，专业知识在模型的整个知识体系里占比较小。“现在模型学习到的，更多是一种对事物或事件的描述性语言，是对结果的描述，缺少实现结果的步骤，也就是说缺少过程数据。因此，目前能让sora发挥效果的领域，可能只是在电影制作分拆后的每个阶段性任务中。”

“眼见不再为实”

近年来，多地出现ai诈骗及不当牟利案件。2023年5月24日，中国互联网协会称，利用“ai换脸”“ai换声”等进行诈骗、诽谤的违法行为屡见不鲜。

今年2月香港警方披露的多人“ai换脸”诈骗案，涉案金额高达两亿港元。受害人受邀参加某企业总部首席财务官发起的“多人视频会议”，并按照要求先后进行转账，一周后才知受骗。而这起所谓的视频会议，只有受害人是“真人”，其他“参会人员”均为ai技术换脸的数字人。

可见，ai风险一直存在，而sora又将这种可能性扩大了一个数量级，如果被不法分子利用，将使犯罪成本大大降低。同时，一旦ai生成视频技术得到推广，视频证据的法律效力也面临更大考验。比如，在提交视频证据时，必须先对视频证据的真伪进行鉴定。或许，能够分辨视频真假的甄别技术也该适时出现。

永生人的伦理问题也引发了业内的热烈探讨。电影《流浪地球2》中，刘德华饰演的科学家，在女儿丫丫车祸去世后，利用ai技术复刻了一个数字人“丫丫”，可以即时应答与互动。现实中，音乐人包小柏在痛失女儿后，利用ai技术，重现女儿影像，不仅可以唱歌还可以对话，使女儿在数字世界“复活”并“永生”。

用ai“复活”逝去的亲人，可以抚慰人心和填补遗憾，这样的产业极具市场前景。据悉，南京有一个5人的ai技术团队，在半年多时间里，利用ai技术帮助顾客复活逝去的亲人，帮助600个家庭实现了“在线团聚”。

其积极意义无法忽视，但另一方面，如果该类技术成熟，人类的伦理规则也许会发生重构。“如果利用ai技术对没有本人授权的形象进行数字人的创造，并做出不被本人许可的行为，甚至利用数字人进行非法犯罪，将为社会带来较大风险。”苟甜称，“因此，在叫好的同时也要保持警惕。”

编审｜渠洋

责编｜惠宁宁

校对｜张波张雪慧

编辑：刘晓莹

文生视频，不能只“叫好” -ks8凯发官方网站