出品机构:甲子光年智库研究团队:张一甲、宋涛发布时间:2024.03*刘瑶、小麦对本报告亦有贡献。“一类人有一类人原力觉醒的方式。物理学家想学习上帝;数学家想反抗上帝;哲学家认为自己就是上帝;生物学家想造上帝的反……工程师说都不用,我们再造一个。”——《甲小姐:站在两个世界之间》甲子光年2017.10目录Part02AIGC视频生成推动世界走向“AI创生时代”Part03“提示交互式”视频制作范式重塑视频产业链Part04文娱领域有望开启第二轮投资浪潮Part01AIGC视频生成的技术路线与产品演进趋势1.1Sora让文生视频迎来“GPT-3”时刻OpenAI发布文生视频模型Sora,堪称视频生成领域的“GPT-3”时刻“Sora”一词在微信指数及百度指数的关注度快速上升2月16日微信指数快速上升百度关键词搜索趋势处于高位效果逼真:普通人一时难以分辨时长感人:60秒高清视频生成“百万”剪辑:堪比专业的镜头语言多模态:文字、图片、视频皆可生成视频春节假期甚至还未结束,Sora已引发全民关注“炸裂”视频效果成为讨论热点1.2Sora的展现效果Sora模型展现自身超强视频生成及剪辑能力,超出其他竞品一个段位能力项Sora其他模型基本视频生成视频时长60秒20秒以内视频长宽比1920*1080之间的任意尺寸固定尺寸比例,例如16:9,9:16,1:1等视频清晰度1080p部分upscale后达到4k多模态生成语言理解能力强弱文本生成视频支持支持图片生成视频强支持视频生成视频支持支持视频编辑文本编辑视频支持支持扩展视频向前/向后扩展仅支持向后视频的无缝连接支持不支持独特模拟能力3D一致性强弱或不支持远程相干性和物体持久性强弱世界交互强弱数字世界模拟支持不支持Sora的语言理解能力更强,可将简短的用户提示转换为更长的详细描述Sora还可以生成图片,最高可达到2048*2048分辨率Sora通过插帧技术,实现完全不同主题和场景构图的视频之间的流畅自然的过渡效果Sora可生成具有动态摄像机运动效果的视频,随着摄像机的移动和旋转,人和场景元素在三维空间中保持一致移动Sora可以对短期和长期依赖关系进行建模,保持各个主体的时空连贯性和一致性Sora以简单的方式模拟影响世界状态的行为,比如一个人吃完汉堡可以在上面留下咬痕Sora还能够模拟人工过程,比如视频游戏,同时通过基本策略控制玩家,同时以高保真度渲染世界及其动态模型Gen-2pika1.0StableVideoDiffusionEmuVideoW.A.L.T开发团队RunwayPikaLabsStablityAIMeta李飞飞及其学生团队、谷歌时间2023年11月2023年11月2023年11月2023年11月2023年12月长度4-18秒3-7秒2-4秒4秒3秒分辨率768*448,1536*896,4096*21601280*7202560*1440576*1024512*512512*896是否开源非开源非开源开源非开源非开源其他模型情况1.2Sora的展现效果大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性3D一致性:确保景别切换时运镜的连贯12341234以上四个镜头由远及近,保证了视频镜头中人和场景的一致性,是其他AI生成视频中少见的。远程相关性和物体持久性以上四个镜头在同一视频中生成,包括机器人的多个角度。画家可以在画布上留下新的笔触,并随着时间的推移而持续存在。与世界互动:Sora有时可以用简单的方式模拟影响世界状况的动作模拟数字世界例如,Sora可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。不同主题场景视频的无缝连接一键进行风格渲染基于时空双维度的视频扩展文/图像/视频生视频的功能视频剪辑功能OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“theyarepurelyphenomenaofscale”——它们纯粹是“规模现象”,这再一次验证了“暴力美学”。1.3Sora的出现意味着AGI的又一个里程碑时刻Sora意味着scalinglaw(规模法则)再次验证,推动文生视频进入“GPT-3”时刻Scalinglaw(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scalinglaw和原有模型拉开了差距,为视频生成领域提供了另一条可以走通的路线,推动行业进入全新的阶段。文生视频的“GPT-3”时刻:从发展阶段类比,Sora更像文本模型的GPT-3时刻。ChatGPT让人类...