Sora短片创作者解释人工智能生成视频优点和局限性 _数字科技

　　4月28日消息，据外电报道，OpenAI 的视频生成工具 Sora在二月份让 AI 社区大吃一惊，其流畅、逼真的视频似乎远远领先于竞争对手。但精心策划的首次亮相遗漏了很多细节——这些细节是由一位电影制作人填写的，他可以提前使用 Sora 制作短片。

　　Shy Kids 是一个位于多伦多的数字制作团队，被 OpenAI 选为少数几个主要出于 OpenAI 宣传目的制作短片的团队之一，尽管他们在创作气球空中头时被赋予了相当大的创作自由。

　　在接受视觉效果新闻媒体 fxguide 采访时，后期制作艺术家 Patrick Cederberg 将实际使用 Sora描述为他作品的一部分。

　　也许对大多数人来说最重要的收获就是：虽然 OpenAI 强调这些短片的帖子让读者认为它们或多或少是完全由 Sora 制作的，但事实是这些都是专业制作，配有强大的故事板、编辑、色彩校正、以及动态观察和视觉特效等后期工作。

　　就像苹果公司说在 iPhone 上拍摄但事后没有展示工作室设置、专业灯光和色彩工作一样，Sora 的帖子只谈论它让人们做什么，而不是他们实际上是如何做到的。

　　以下为全文：

　　2月份，我们在SORA上推送了第一个故事; OpenAI 刚刚发布了 SORA 的第一个剪辑，我们当时将其描述为视频中的 DALL·E 的视频版本。 SORA 是一种扩散模型，与任何竞争对手相比，它生成的视频更长、更有凝聚力。通过一次为模型提供多个帧的预见，他们解决了确保主题即使暂时离开视野也保持一致的挑战性问题。 SORA 可以一次性生成整个视频，长度可达一分钟。当时，OpenAI 还发布了技术说明，表明它可以(在未来)扩展生成的视频，使其更长或无缝混合两个视频。

　　在过去的几周里，几个精选的制作团队已获得对 SORA 的有限访问权限。其中最引人注目的团队之一是Shy Kids团队，他们制作了 SORA 短片《Air Head》。西德尼·利德担任这部电影的制片人。沃尔特·伍德曼担任编剧兼导演，帕特里克·塞德伯格负责后期制作。多伦多团队被称为朋克摇滚皮克斯，他们的作品获得了艾美奖提名并入围奥斯卡奖长名单。

　　本周我们与 Patrick 坐下来就 SORA 的现状进行了长时间的交谈。

　　Shy Kids 是一家加拿大制作公司，以其不拘一格和创新的媒体制作方法而闻名。 Shy Kids 起源于电影、音乐和电视等不同学科的创意团队，因其独特的叙事风格和引人入胜的内容而获得认可。该公司经常探索青春期、社交焦虑和现代生活的复杂性，同时保持独特的异想天开和真诚的基调。他们的作品展示了对视觉叙事的敏锐洞察力，并且常常与原创音乐紧密结合，使他们的作品产生共鸣且令人难忘。 Shy Kids 通过拥抱新的人工智能技术和创造力，推动一切成为可能，成功地开辟了一个利基市场。

　　SORA：24 年 4 月中旬。

　　SORA 正在开发中，并通过 Shy Kids 等团队的反馈积极改进，但目前它的工作原理如下。重要的是要认识到 SORA 几乎在 Alpha 版本之前就很有效。它尚未发布，也不是测试版。

　　「玩它非常有趣。」帕特里克评论道。「这是一个非常非常强大的工具，我们已经在构思它可以融入我们现有流程的所有方式。但我认为任何生成式人工智能工具;目前，控制仍然是最令人渴望的，也是最难以捉摸的。」

　　用户界面

　　用户界面允许艺术家输入文本提示;然后，OpenAI 的 ChatGPT 将其转换为更长的字符串，从而触发剪辑生成。目前，没有其他输入;它尚未实现多式联运。这一点很重要，因为虽然 SORA 在一次镜头中的物体一致性受到了正确的赞扬，但没有任何东西可以帮助使第一个镜头中的任何内容在第二个镜头中匹配。即使您第二次运行相同的提示，结果也会不同。

　　「我们能得到的最接近的结果就是在提示中进行过度描述。」帕特里克解释道。「解释角色的服装以及气球的类型是我们解决一致性的方法，因为逐个镜头/一代又一代，还没有适当的功能集来完全控制一致性。」

　　各个剪辑对于它们所代表的技术而言都是非凡且令人瞠目结舌的，但剪辑的使用取决于您对隐式或显式镜头生成的理解。假设你要求 SORA 在厨房里拍摄一张桌上有香蕉的长镜头。在这种情况下，它将依靠对香蕉性的隐式理解来生成显示香蕉的视频。通过训练数据，它学习了香蕉的隐含方面：例如“黄色”、“弯曲”、“有深色末端”等。它没有实际记录的香蕉图像。它没有“香蕉库存库”数据库;它的压缩隐藏空间或“潜在空间”比香蕉小得多。每次运行时，它都会显示对该潜在空间的另一种解释。你的提示回应了对香蕉性的隐含理解。

　　提示正确的事情

　　对于《Air Head》，场景是通过根据近似脚本生成多个剪辑来制作的，但没有明确的方法使实际的黄色气球头在每个镜头中都相同。有时，当团队提示使用黄色气球时，它甚至不是黄色的。其他时候，它有一张脸嵌入其中，或者一张脸似乎画在气球的前面。由于许多气球都有绳子，通常绰号“气球人”桑尼的“空气头”角色会在角色的衬衫前面系一根绳子。由于它隐式地将字符串与气球链接起来，因此需要在后期删除这些气球。

　　解决

　　Air Head仅使用 SORA 生成的素材，但其中大部分都经过了分级、处理和稳定，并且所有这些素材都经过了升级或提升。团队使用的剪辑以较低的分辨率生成，然后使用 SORA 或 OpenAI 之外的 AI 工具进行压缩。 “您可以达到 720 P(分辨率)，”Patrick 解释道。 “我相信 1080 功能已经推出，但需要一段时间(渲染)。我们以 480 度的速度完成了所有的Air Head，然后使用Topaz进行直立。”

　　提示“时间”：老虎机。

　　原始提示会自动扩展，但也会沿着时间线显示。 “您可以进入那些较大的关键帧，并根据您想要生成的更改开始调整信息。”帕里克解释说，“对于这些不同的行为在实际生成中发生的位置有一点时间控制，但这并不精确……这有点像老虎机一样，无法确定它是否真正实现了这些目标。”事已至此。”当然，Shy Kids 正在开发最早的原型，而 SORA 仍在不断开发中。

　　除了选择分辨率之外，SORA 还允许用户选择宽高比，例如纵向或横向(或方形)。这在从桑尼的牛仔裤到他的气球头的镜头中派上了用场。不幸的是，SORA 本身不会渲染这样的动作，总是希望镜头的主要焦点——气球头——出现在镜头中。因此，团队以纵向模式渲染镜头，然后通过裁剪手动创建后期平移。

　　提示相机方向

　　对于许多 genAI 工具来说，一个有价值的信息来源是训练数据附带的元数据，例如相机元数据。例如，如果您训练静态照片，相机元数据将提供镜头尺寸、光圈值和许多其他关键信息供模型训练。对于电影镜头，“跟踪”、“平移”、“倾斜”或“推入”的想法都不是元数据捕获的术语或概念。尽管物体的永久性对于镜头制作至关重要，但能够描述镜头也同样重要，帕特里克指出，最初在 SORA 中并非如此。 “对于如何描述电影场景中的一个镜头，九个不同的人会有九种不同的想法。 (OpenAI) 研究人员在让艺术家使用该工具之前，并没有真正像电影制作人那样思考。” Shy Kids 知道他们的访问时间很早，但“关于摄像机角度的初始版本有点随机。” SORA 是否真的会记录提示请求或理解它尚不清楚，因为研究人员刚刚专注于图像生成。 OpenAI 对这一请求的惊讶程度让 Shy Kids 几乎感到震惊。 “但我想当你只是作为研究人员时，而不是考虑讲故事的人将如何使用它……SORA 正在改进，但我仍然会说控制还不太到位。你可以放入一个‘相机平底锅’，我想你十次中有六次都会得到它。”这并不是一个独特的问题，几乎所有主要的视频 genAI 公司都面临着同样的问题。Runway AI在提供描述摄像机运动的 UI 方面可能是最先进的，但 Runway 的质量和渲染剪辑的长度不如 SORA。

　　渲染时间

　　剪辑可以在不同的时间段内渲染，例如 3 秒、5 秒、10 秒、20 秒，最多一分钟。渲染时间根据一天中的时间和云使用需求而变化。 “一般来说，每次渲染大约需要 10 到 20 分钟，”Patrick 回忆道。 “根据我的经验，我选择渲染的持续时间对渲染时间影响很小。如果为 3 到 20 秒，则渲染时间在 10 到 20 分钟范围内往往不会变化太大。我们通常会这样做，因为如果你有完整的 20 秒时间，你希望有更多的机会来分割/编辑内容，并增加获得看起来不错的东西的机会。”

　　虽然所有图像都是在 SORA 中生成的，但气球仍然需要大量的后期工作。除了隔离气球以便重新着色之外，它有时还会在 Sonny 上有一张脸，就好像他的脸是用记号笔画出来的，这会在 AfterEffects 中删除。类似的其他文物经常被移除。

　　编辑 300:1 拍摄比例

　　《害羞的孩子》的方法是像纪录片一样进行后期制作和编辑，其中有很多镜头，你可以根据这些材料编织一个故事，而不是严格按照剧本拍摄。短片有剧本，但团队需要灵活应变。 “只是获得了一大堆镜头，并试图以一种有趣的方式将其剪辑给旁白，”帕特里克回忆道。

　　帕特里克估计，对于影片中最后一分半钟的镜头，“每段 10 到 20 秒的时间可以产生数百代人”。补充道，“我的数学很差，但我猜源材料的数量与决赛最终的数量可能是 300:1.”

　　合成多个片段并重新定时

　　在《Air Head》中，团队没有将多个镜头组合在一起。例如，气球飘过赛车场的镜头都是在一个镜头中生成的，与所见的一样。然而，他们正在制作一部新电影，将多个镜头混合并合成到一个剪辑中。

　　有趣的是，许多Air Head剪辑都是以慢动作拍摄的方式生成的，而提示中并未要求这样做。发生这种情况的原因不明，因此许多剪辑必须重新定时才能看起来像是实时拍摄的。显然，这比减慢快速运动的相反操作更容易，但从训练数据中推断出的这似乎是一个奇怪的方面。 “我不知道为什么，但看起来确实有很多剪辑速度为 50% 到 75%，”他补充道。 “因此，需要对时间进行大量调整，以防止这一切感觉像是一个大型慢动作项目。”

　　照明和分级

　　Shy Kids 在他们的提示中使用术语“ 35 毫米胶片”作为关键字，并且普遍发现提示35 毫米给出了他们所寻求的一致性水平。 “如果我们需要高对比度，我们可以说高对比度，并说关键照明通常会给我们带来接近的东西，”帕特里克说。 “我们仍然需要对其进行全色彩分级，并且我们做了自己的数字电影外观，我们应用颗粒和闪烁来将它们融合在一起。”没有其他通道(例如遮罩或深度通道)的选项。

　　版权

　　OpenAI 试图保持尊重，不允许生成侵犯版权的材料或生成看似来自他人的图像。例如，如果您提示诸如未来宇宙飞船中的 35mm 胶片、一名男子拿着光剑向前走， SORA 将不允许生成该剪辑，因为它太接近星球大战了。但害羞的孩子们在早期测试中意外地遇到了这一点。帕特里克回忆道，当他们最初坐下来只是想测试 SORA 时，“我们在角色背后拍摄了一个镜头;这有点像阿罗诺夫斯基的跟随镜头。我认为这只是我愚蠢的大脑，因为我很累，但我把‘阿罗诺夫斯基式射击’放进去，然后被击中了，不能这样做。”他回忆道。Hitchcock Zoom是另一个现在通过技术术语渗透而出现的东西，但 SORA 出于版权目的拒绝了这一提示。

　　声音

　　害羞的孩子除了视觉技能外，还以其听觉技能而闻名。短片中的音乐是他们自己的。 “我们几乎立即就决定了这首歌，因为这首歌的名字是《风》， ”帕特里克说。 “我们都喜欢它。”

　　帕特里克本人为桑尼配音。 “有时我们会觉得这部电影需要另一个节奏。所以我会写另一行，记录下来，并提出更多的 SORA 代，这是帖子中该工具的另一个强大用途：当你处于角落，并且需要填补空白时，这是一个很棒的工具这是一种开始集思广益的方式，然后将剪辑吐出来，看看可以用什么来解决节奏问题。”

　　概括

　　SORA 是非凡的; Shy Kids 团队仅用 3 人的团队在大约 1.5 至 2 周内制作了《Air Head》。该团队已经在制作一部精彩的、有自我意识的、或许还有讽刺意味的续集。 “后续内容是对气球人桑尼的新闻报道，以及他对名声的反应以及随后与世界的争吵，”帕特里克说。 “我们正在探索新技术!”该团队希望在实验中更具技术性，将 SORA 元素的 AE 合成融入到真实的实景镜头中，并使用 SORA 作为补充视觉特效工具。

　　SORA 非常新，甚至 OpenAI 为 SORA 勾勒和演示的基本框架也尚未可供早期测试使用。目前形式的 SORA 是否会很快发布还值得怀疑，但它在特定类型的隐式图像生成方面是一个令人难以置信的进步。对于高端项目，可能需要一段时间才能达到导演所要求的具体程度。对于许多其他人来说，它“足够接近”，同时提供令人惊叹的图像。Air Head仍然需要大量的编辑和人力指导来制作这部引人入胜且有趣的故事电影。 “我只是觉得人们必须将 SORA 作为他们流程中真实的一部分;然而，如果他们不想参与类似的事情，也没关系。”