该模型还可以基于静止图像生成视频,以及在现有视频中填充缺失帧或扩展它。OpenAI的博客文章中包含了由sora生成的演示,其中包括淘金热期间加利福尼亚的航拍场景,一段看起来像是从东京火车内部拍摄的视频,等等。其中许多都有一些人工智能的迹象——比如博物馆视频中可疑的移动地板——OpenAI表示,该模型“可能难以准确地模拟复杂场景的物理效果”,但总体上的结果相当令人印象深刻。
几年前,像Midjourney这样的文本到图像生成器在模型将文字转换为图像的能力方面处于领先地位。但最近,视频已经开始以惊人的速度发展:像Runway和Pika这样的公司已经展示了他们自己令人印象深刻的文本到视频模型,谷歌的Lumiere也被认为是OpenAI在这个领域的主要竞争对手之一。与Sora类似,Lumiere为用户提供了文本到视频的工具,也允许他们从静止图像创建视频。
Sora目前只提供给“红队”,他们正在评估该模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制作人提供了获取反馈的渠道。它指出,现有的模型可能不能准确地模拟复杂场景的物理现象,也可能不能正确地解释某些因果关系。
本月早些时候,OpenAI宣布将在其文本图像转换工具DALL-E 3中添加水印,但同时指出,水印可以“很容易地删除”。与其他人工智能产品一样,OpenAI将不得不应对假的人工智能逼真视频被误认为真实视频的后果。




