OpenAI最近发布了一款名为Sora的新型文生视频大模型,这个模型能够根据文本指令生成长达60秒的高清视频。Sora不仅能够创造逼真和充满想象力的场景,而且还能够在视频中包含多个角色、展现特定的动作类型,以及对对象和背景的精确细节描绘。例如,在一段演示视频中,Sora展示了从天空俯瞰的东京街道,跟随一对牵手的情侣走过日本风格的街道。
Sora的工作原理基于扩散模型,这种模型从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。此外,Sora还使用了Transformer架构,具有极强的扩展性。在训练方面,OpenAI利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,从而使模型能更好地遵循文本指令。
尽管Sora的能力令人印象深刻,但它也存在一些弱点。例如,Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,在某个视频中,一个人咬了一口饼干后,饼干却没有留下咬痕。
目前,Sora还未向公众开放使用,OpenAI担心深度伪造视频的滥用问题。现在只有一部分视觉艺术家、设计师和电影制作人有内部试用机会。此外,OpenAI还在与第三方安全测试人员共享该模型,进行红队测试,以确保其安全性和可靠性。
总的来说,Sora的出现代表了AI视频生成领域的一大突破,它不仅能够生成长达60秒的视频,还能在视频中展现丰富的细节和情感,从而为内容创作和媒体制作带来新的可能性。
未经允许不得转载:445IT之家 » OpenAI震撼发布Sora 60秒高清视频 一触即发