/

好莱坞告急！OpenAI发布Sora模型，瞬间生成高清大片原创

作者：刘文轩

细腻的场景、复杂的运镜、情绪饱满的角色，简直以假乱真！

OpenAI这两天发布一款名为“Sora”的视频生成AI，和许多视频生成工具一样，用户只要给出文字叙述或静态图片，Sora 就能自动生成 1080p 的动画，可以支持各种不同的角色、动作类型和背景画面。

“Sora”的名称源自日语的“天空”（そら），能够生成长达1分钟的视频，光是这一点就已经超越当前许多同类产品。OpenAI 已经向一些研究人员和创作者开放 Sora 的访问权限，OpenAI 在社交平台 X 发布的范例视频中，可以看到细腻的场景、复杂的运镜和情绪饱满的角色。

Sora 使用约10000 小时的”高品质“视频训练，OpenAI 表示，Sora 基于DALL·E、GPT 模型的研究成果，一方面使用DALL·E 3 的重述技术，能为视觉数据生成高度描述性的标题，所以Sora 可以更好地遵循用户的指令，生成情感丰富、引人入胜的角色，甚至还能深入理解指令提到的人、事、物在现实世界中的样子。

OpenAI的研究人员Bill Peebles在X上公布了几段视频和相应的提示词，比如这个“阴森恐怖的鬼屋，友好的杰克灯笼和幽灵人物在入口处欢迎捣蛋鬼，移轴摄影”，视频画面很好地呈现了描述词的内容。

知名科技YouTuber Evan Kirstel直接用“SORAWOOD”替换“HOLLYWOOD”的梗图表达对Sora的感叹。

NVIDIA科学家Jim Fan观察到一些针对Sora的质疑，包括那些认为Sora生成视频的过程只是在操作2D像素，对物理并没有真正的理解。他认为这样的观点过于片面，Sora 的软物理模拟是在大规模扩展文本到视频训练时产生的一种自然而然的特性。

Jim Fan在推文中分析称，GPT-4 必须内部学习某种语法、语义和数据结构，才能生成可执行的 Python 代码，Sora 也必须学习文本到三维图像、三维变换、光线追踪渲染和物理规则的隐性知识，这样它才能尽可能准确地模拟视频像素。它需要掌握游戏引擎的概念来达成这个目标。

如果不考虑交互性，虚幻5可以看作是一个生成视频像素的复杂过程。Sora 同样是一个生成视频像素的过程，但它是基于端到端的 Transformer 来实现的。这两者在抽象层面上是相同的。但不同之处是，UE5 是精心设计且精确的，而 Sora 则是完全通过数据学习和直觉来实现的。

不过Jim Fan也指出，Sora对物理的理解还很脆弱，远非完美，而且它还经常产生一些与我们常识不符的幻觉。它在理解物体互动方面还有很大的不足。

Sora 就像 GPT-3 的一个重要时刻。回顾 2020 年，GPT-3 尽管不够完善，需要大量的提示优化和监督，但它是第一个令人瞩目的在上下文中学习并展示出这种特性的模型，GPT-3固然有许多不足之处，但是想象一下，在不久的将来，GPT-4 将会带来怎样的变化。

在这些争论之外，已经有用户利用Sora“赚到钱了”，X平台上这位ID为“JamesGoong”的用户表示，他上线了一个sora app落地页，成交了一个年付。

从OpenAI官方公布的效果来看，和其他文字生成视频AI模型相比，Sora确实是令人印象深刻的进步。不过OpenAI自己也表示Sora还存在很多问题，可能难以准确模拟复杂场景的物理原理，也可能无法理解因果关系。

OpenAI 表示，他们还将与专家合作，找出模型的漏洞，并建立配套工具，来检测网上的视频是否由Sora 生成；同时还会与全球政策制定者、教育者、艺术家接触，来探讨如何不被滥用。

来源：至顶网商用办公频道

0赞

好文章，需要你的鼓励

推荐文章

英特尔助火山引擎“优化”AI云技术内核

英特尔

火山引擎

2025-12-19

英特尔助火山引擎“优化”AI云技术内核

“在中国公有云上，每产生两个tokens，就有一个是由火山引擎生产。”

Allen AI团队推出SAGE：首个能像人类一样“想看多长就看多长“的智能视频分析系统

人工智能

视频理解

多模态推理

2025-12-19

Allen AI团队推出SAGE：首个能像人类一样“想看多长就看多长“的智能视频分析系统

Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统，首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略，配备六种智能工具进行协同分析，在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台，并采用创新的AI生成训练数据方法，为视频AI技术的实际应用开辟了新路径。

联想推出DE6600系列：更智能的存储解决方案

企业存储

NVMe技术

高可用性架构

2025-12-19

联想推出DE6600系列：更智能的存储解决方案

联想推出新一代NVMe存储解决方案DE6600系列，包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒，支持多种连接协议，2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置，适用于AI、高性能计算、实时分析等场景，并配备双活控制器和XClarity统一管理平台。

AI视觉模型真的能看懂长篇文档吗？中科院团队首次揭开视觉文本压缩的真相

计算机视觉

视觉文本压缩

模型评估

2025-12-19

AI视觉模型真的能看懂长篇文档吗？中科院团队首次揭开视觉文本压缩的真相

中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力，发现虽然AI能准确识别压缩图像中的文字，但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题，为视觉文本压缩技术的改进指明方向。

2024

02/17

13:15

分享

点赞

最新文章

相关文章

邮件订阅

AI启示录

更多

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证