OpenAI这两天发布一款名为“Sora”的视频生成AI,和许多视频生成工具一样,用户只要给出文字叙述或静态图片,Sora 就能自动生成 1080p 的动画,可以支持各种不同的角色、动作类型和背景画面。
“Sora”的名称源自日语的“天空”(そら),能够生成长达1分钟的视频,光是这一点就已经超越当前许多同类产品。OpenAI 已经向一些研究人员和创作者开放 Sora 的访问权限,OpenAI 在社交平台 X 发布的范例视频中,可以看到细腻的场景、复杂的运镜和情绪饱满的角色。
Sora 使用约10000 小时的”高品质“视频训练,OpenAI 表示,Sora 基于DALL·E、GPT 模型的研究成果,一方面使用DALL·E 3 的重述技术,能为视觉数据生成高度描述性的标题,所以Sora 可以更好地遵循用户的指令,生成情感丰富、引人入胜的角色,甚至还能深入理解指令提到的人、事、物在现实世界中的样子。
OpenAI的研究人员Bill Peebles在X上公布了几段视频和相应的提示词,比如这个“阴森恐怖的鬼屋,友好的杰克灯笼和幽灵人物在入口处欢迎捣蛋鬼,移轴摄影”,视频画面很好地呈现了描述词的内容。
知名科技YouTuber Evan Kirstel直接用“SORAWOOD”替换“HOLLYWOOD”的梗图表达对Sora的感叹。
NVIDIA科学家Jim Fan观察到一些针对Sora的质疑,包括那些认为Sora生成视频的过程只是在操作2D像素,对物理并没有真正的理解。他认为这样的观点过于片面,Sora 的软物理模拟是在大规模扩展文本到视频训练时产生的一种自然而然的特性。
Jim Fan在推文中分析称,GPT-4 必须内部学习某种语法、语义和数据结构,才能生成可执行的 Python 代码,Sora 也必须学习文本到三维图像、三维变换、光线追踪渲染和物理规则的隐性知识,这样它才能尽可能准确地模拟视频像素。它需要掌握游戏引擎的概念来达成这个目标。
如果不考虑交互性,虚幻5可以看作是一个生成视频像素的复杂过程。Sora 同样是一个生成视频像素的过程,但它是基于端到端的 Transformer 来实现的。这两者在抽象层面上是相同的。但不同之处是,UE5 是精心设计且精确的,而 Sora 则是完全通过数据学习和直觉来实现的。
不过Jim Fan也指出,Sora对物理的理解还很脆弱,远非完美,而且它还经常产生一些与我们常识不符的幻觉。它在理解物体互动方面还有很大的不足。
Sora 就像 GPT-3 的一个重要时刻。回顾 2020 年,GPT-3 尽管不够完善,需要大量的提示优化和监督,但它是第一个令人瞩目的在上下文中学习并展示出这种特性的模型,GPT-3固然有许多不足之处,但是想象一下,在不久的将来,GPT-4 将会带来怎样的变化。
在这些争论之外,已经有用户利用Sora“赚到钱了”,X平台上这位ID为“JamesGoong”的用户表示,他上线了一个sora app落地页,成交了一个年付。
从OpenAI官方公布的效果来看,和其他文字生成视频AI模型相比,Sora确实是令人印象深刻的进步。不过OpenAI自己也表示Sora还存在很多问题,可能难以准确模拟复杂场景的物理原理,也可能无法理解因果关系。
OpenAI 表示,他们还将与专家合作,找出模型的漏洞,并建立配套工具,来检测网上的视频是否由Sora 生成;同时还会与全球政策制定者、教育者、艺术家接触,来探讨如何不被滥用。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。