在一系列 AI 软件公告中,NVIDIA创始人、CEO 兼时尚偶像黄仁勋宣布了一个新平台,用于为 AI 开发者提供 AI PC 支持。许多分析师早就预料到这一举动,因为同一封装中集成 Grace (Arm) CPU 和 Blackwell GPU 将对 PC 竞争对手英特尔、AMD 和高通构成挑战。(但这还不是通用 AI PC。至少目前还不是。(声明:Nvidia 是我所在公司 Cambrian-ai Research 的客户。)
专为开发者打造的全新 AI PC
Project Digits 是一个小型设备,可从NVIDIA和"顶级合作伙伴"处购买,起价 3000 美元。添加显示器、键盘和鼠标,或直接从合作伙伴处购买,您就能拥有市面上最快速、最完整的 AI 开发工作站。它提供整整 1 petaflop 的 FP4 性能,并支持 Nvidia 全系列 AI 软件,从 NEMO 到 Omniverse 一应俱全。
每台 Project DIGITS (Project 这个名字有点奇怪;可能是为了避免惹恼 PC 合作伙伴) 配备 128GB 统一、一致的内存和高达 4TB 的 NVMe 存储。它可以使用标准墙壁电源运行。借助这个平台,开发者可以运行高达 2000 亿参数的 AI 模型。此外,使用 NVIDIA ConnectX 网络,两台 Project DIGITS AI 超级计算机可以连接在一起,运行高达 4050 亿参数的模型。看,不需要服务器就能实现!
通过 DIGITS,研究人员可以在运行基于 Linux 的 NVIDIA DGX OS 的本地工作站上进行原型设计、微调和测试模型,然后将它们部署在 NVIDIA DGX Cloud、加速云实例或数据中心基础设施上。
但 AI PC 应该运行 Windows,对吧?
由于大多数开发者使用 Linux,DIGITS 支持该操作系统。这意味着它不是通用 PC,至少在支持 Microsoft Windows 之前不是。黄仁勋明确表示,这个平台是为 AI 开发者设计的,而不是 AI 用户。NVIDIA创始人兼 CEO 黄仁勋表示,目标是"在每位数据科学家、AI 研究人员和学生的桌面上放置一台 AI 超级计算机,使他们能够参与并塑造 AI 时代。"
有趣的是,联发科与NVIDIA合作设计了 GB10,"为其最佳功耗效率、性能和连接性做出了贡献。"我认为这意味着 SoC 设计专业知识。Nvidia 和联发科此前曾宣布在汽车解决方案方面的合作,但现在这种关系可能已经大幅扩展。
这可能会走向何方?面向终端用户的 AI PC?
面向开发者的超快 AI PC 很酷。面向终端用户的超快 AI PC 将会是一个巨大的市场,挑战 PC CPU 供应商的地位。要将"Project" DIGITS 转变为 AI PC 强者,还需要做些什么?Microsoft Windows 和 HP、Dell、联想等 PC OEM 厂商必须支持这款新型超级芯片。现在高通骁龙已经将 Arm CPU 核心引入 Windows 主流,为新的基于 Arm 的平台进行 Windows 测试和认证将相对简单。但这项工作仍然需要时间。它可能会在 GTC 大会上准备就绪,至少可以发布公告。这样做将为 Nvidia 开辟一个数十亿美元的增量市场。
我们甚至还没有谈到NVIDIA宣布的所有酷炫软件,也没有提到NVIDIA刚刚赢得了自动驾驶领域的大鱼:丰田。但这是另一个故事了。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。