ChatGPT已经成为这波AI技术浪潮的核心,但谷歌旗下的研究实验室DeepMind表示不服,称其下一款大语言模型将可比肩OpenAI,甚至更胜一筹。
根据Wired网站发表的文章,DeepMind正使用AlphaGo(DeepMind原研的AI系统,曾首次在围棋中击败顶尖人类棋手)的技术开发名为Gemini的聊天机器人,矛头直指ChatGPT。
DeepMind CEO Demis Hassabis在接受Wired网站采访时表示,如果一切进展顺利,Gemini将具备规划、解决问题和分析文本内容的能力:
“从宏观层面看,Gemini继承了AlphaGo这类AI系统的独有优势,并与大语言模型那令人惊叹的语言能力相结合。我们还有其他一系列非常有趣的创新探索。”
Hassabis自信的态度,似乎代表今年5月谷歌I/O大会上一度遭受嘲讽的Gemini将凭借强化学习的创新方法,达成现有语言模型难以解决的复杂任务。强化学习的基本思路是“奖励”AI系统的某些行为及/或惩罚不当行为,借此“教导”系统在特定情况下做出特定的行为决策。
强化学习已经在语言模型领域取得了进展,也成为ChatGPT等系统在响应提示词时的主要方法。考虑到在强化学习方面拥有着丰富经验(AlphaGo就是最好的例子),DeepMind无疑渴望能将自己的优势应用到生成式AI领域。
值得注意的是,Gemini并不是DeepMind在语言模型领域的首次试水。去年,该公司推出了Sparrow聊天机器人。据称与其他语言模型相比,Sparrow对问题给出“不安全”或“不当”答案的几率要低得多。Hassabis在今年1月的另一次采访中提到,DeepMind正考虑在今年年内启动Sparrow内测,但目前不清楚这些计划是否仍在推进。
Gemini则更进一步,成为DeepMind迄今为止在该领域最雄心勃勃的研究成果。The Information网站今年3月报道称,Gemini的诞生源自谷歌聊天机器人项目Bard遭受的失败。为了紧跟ChatGPT的发展脚步,谷歌高层直接参与项目,包括公司最资深的AI研究主管Jeff Dean。
生成式AI领域的主导地位之争,也伴随着投资者和客户们的高度关注。Grand View Research公布的数据显示,到2030年,生成式AI(包括像Gemini这样的文本分析AI)的市场规模可能达到1093.7亿美元,体量增长达35.6%。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。