原本传出会延期到明年才能发布的全新大语言模型“Gemini”,在12月如期和大家见面。周三,谷歌公布了这款多模态大模型,可以同时无缝理解和操作文字、代码、声音、图片、视频等多元形式的内容。
比如在理解图片方面,谷歌宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤,就能直接理解图片内容。谷歌举了一个简单的例子,用两张非常简单的手绘汽车图片问Gemini 哪台比较快,Gemini给出答案:“右边比较快,因为它更符合空气力学。”
值得注意的是,Gemini发布后,向来喜欢“怼一切”的埃隆·马斯克(Elon Musk)并没有在他的“X”平台上表现出以往的杀伤力,对于Google推出Gemini,马斯克在上面的回应主要也是在表达祝贺。
Impulse Space的CEO Tom Mueller也对此发表评论称:“我知道很难定义AGI是什么,但无论它是什么,它(指Gemini)比你想象中的更接近。”马斯克则是在回复中表达了赞同。
此外,谷歌也“不免俗”地拿Gemini和GPT进行了比较。谷歌特别强调,Gemini最大型的版本Gemini Ultra在32 项AI测试中,有30项的评分超越了OpenAI 的GPT-4V,同时也是在MMLU(大规模多任务语言理解)测试中,第一个达到90%水平并超越人类专家的大型自然语言模型。
Gemini使用自家设计的芯片TPU v4和v5e进行训练,Gemini在TPU上也比之前的AI模型表现更佳;谷歌也同时公布了新的TPU v5p芯片供云端使用。
《连线》在一篇文章援引了华盛顿大学名誉教授、艾伦人工智能研究所前首席执行官奥伦·埃齐奥尼(Oren Etzioni)的说法称,在功能强大的计算机芯片上训练大模型的过程漫长且昂贵,这意味着Gemini很可能耗资数亿美元。预计谷歌已为该模型开发出一种新颖的设计和一种新的训练数据组合。该公司已经加快了其人工智能技术的发布速度,并为几项新的人工智能工作投入了大量资源,试图覆盖围绕OpenAI和ChatGPT的声量,并重新确立自己作为世界领先人工智能公司的地位。
谷歌表示,Gemini可以理解、产生 Python、Java、C++和Go等流行编程语言。同时,谷歌也使用Gemini推出了新一代AI生成代码系统“AlphaCode 2”,解决问题数量几乎是上一代的两倍。
为了满足从数据中心等级到移动设备等不同使用环境的需求,Gemini推出 Ultra、Pro、Nano,也就是大、中、小三个版本。最大型的Ultra正在进行一系列安全性测试,将会推出少量试用名额给企业客户与开发者,不过正式版预计要等到明年才能推出了。
Pro则是即日起就提供给英文版Google Bard使用,另外还会在12月13日Google Cloud的Vertex AI、AI Studio上提供API;最小的Nano则是准备直接给Pixel 8 Pro使用。
Bard接下来将在170多个国家和地区提供英语版本,并逐渐扩展给不同地区,并支撑不同语系,谷歌预告,接下来还会有使用Ultra的Bard Advanced。同时,旗下的广告、Chrome和 Duet AI等产品和业务也会陆续引入Gemini,最终还将被注入谷歌的搜索引擎,但具体推出时间尚未明确。
好文章,需要你的鼓励
阿里云CEO吴泳铭在财报电话会议上表示,AI需求增长如此迅猛,以至于服务器部署速度无法跟上客户需求。公司正在对GPU进行配给制,优先满足使用全套阿里云服务的客户需求。过去12个月,阿里巴巴在AI相关基础设施上投入1200亿元人民币,预计三年预算可能超过当前的3800亿元。阿里云智能集团季度营收达56亿美元,同比增长34%。
新加坡南洋理工大学团队开发的NEO模型颠覆了传统视觉语言AI的设计思路,从模块化拼接转向原生统一架构。仅用3.9亿图文配对数据就实现了与大型模块化系统相媲美的性能,证明了端到端训练的有效性,为AI系统设计开辟了新路径。
OpenAI为ChatGPT推出"购物研究"新功能,恰逢假期购物季。该功能面向免费和付费用户开放,支持移动端和网页版。用户询问购物问题时,ChatGPT会提供个性化购物助手服务,通过一系列问题帮助用户筛选价格、用途和功能偏好。该功能基于专为购物任务优化的GPT-5 mini版本,从优质网络资源获取产品信息。OpenAI计划推出即时结账功能,允许用户直接在ChatGPT内购买商品。
谷歌联合德克萨斯大学等机构开发出LATTICE框架,这是一种革命性的信息检索系统,能像智能图书管理员一样工作。它将文档组织成语义树结构,用AI推理能力进行智能导航搜索,在复杂查询任务上比传统方法准确率提高9%以上。该系统无需训练即可适应新领域,为未来智能搜索指明了方向。