30项评分超越GPT-4V!谷歌推出多模态大模型“Gemini” 原创

谷歌加大全球人工智能竞赛的赌注。

原本传出会延期到明年才能发布的全新大语言模型“Gemini”,在12月如期和大家见面。周三,谷歌公布了这款多模态大模型,可以同时无缝理解和操作文字、代码、声音、图片、视频等多元形式的内容。

比如在理解图片方面,谷歌宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤,就能直接理解图片内容。谷歌举了一个简单的例子,用两张非常简单的手绘汽车图片问Gemini 哪台比较快,Gemini给出答案:“右边比较快,因为它更符合空气力学。”

30项评分超越GPT-4V!谷歌推出多模态大模型“Gemini”

值得注意的是,Gemini发布后,向来喜欢“怼一切”的埃隆·马斯克(Elon Musk)并没有在他的“X”平台上表现出以往的杀伤力,对于Google推出Gemini,马斯克在上面的回应主要也是在表达祝贺。

30项评分超越GPT-4V!谷歌推出多模态大模型“Gemini”

Impulse Space的CEO Tom Mueller也对此发表评论称:“我知道很难定义AGI是什么,但无论它是什么,它(指Gemini)比你想象中的更接近。”马斯克则是在回复中表达了赞同。

30项评分超越GPT-4V!谷歌推出多模态大模型“Gemini”

此外,谷歌也“不免俗”地拿Gemini和GPT进行了比较。谷歌特别强调,Gemini最大型的版本Gemini Ultra在32 项AI测试中,有30项的评分超越了OpenAI 的GPT-4V,同时也是在MMLU(大规模多任务语言理解)测试中,第一个达到90%水平并超越人类专家的大型自然语言模型。

Gemini使用自家设计的芯片TPU v4和v5e进行训练,Gemini在TPU上也比之前的AI模型表现更佳;谷歌也同时公布了新的TPU v5p芯片供云端使用。

《连线》在一篇文章援引了华盛顿大学名誉教授、艾伦人工智能研究所前首席执行官奥伦·埃齐奥尼(Oren Etzioni)的说法称,在功能强大的计算机芯片上训练大模型的过程漫长且昂贵,这意味着Gemini很可能耗资数亿美元。预计谷歌已为该模型开发出一种新颖的设计和一种新的训练数据组合。该公司已经加快了其人工智能技术的发布速度,并为几项新的人工智能工作投入了大量资源,试图覆盖围绕OpenAI和ChatGPT的声量,并重新确立自己作为世界领先人工智能公司的地位。

谷歌表示,Gemini可以理解、产生 Python、Java、C++和Go等流行编程语言。同时,谷歌也使用Gemini推出了新一代AI生成代码系统“AlphaCode 2”,解决问题数量几乎是上一代的两倍。

为了满足从数据中心等级到移动设备等不同使用环境的需求,Gemini推出 Ultra、Pro、Nano,也就是大、中、小三个版本。最大型的Ultra正在进行一系列安全性测试,将会推出少量试用名额给企业客户与开发者,不过正式版预计要等到明年才能推出了。

30项评分超越GPT-4V!谷歌推出多模态大模型“Gemini”

Pro则是即日起就提供给英文版Google Bard使用,另外还会在12月13日Google Cloud的Vertex AI、AI Studio上提供API;最小的Nano则是准备直接给Pixel 8 Pro使用。

Bard接下来将在170多个国家和地区提供英语版本,并逐渐扩展给不同地区,并支撑不同语系,谷歌预告,接下来还会有使用Ultra的Bard Advanced。同时,旗下的广告、Chrome和 Duet AI等产品和业务也会陆续引入Gemini,最终还将被注入谷歌的搜索引擎,但具体推出时间尚未明确。

来源:至顶网商用办公频道

0赞

好文章,需要你的鼓励

2023

12/07

10:10

分享

点赞

邮件订阅