30项评分超越GPT-4V！谷歌推出多模态大模型“Gemini” 原创

作者：刘文轩

谷歌加大全球人工智能竞赛的赌注。

原本传出会延期到明年才能发布的全新大语言模型“Gemini”，在12月如期和大家见面。周三，谷歌公布了这款多模态大模型，可以同时无缝理解和操作文字、代码、声音、图片、视频等多元形式的内容。

比如在理解图片方面，谷歌宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤，就能直接理解图片内容。谷歌举了一个简单的例子，用两张非常简单的手绘汽车图片问Gemini 哪台比较快，Gemini给出答案：“右边比较快，因为它更符合空气力学。”

值得注意的是，Gemini发布后，向来喜欢“怼一切”的埃隆·马斯克（Elon Musk）并没有在他的“X”平台上表现出以往的杀伤力，对于Google推出Gemini，马斯克在上面的回应主要也是在表达祝贺。

Impulse Space的CEO Tom Mueller也对此发表评论称：“我知道很难定义AGI是什么，但无论它是什么，它（指Gemini）比你想象中的更接近。”马斯克则是在回复中表达了赞同。

此外，谷歌也“不免俗”地拿Gemini和GPT进行了比较。谷歌特别强调，Gemini最大型的版本Gemini Ultra在32 项AI测试中，有30项的评分超越了OpenAI 的GPT-4V，同时也是在MMLU（大规模多任务语言理解）测试中，第一个达到90%水平并超越人类专家的大型自然语言模型。

Gemini使用自家设计的芯片TPU v4和v5e进行训练，Gemini在TPU上也比之前的AI模型表现更佳；谷歌也同时公布了新的TPU v5p芯片供云端使用。

《连线》在一篇文章援引了华盛顿大学名誉教授、艾伦人工智能研究所前首席执行官奥伦·埃齐奥尼（Oren Etzioni）的说法称，在功能强大的计算机芯片上训练大模型的过程漫长且昂贵，这意味着Gemini很可能耗资数亿美元。预计谷歌已为该模型开发出一种新颖的设计和一种新的训练数据组合。该公司已经加快了其人工智能技术的发布速度，并为几项新的人工智能工作投入了大量资源，试图覆盖围绕OpenAI和ChatGPT的声量，并重新确立自己作为世界领先人工智能公司的地位。

谷歌表示，Gemini可以理解、产生 Python、Java、C++和Go等流行编程语言。同时，谷歌也使用Gemini推出了新一代AI生成代码系统“AlphaCode 2”，解决问题数量几乎是上一代的两倍。

为了满足从数据中心等级到移动设备等不同使用环境的需求，Gemini推出 Ultra、Pro、Nano，也就是大、中、小三个版本。最大型的Ultra正在进行一系列安全性测试，将会推出少量试用名额给企业客户与开发者，不过正式版预计要等到明年才能推出了。

Pro则是即日起就提供给英文版Google Bard使用，另外还会在12月13日Google Cloud的Vertex AI、AI Studio上提供API；最小的Nano则是准备直接给Pixel 8 Pro使用。

Bard接下来将在170多个国家和地区提供英语版本，并逐渐扩展给不同地区，并支撑不同语系，谷歌预告，接下来还会有使用Ultra的Bard Advanced。同时，旗下的广告、Chrome和 Duet AI等产品和业务也会陆续引入Gemini，最终还将被注入谷歌的搜索引擎，但具体推出时间尚未明确。

来源：至顶网商用办公频道

0赞

好文章，需要你的鼓励

体育场馆

6GHz Wi-Fi

网络分析

2025-06-04

Roig Arena 将以 6GHz Wi-Fi 网络及先进分析技术开幕

Roig Arena 将于 2025 年 9 月在瓦伦西亚开业，借助 Extreme Networks 的 6GHz Wi-Fi 与数据分析技术，实现无缝运营与个性化观众体验，打造全天候活动中心。

EasyText：一项突破性研究让AI轻松实现多语言文本渲染，精准控制布局与样式

人工智能

扩散变换器

多语言文本渲染

2025-06-04

EasyText：一项突破性研究让AI轻松实现多语言文本渲染，精准控制布局与样式

EasyText是一项由新加坡国立大学、香港中文大学与Tiamat AI、Liblib AI合作开发的多语言文本渲染框架。基于扩散变换器（DiT）技术，它能将多语言字符编码为字符标记，并通过创新的字符位置编码技术实现精确文本布局控制。研究团队构建了包含100万多语言图像-文本对的大型合成数据集和2万高质量标注图像的精选数据集，用于预训练和微调。实验证明，EasyText在多语言文本渲染、视觉质量和布局感知文本集成方面表现卓越，支持超过十种语言，能处理弯曲和倾斜区域，实现前所未有的文本渲染精度和自然度。

30项评分超越GPT-4V！谷歌推出多模态大模型“Gemini” 原创

来源：至顶网商用办公频道

2023

12/07

10:10

分享

点赞

Roig Arena 将以 6GHz Wi-Fi 网络及先进分析技术开幕

微软纯文本编辑器升级：Notepad 新增格式选项

埃隆·马斯克表示 XChat 正逐步向全体用户推出，但其所谓的安全性仍存在疑问

驱动汽车电子创新：RIGOL CAN-FD总线分析解决方案

普源精电：科技创新引领聚合力，产教融合赋能电子教育

灵活又靠谱，红帽给AI时代定了个调

Adobe 在 Android 上发布 Photoshop 应用 beta 版本

Character.AI: 关于角色扮演 AI 工具及其新视频功能须知

agentic AI 预计到2028年将处理68%的客户服务互动

重载计算：AI 数据中心存在重量问题

Wispr Flow 发布 iOS 应用 力图让口述输入变得毫不费力

AI 转型项目受遗留应用程序与陈旧数据管理的制约

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

QwQ-32B模型成本地部署福音，通义App可第一时间体验

入局智驾的印奇，看到了怎样的未来？

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

天翼云CPU实例部署DeepSeek-R1模型最佳实践

京东云与宝德计算战略签约，共绘分布式存储与智算新未来

全球AI顶会AAAI 2025 在美开幕，产学研联手的“中国队”表现亮眼

蚂蚁数科提出创新跨域微调框架ScaleOT入选全球AI顶会AAAI 2025

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Wispr Flow 发布 iOS 应用力图让口述输入变得毫不费力