原本传出会延期到明年才能发布的全新大语言模型“Gemini”,在12月如期和大家见面。周三,谷歌公布了这款多模态大模型,可以同时无缝理解和操作文字、代码、声音、图片、视频等多元形式的内容。
比如在理解图片方面,谷歌宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤,就能直接理解图片内容。谷歌举了一个简单的例子,用两张非常简单的手绘汽车图片问Gemini 哪台比较快,Gemini给出答案:“右边比较快,因为它更符合空气力学。”
值得注意的是,Gemini发布后,向来喜欢“怼一切”的埃隆·马斯克(Elon Musk)并没有在他的“X”平台上表现出以往的杀伤力,对于Google推出Gemini,马斯克在上面的回应主要也是在表达祝贺。
Impulse Space的CEO Tom Mueller也对此发表评论称:“我知道很难定义AGI是什么,但无论它是什么,它(指Gemini)比你想象中的更接近。”马斯克则是在回复中表达了赞同。
此外,谷歌也“不免俗”地拿Gemini和GPT进行了比较。谷歌特别强调,Gemini最大型的版本Gemini Ultra在32 项AI测试中,有30项的评分超越了OpenAI 的GPT-4V,同时也是在MMLU(大规模多任务语言理解)测试中,第一个达到90%水平并超越人类专家的大型自然语言模型。
Gemini使用自家设计的芯片TPU v4和v5e进行训练,Gemini在TPU上也比之前的AI模型表现更佳;谷歌也同时公布了新的TPU v5p芯片供云端使用。
《连线》在一篇文章援引了华盛顿大学名誉教授、艾伦人工智能研究所前首席执行官奥伦·埃齐奥尼(Oren Etzioni)的说法称,在功能强大的计算机芯片上训练大模型的过程漫长且昂贵,这意味着Gemini很可能耗资数亿美元。预计谷歌已为该模型开发出一种新颖的设计和一种新的训练数据组合。该公司已经加快了其人工智能技术的发布速度,并为几项新的人工智能工作投入了大量资源,试图覆盖围绕OpenAI和ChatGPT的声量,并重新确立自己作为世界领先人工智能公司的地位。
谷歌表示,Gemini可以理解、产生 Python、Java、C++和Go等流行编程语言。同时,谷歌也使用Gemini推出了新一代AI生成代码系统“AlphaCode 2”,解决问题数量几乎是上一代的两倍。
为了满足从数据中心等级到移动设备等不同使用环境的需求,Gemini推出 Ultra、Pro、Nano,也就是大、中、小三个版本。最大型的Ultra正在进行一系列安全性测试,将会推出少量试用名额给企业客户与开发者,不过正式版预计要等到明年才能推出了。
Pro则是即日起就提供给英文版Google Bard使用,另外还会在12月13日Google Cloud的Vertex AI、AI Studio上提供API;最小的Nano则是准备直接给Pixel 8 Pro使用。
Bard接下来将在170多个国家和地区提供英语版本,并逐渐扩展给不同地区,并支撑不同语系,谷歌预告,接下来还会有使用Ultra的Bard Advanced。同时,旗下的广告、Chrome和 Duet AI等产品和业务也会陆续引入Gemini,最终还将被注入谷歌的搜索引擎,但具体推出时间尚未明确。
好文章,需要你的鼓励
Roig Arena 将于 2025 年 9 月在瓦伦西亚开业,借助 Extreme Networks 的 6GHz Wi-Fi 与数据分析技术,实现无缝运营与个性化观众体验,打造全天候活动中心。
EasyText是一项由新加坡国立大学、香港中文大学与Tiamat AI、Liblib AI合作开发的多语言文本渲染框架。基于扩散变换器(DiT)技术,它能将多语言字符编码为字符标记,并通过创新的字符位置编码技术实现精确文本布局控制。研究团队构建了包含100万多语言图像-文本对的大型合成数据集和2万高质量标注图像的精选数据集,用于预训练和微调。实验证明,EasyText在多语言文本渲染、视觉质量和布局感知文本集成方面表现卓越,支持超过十种语言,能处理弯曲和倾斜区域,实现前所未有的文本渲染精度和自然度。
OpenMamba 是一款意大利独立滚动更新的 Linux 发行版,基于 Fedora 工具构建,提供 KDE Plasma 与 LXQt 桌面。它采用最新组件和标准打包工具,运行稳定且易用,适合规避主流系统限制的用户。
波森AI研究团队开发的EmergentTTS-Eval是一个针对文本转语音(TTS)系统的全面评估框架,专注于测试六大挑战场景:情感表达、非语言线索、外语词汇、语法复杂性、复杂发音和问题表达。研究创新地采用大型音频语言模型作为评判者,从一小组种子提示迭代生成了1,645个测试用例。评估结果显示OpenAI的GPT-4o-Audio表现最佳,同时研究证实了模型评判结果与人类偏好高度一致。该工作已开源,为TTS技术评估提供了可扩展、客观且全面的新标准。