原本传出会延期到明年才能发布的全新大语言模型“Gemini”,在12月如期和大家见面。周三,谷歌公布了这款多模态大模型,可以同时无缝理解和操作文字、代码、声音、图片、视频等多元形式的内容。
比如在理解图片方面,谷歌宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤,就能直接理解图片内容。谷歌举了一个简单的例子,用两张非常简单的手绘汽车图片问Gemini 哪台比较快,Gemini给出答案:“右边比较快,因为它更符合空气力学。”
值得注意的是,Gemini发布后,向来喜欢“怼一切”的埃隆·马斯克(Elon Musk)并没有在他的“X”平台上表现出以往的杀伤力,对于Google推出Gemini,马斯克在上面的回应主要也是在表达祝贺。
Impulse Space的CEO Tom Mueller也对此发表评论称:“我知道很难定义AGI是什么,但无论它是什么,它(指Gemini)比你想象中的更接近。”马斯克则是在回复中表达了赞同。
此外,谷歌也“不免俗”地拿Gemini和GPT进行了比较。谷歌特别强调,Gemini最大型的版本Gemini Ultra在32 项AI测试中,有30项的评分超越了OpenAI 的GPT-4V,同时也是在MMLU(大规模多任务语言理解)测试中,第一个达到90%水平并超越人类专家的大型自然语言模型。
Gemini使用自家设计的芯片TPU v4和v5e进行训练,Gemini在TPU上也比之前的AI模型表现更佳;谷歌也同时公布了新的TPU v5p芯片供云端使用。
《连线》在一篇文章援引了华盛顿大学名誉教授、艾伦人工智能研究所前首席执行官奥伦·埃齐奥尼(Oren Etzioni)的说法称,在功能强大的计算机芯片上训练大模型的过程漫长且昂贵,这意味着Gemini很可能耗资数亿美元。预计谷歌已为该模型开发出一种新颖的设计和一种新的训练数据组合。该公司已经加快了其人工智能技术的发布速度,并为几项新的人工智能工作投入了大量资源,试图覆盖围绕OpenAI和ChatGPT的声量,并重新确立自己作为世界领先人工智能公司的地位。
谷歌表示,Gemini可以理解、产生 Python、Java、C++和Go等流行编程语言。同时,谷歌也使用Gemini推出了新一代AI生成代码系统“AlphaCode 2”,解决问题数量几乎是上一代的两倍。
为了满足从数据中心等级到移动设备等不同使用环境的需求,Gemini推出 Ultra、Pro、Nano,也就是大、中、小三个版本。最大型的Ultra正在进行一系列安全性测试,将会推出少量试用名额给企业客户与开发者,不过正式版预计要等到明年才能推出了。
Pro则是即日起就提供给英文版Google Bard使用,另外还会在12月13日Google Cloud的Vertex AI、AI Studio上提供API;最小的Nano则是准备直接给Pixel 8 Pro使用。
Bard接下来将在170多个国家和地区提供英语版本,并逐渐扩展给不同地区,并支撑不同语系,谷歌预告,接下来还会有使用Ultra的Bard Advanced。同时,旗下的广告、Chrome和 Duet AI等产品和业务也会陆续引入Gemini,最终还将被注入谷歌的搜索引擎,但具体推出时间尚未明确。
好文章,需要你的鼓励
随着消费者购物方式的转变,移动端交易的激增使得背后的API流量暴涨。所有流程背后都依赖着API的高效协作,安全风险也随之扩大,涉及到业务相关数据、用户数据,甚至可能影响合规性和财务信息。
Talus是一个新一代的链上AI代理平台,正在与Sui合作,旨在推动Web3的广泛应用。Talus使开发者能够启动代币化的AI代理,自动化交易策略,并构建全天候运作的自主经济体。通过利用Sui的高速、低成本基础设施,Talus为AI代理的进化、优化和实时决策提供了空间。Talus还将推出其链上代理框架Nexus,并在Sui上首次推出AI消费者平台Idol.fun。Talus致力于在DeFAI、GameFAI、SocialFAI和AI DAO领域塑造AI代理的未来,目标是团结社区,构建能够革新数字体验的AI代理。
Grok 3开始推出,这是xAI公司创始人埃隆·马斯克开发的新一代AI聊天机器人。它被描述为"最大程度追求真相的AI",即使有时与政治正确相悖。Grok 3在科学、数学和编程方面表现优异,其开发速度惊人,但仍落后于OpenAI等竞争对手。X平台的高级用户将首先体验这项服务。