原本传出会延期到明年才能发布的全新大语言模型“Gemini”,在12月如期和大家见面。周三,谷歌公布了这款多模态大模型,可以同时无缝理解和操作文字、代码、声音、图片、视频等多元形式的内容。
比如在理解图片方面,谷歌宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤,就能直接理解图片内容。谷歌举了一个简单的例子,用两张非常简单的手绘汽车图片问Gemini 哪台比较快,Gemini给出答案:“右边比较快,因为它更符合空气力学。”
值得注意的是,Gemini发布后,向来喜欢“怼一切”的埃隆·马斯克(Elon Musk)并没有在他的“X”平台上表现出以往的杀伤力,对于Google推出Gemini,马斯克在上面的回应主要也是在表达祝贺。
Impulse Space的CEO Tom Mueller也对此发表评论称:“我知道很难定义AGI是什么,但无论它是什么,它(指Gemini)比你想象中的更接近。”马斯克则是在回复中表达了赞同。
此外,谷歌也“不免俗”地拿Gemini和GPT进行了比较。谷歌特别强调,Gemini最大型的版本Gemini Ultra在32 项AI测试中,有30项的评分超越了OpenAI 的GPT-4V,同时也是在MMLU(大规模多任务语言理解)测试中,第一个达到90%水平并超越人类专家的大型自然语言模型。
Gemini使用自家设计的芯片TPU v4和v5e进行训练,Gemini在TPU上也比之前的AI模型表现更佳;谷歌也同时公布了新的TPU v5p芯片供云端使用。
《连线》在一篇文章援引了华盛顿大学名誉教授、艾伦人工智能研究所前首席执行官奥伦·埃齐奥尼(Oren Etzioni)的说法称,在功能强大的计算机芯片上训练大模型的过程漫长且昂贵,这意味着Gemini很可能耗资数亿美元。预计谷歌已为该模型开发出一种新颖的设计和一种新的训练数据组合。该公司已经加快了其人工智能技术的发布速度,并为几项新的人工智能工作投入了大量资源,试图覆盖围绕OpenAI和ChatGPT的声量,并重新确立自己作为世界领先人工智能公司的地位。
谷歌表示,Gemini可以理解、产生 Python、Java、C++和Go等流行编程语言。同时,谷歌也使用Gemini推出了新一代AI生成代码系统“AlphaCode 2”,解决问题数量几乎是上一代的两倍。
为了满足从数据中心等级到移动设备等不同使用环境的需求,Gemini推出 Ultra、Pro、Nano,也就是大、中、小三个版本。最大型的Ultra正在进行一系列安全性测试,将会推出少量试用名额给企业客户与开发者,不过正式版预计要等到明年才能推出了。
Pro则是即日起就提供给英文版Google Bard使用,另外还会在12月13日Google Cloud的Vertex AI、AI Studio上提供API;最小的Nano则是准备直接给Pixel 8 Pro使用。
Bard接下来将在170多个国家和地区提供英语版本,并逐渐扩展给不同地区,并支撑不同语系,谷歌预告,接下来还会有使用Ultra的Bard Advanced。同时,旗下的广告、Chrome和 Duet AI等产品和业务也会陆续引入Gemini,最终还将被注入谷歌的搜索引擎,但具体推出时间尚未明确。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。