Gemini Live：足以秒杀Siri，却仍有明显瑕疵

Gemini Live与OpenAI高级语音模式的功能几乎完全相同，但谷歌却是首家正式推出最终功能的厂商。

谷歌在本周二的Made by Google大会上正式发布Gemini Live。这项功能允许用户以相当自然流畅的方式与由谷歌最新大语言模型驱动的AI聊天机器人进行口头对话，全程无需打字输入。借此机会，我们也亲自对这项服务进行了一番测试。

Gemini Live是谷歌针对OpenAI高级语音模式（Advanced Voice Mode）做出的回应，二者的功能几乎完全相同，且后者目前正通过ChatGPT开展alpha内部封测。虽然OpenAI通过抢先演示快了谷歌一步，但谷歌却成为首家正式推出最终功能的厂商。

根据个人体验，这些低延迟的口头交流功能使用起来要比向ChatGPT发文字、甚至是跟Siri或者Alexa交谈感觉自然得多。我发现Gemini Live一般都能在2秒钟以内回答问题，并且在被打断时迅速转移话头。当然，Gemini Live并不完美，但它已经是我见过的最强大的口头语音操控方式。

在使用Gemini Live之前，该项服务会首先邀请用户从10种声色当中做出选择，这样的数量远远多于OpenAI的3种。谷歌与配音演员们合作创作了如此丰富的音色，我对其中蕴藏的多样性深表赞赏，而且必须承认每种音色听起来都自然流畅、几可乱真。

在一段演示中，一位谷歌产品经理口头要求Gemini Live寻找山景城附近适合家庭出游的酒庄，同时要求设有户外区域和游乐场是满足孩子们的需求。这项任务比我们日常跟Siri的对话（在本质上其实就是谷歌搜索）要复杂得多，但Gemini还是成功找到了一个符合所有条件的地点：Saratoga的Copper-Garrod葡萄园。

话虽如此，但Gemini Live也有一些不足。首先它似乎产生了幻觉，误以为附近有一处名叫Henry Elementary School Playground的游乐场，据说这里距离该处葡萄园只有“10分钟路程”。Saratoga附近确实还有其他游乐场，但Henry Elementary School距离那边有两个多小时的车程。至于红木城的Henry Ford小学，距离葡萄园同样有30分钟的路。
谷歌还专门展示了用户如何打断Gemini Live的对话，看看AI如何迅速转移话头。该公司表示，这样用户就能轻松控制对话走向。但实际上，该项功能也并不完美。有时候谷歌的项目经理们虽然跟Gemini Live聊得很热闹，但AI似乎并没能听懂他们到底在说什么。

另外值得一提的是，据产品经理Leland Rechis介绍，谷歌禁止Gemini Live唱歌、或者在默认提供的10种音色之外再模仿任何语音。该公司这么做可能是为了避免与版权法发生冲突。此外，Rechis还提到，谷歌并不会特意让Gemini Live理解用户语音中的情感和语调——而OpenAI在其演示中一直在大肆宣扬这点。

总而言之，与简单的谷歌搜索相比，这项新功能似乎确实能以更自然的方式帮助用户深入了解特定主题。谷歌指出，Gemini Live属于Astra项目的组成部分，而Astra项目则是该公司在Google I/O期间首次公布的完全多模态AI模型。目前Gemini Live还仅支持语音对话，不过谷歌希望在未来逐渐实现对视频内容的实时理解能力。

来源：TechCrunch

0赞

好文章，需要你的鼓励

Gemini Live：足以秒杀Siri，却仍有明显瑕疵

来源：TechCrunch

2024

08/15

10:10

分享

点赞

Sora 2应用向美国等地用户全面开放，无需邀请码

Perplexity与Getty Images签署多年许可协议，应对版权争议

AWS业绩超华尔街预期，云基础设施需求持续旺盛

德州核电数据中心合作项目启动，计划2031年投产

高通骁龙X Elite和X Plus笔记本芯片详解

众智有为 致敬同路人｜四川赛狄：从“碰撞”到“同路”，一位华为同路人的蜕变之旅

亚马逊股价大涨，AWS云业务增长加速

Microsoft 365 商业客户无处躲避 Copilot 功能扩张

Google Chrome推出AI操作按钮对抗AI浏览器

下一代云服务器将在1.7万英里高空轨道运行的原因

美国能源部联手Nvidia、AMD与Oracle打造四台强大AI超级计算机

面向未来的AI芯片技术发展之路

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

众智有为致敬同路人｜四川赛狄：从“碰撞”到“同路”，一位华为同路人的蜕变之旅