Gemini Live：足以秒杀Siri，却仍有明显瑕疵

Gemini Live与OpenAI高级语音模式的功能几乎完全相同，但谷歌却是首家正式推出最终功能的厂商。

谷歌在本周二的Made by Google大会上正式发布Gemini Live。这项功能允许用户以相当自然流畅的方式与由谷歌最新大语言模型驱动的AI聊天机器人进行口头对话，全程无需打字输入。借此机会，我们也亲自对这项服务进行了一番测试。

Gemini Live是谷歌针对OpenAI高级语音模式（Advanced Voice Mode）做出的回应，二者的功能几乎完全相同，且后者目前正通过ChatGPT开展alpha内部封测。虽然OpenAI通过抢先演示快了谷歌一步，但谷歌却成为首家正式推出最终功能的厂商。

根据个人体验，这些低延迟的口头交流功能使用起来要比向ChatGPT发文字、甚至是跟Siri或者Alexa交谈感觉自然得多。我发现Gemini Live一般都能在2秒钟以内回答问题，并且在被打断时迅速转移话头。当然，Gemini Live并不完美，但它已经是我见过的最强大的口头语音操控方式。

在使用Gemini Live之前，该项服务会首先邀请用户从10种声色当中做出选择，这样的数量远远多于OpenAI的3种。谷歌与配音演员们合作创作了如此丰富的音色，我对其中蕴藏的多样性深表赞赏，而且必须承认每种音色听起来都自然流畅、几可乱真。

在一段演示中，一位谷歌产品经理口头要求Gemini Live寻找山景城附近适合家庭出游的酒庄，同时要求设有户外区域和游乐场是满足孩子们的需求。这项任务比我们日常跟Siri的对话（在本质上其实就是谷歌搜索）要复杂得多，但Gemini还是成功找到了一个符合所有条件的地点：Saratoga的Copper-Garrod葡萄园。

话虽如此，但Gemini Live也有一些不足。首先它似乎产生了幻觉，误以为附近有一处名叫Henry Elementary School Playground的游乐场，据说这里距离该处葡萄园只有“10分钟路程”。Saratoga附近确实还有其他游乐场，但Henry Elementary School距离那边有两个多小时的车程。至于红木城的Henry Ford小学，距离葡萄园同样有30分钟的路。
谷歌还专门展示了用户如何打断Gemini Live的对话，看看AI如何迅速转移话头。该公司表示，这样用户就能轻松控制对话走向。但实际上，该项功能也并不完美。有时候谷歌的项目经理们虽然跟Gemini Live聊得很热闹，但AI似乎并没能听懂他们到底在说什么。

另外值得一提的是，据产品经理Leland Rechis介绍，谷歌禁止Gemini Live唱歌、或者在默认提供的10种音色之外再模仿任何语音。该公司这么做可能是为了避免与版权法发生冲突。此外，Rechis还提到，谷歌并不会特意让Gemini Live理解用户语音中的情感和语调——而OpenAI在其演示中一直在大肆宣扬这点。

总而言之，与简单的谷歌搜索相比，这项新功能似乎确实能以更自然的方式帮助用户深入了解特定主题。谷歌指出，Gemini Live属于Astra项目的组成部分，而Astra项目则是该公司在Google I/O期间首次公布的完全多模态AI模型。目前Gemini Live还仅支持语音对话，不过谷歌希望在未来逐渐实现对视频内容的实时理解能力。

来源：TechCrunch

0赞

好文章，需要你的鼓励

Gemini Live：足以秒杀Siri，却仍有明显瑕疵

来源：TechCrunch

2024

08/15

10:10

分享

点赞

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

体验现在，想象未来：SAP描绘技术与商业蓝图，引领商业AI革新

微软Configuration Manager将改为年度发布节奏

aiOla发布Drax模型，在噪音环境中实现可靠的AI语音识别

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: