谷歌在本周二的Made by Google大会上正式发布Gemini Live。这项功能允许用户以相当自然流畅的方式与由谷歌最新大语言模型驱动的AI聊天机器人进行口头对话,全程无需打字输入。借此机会,我们也亲自对这项服务进行了一番测试。
Gemini Live是谷歌针对OpenAI高级语音模式(Advanced Voice Mode)做出的回应,二者的功能几乎完全相同,且后者目前正通过ChatGPT开展alpha内部封测。虽然OpenAI通过抢先演示快了谷歌一步,但谷歌却成为首家正式推出最终功能的厂商。
根据个人体验,这些低延迟的口头交流功能使用起来要比向ChatGPT发文字、甚至是跟Siri或者Alexa交谈感觉自然得多。我发现Gemini Live一般都能在2秒钟以内回答问题,并且在被打断时迅速转移话头。当然,Gemini Live并不完美,但它已经是我见过的最强大的口头语音操控方式。
在使用Gemini Live之前,该项服务会首先邀请用户从10种声色当中做出选择,这样的数量远远多于OpenAI的3种。谷歌与配音演员们合作创作了如此丰富的音色,我对其中蕴藏的多样性深表赞赏,而且必须承认每种音色听起来都自然流畅、几可乱真。
在一段演示中,一位谷歌产品经理口头要求Gemini Live寻找山景城附近适合家庭出游的酒庄,同时要求设有户外区域和游乐场是满足孩子们的需求。这项任务比我们日常跟Siri的对话(在本质上其实就是谷歌搜索)要复杂得多,但Gemini还是成功找到了一个符合所有条件的地点:Saratoga的Copper-Garrod葡萄园。
话虽如此,但Gemini Live也有一些不足。首先它似乎产生了幻觉,误以为附近有一处名叫Henry Elementary School Playground的游乐场,据说这里距离该处葡萄园只有“10分钟路程”。Saratoga附近确实还有其他游乐场,但Henry Elementary School距离那边有两个多小时的车程。至于红木城的Henry Ford小学,距离葡萄园同样有30分钟的路。
谷歌还专门展示了用户如何打断Gemini Live的对话,看看AI如何迅速转移话头。该公司表示,这样用户就能轻松控制对话走向。但实际上,该项功能也并不完美。有时候谷歌的项目经理们虽然跟Gemini Live聊得很热闹,但AI似乎并没能听懂他们到底在说什么。
另外值得一提的是,据产品经理Leland Rechis介绍,谷歌禁止Gemini Live唱歌、或者在默认提供的10种音色之外再模仿任何语音。该公司这么做可能是为了避免与版权法发生冲突。此外,Rechis还提到,谷歌并不会特意让Gemini Live理解用户语音中的情感和语调——而OpenAI在其演示中一直在大肆宣扬这点。
总而言之,与简单的谷歌搜索相比,这项新功能似乎确实能以更自然的方式帮助用户深入了解特定主题。谷歌指出,Gemini Live属于Astra项目的组成部分,而Astra项目则是该公司在Google I/O期间首次公布的完全多模态AI模型。目前Gemini Live还仅支持语音对话,不过谷歌希望在未来逐渐实现对视频内容的实时理解能力。
好文章,需要你的鼓励
随着消费者购物方式的转变,移动端交易的激增使得背后的API流量暴涨。所有流程背后都依赖着API的高效协作,安全风险也随之扩大,涉及到业务相关数据、用户数据,甚至可能影响合规性和财务信息。
Talus是一个新一代的链上AI代理平台,正在与Sui合作,旨在推动Web3的广泛应用。Talus使开发者能够启动代币化的AI代理,自动化交易策略,并构建全天候运作的自主经济体。通过利用Sui的高速、低成本基础设施,Talus为AI代理的进化、优化和实时决策提供了空间。Talus还将推出其链上代理框架Nexus,并在Sui上首次推出AI消费者平台Idol.fun。Talus致力于在DeFAI、GameFAI、SocialFAI和AI DAO领域塑造AI代理的未来,目标是团结社区,构建能够革新数字体验的AI代理。
Grok 3开始推出,这是xAI公司创始人埃隆·马斯克开发的新一代AI聊天机器人。它被描述为"最大程度追求真相的AI",即使有时与政治正确相悖。Grok 3在科学、数学和编程方面表现优异,其开发速度惊人,但仍落后于OpenAI等竞争对手。X平台的高级用户将首先体验这项服务。