谷歌在本周二的Made by Google大会上正式发布Gemini Live。这项功能允许用户以相当自然流畅的方式与由谷歌最新大语言模型驱动的AI聊天机器人进行口头对话,全程无需打字输入。借此机会,我们也亲自对这项服务进行了一番测试。
Gemini Live是谷歌针对OpenAI高级语音模式(Advanced Voice Mode)做出的回应,二者的功能几乎完全相同,且后者目前正通过ChatGPT开展alpha内部封测。虽然OpenAI通过抢先演示快了谷歌一步,但谷歌却成为首家正式推出最终功能的厂商。
根据个人体验,这些低延迟的口头交流功能使用起来要比向ChatGPT发文字、甚至是跟Siri或者Alexa交谈感觉自然得多。我发现Gemini Live一般都能在2秒钟以内回答问题,并且在被打断时迅速转移话头。当然,Gemini Live并不完美,但它已经是我见过的最强大的口头语音操控方式。
在使用Gemini Live之前,该项服务会首先邀请用户从10种声色当中做出选择,这样的数量远远多于OpenAI的3种。谷歌与配音演员们合作创作了如此丰富的音色,我对其中蕴藏的多样性深表赞赏,而且必须承认每种音色听起来都自然流畅、几可乱真。
在一段演示中,一位谷歌产品经理口头要求Gemini Live寻找山景城附近适合家庭出游的酒庄,同时要求设有户外区域和游乐场是满足孩子们的需求。这项任务比我们日常跟Siri的对话(在本质上其实就是谷歌搜索)要复杂得多,但Gemini还是成功找到了一个符合所有条件的地点:Saratoga的Copper-Garrod葡萄园。
话虽如此,但Gemini Live也有一些不足。首先它似乎产生了幻觉,误以为附近有一处名叫Henry Elementary School Playground的游乐场,据说这里距离该处葡萄园只有“10分钟路程”。Saratoga附近确实还有其他游乐场,但Henry Elementary School距离那边有两个多小时的车程。至于红木城的Henry Ford小学,距离葡萄园同样有30分钟的路。
谷歌还专门展示了用户如何打断Gemini Live的对话,看看AI如何迅速转移话头。该公司表示,这样用户就能轻松控制对话走向。但实际上,该项功能也并不完美。有时候谷歌的项目经理们虽然跟Gemini Live聊得很热闹,但AI似乎并没能听懂他们到底在说什么。
另外值得一提的是,据产品经理Leland Rechis介绍,谷歌禁止Gemini Live唱歌、或者在默认提供的10种音色之外再模仿任何语音。该公司这么做可能是为了避免与版权法发生冲突。此外,Rechis还提到,谷歌并不会特意让Gemini Live理解用户语音中的情感和语调——而OpenAI在其演示中一直在大肆宣扬这点。
总而言之,与简单的谷歌搜索相比,这项新功能似乎确实能以更自然的方式帮助用户深入了解特定主题。谷歌指出,Gemini Live属于Astra项目的组成部分,而Astra项目则是该公司在Google I/O期间首次公布的完全多模态AI模型。目前Gemini Live还仅支持语音对话,不过谷歌希望在未来逐渐实现对视频内容的实时理解能力。
好文章,需要你的鼓励
泰国SCBX公司研究团队首次针对泰语开发了语义对话结束检测技术,通过分析文字内容而非声音停顿来判断对话是否结束。研究比较了多种AI模型方案,发现微调的小型变压器模型能在110毫秒内做出准确判断,显著优于传统静音检测方法。该技术能识别泰语特有的句尾助词等语言特征,为银行客服、智能家居、教育等场景的语音交互系统提供了更自然流畅的解决方案。
OpenAI推出全新Sora应用,打造完全由AI生成视频的社交媒体平台。美国、加拿大、日本和韩国用户现可直接下载使用,无需邀请码,但该开放政策仅限时提供。其他地区用户仍需等待更广泛的开放或通过Discord等渠道获取邀请码。用户可使用ChatGPT账户登录,立即开始观看、分享和创建AI视频内容。
浙江大学研究团队提出Graph2Eval框架,这是首个基于知识图谱的AI代理自动化评测系统。该框架通过知识图谱持续生成新测试任务,解决传统固定数据集评估的局限性。框架支持文档理解和网页交互两类任务,构建了包含1319个任务的测试集。实验验证显示该方法能有效区分不同AI系统能力,为AI代理评估开辟新路径。