谷歌在本周二的Made by Google大会上正式发布Gemini Live。这项功能允许用户以相当自然流畅的方式与由谷歌最新大语言模型驱动的AI聊天机器人进行口头对话,全程无需打字输入。借此机会,我们也亲自对这项服务进行了一番测试。
Gemini Live是谷歌针对OpenAI高级语音模式(Advanced Voice Mode)做出的回应,二者的功能几乎完全相同,且后者目前正通过ChatGPT开展alpha内部封测。虽然OpenAI通过抢先演示快了谷歌一步,但谷歌却成为首家正式推出最终功能的厂商。
根据个人体验,这些低延迟的口头交流功能使用起来要比向ChatGPT发文字、甚至是跟Siri或者Alexa交谈感觉自然得多。我发现Gemini Live一般都能在2秒钟以内回答问题,并且在被打断时迅速转移话头。当然,Gemini Live并不完美,但它已经是我见过的最强大的口头语音操控方式。
在使用Gemini Live之前,该项服务会首先邀请用户从10种声色当中做出选择,这样的数量远远多于OpenAI的3种。谷歌与配音演员们合作创作了如此丰富的音色,我对其中蕴藏的多样性深表赞赏,而且必须承认每种音色听起来都自然流畅、几可乱真。
在一段演示中,一位谷歌产品经理口头要求Gemini Live寻找山景城附近适合家庭出游的酒庄,同时要求设有户外区域和游乐场是满足孩子们的需求。这项任务比我们日常跟Siri的对话(在本质上其实就是谷歌搜索)要复杂得多,但Gemini还是成功找到了一个符合所有条件的地点:Saratoga的Copper-Garrod葡萄园。
话虽如此,但Gemini Live也有一些不足。首先它似乎产生了幻觉,误以为附近有一处名叫Henry Elementary School Playground的游乐场,据说这里距离该处葡萄园只有“10分钟路程”。Saratoga附近确实还有其他游乐场,但Henry Elementary School距离那边有两个多小时的车程。至于红木城的Henry Ford小学,距离葡萄园同样有30分钟的路。
谷歌还专门展示了用户如何打断Gemini Live的对话,看看AI如何迅速转移话头。该公司表示,这样用户就能轻松控制对话走向。但实际上,该项功能也并不完美。有时候谷歌的项目经理们虽然跟Gemini Live聊得很热闹,但AI似乎并没能听懂他们到底在说什么。
另外值得一提的是,据产品经理Leland Rechis介绍,谷歌禁止Gemini Live唱歌、或者在默认提供的10种音色之外再模仿任何语音。该公司这么做可能是为了避免与版权法发生冲突。此外,Rechis还提到,谷歌并不会特意让Gemini Live理解用户语音中的情感和语调——而OpenAI在其演示中一直在大肆宣扬这点。
总而言之,与简单的谷歌搜索相比,这项新功能似乎确实能以更自然的方式帮助用户深入了解特定主题。谷歌指出,Gemini Live属于Astra项目的组成部分,而Astra项目则是该公司在Google I/O期间首次公布的完全多模态AI模型。目前Gemini Live还仅支持语音对话,不过谷歌希望在未来逐渐实现对视频内容的实时理解能力。
好文章,需要你的鼓励
OpenAI 的 ChatGPT 爬虫存在安全漏洞,可被利用对任意网站发起分布式拒绝服务攻击。攻击者只需向 ChatGPT API 发送一个包含大量重复 URL 的请求,就能触发爬虫对目标网站进行大量访问。此外,该漏洞还可能被用于绕过限制,让爬虫回答查询。这些问题凸显了 AI 系统在安全性方面的潜在风险。
三星即将发布的Galaxy S25 Ultra旗舰手机将带来多项升级,尤其是相机方面。据泄露信息显示,新机将支持高分辨率视频拍摄、超广角微距模式、AI音频擦除等功能,并集成Google Gemini AI助手。这些升级将大幅提升用户体验,令人期待。
本周科技圈风云激荡:TikTok 面临美国最高法院裁决,或将被迫停运;Meta 在美国终止事实核查,引发争议;ChatGPT 推出全新任务功能,为用户提供智能日程管理;Beat Saber 在 Quest 平台销量突破千万,AI 电影制作技术展现惊人潜力。
AI正重塑人类生活的方方面面,从商业到国防再到社会政策。AI计算能力与全球影响力息息相关。各国和企业纷纷投资巨额资金建设数据中心,以增强AI实力。预计到2030年AI市场规模将达1.81万亿美元,掌握最佳数据和计算平台的国家将占据优势地位。AI计算力的竞争已成为21世纪全球力量的决定性较量。