谷歌在本周二的Made by Google大会上正式发布Gemini Live。这项功能允许用户以相当自然流畅的方式与由谷歌最新大语言模型驱动的AI聊天机器人进行口头对话,全程无需打字输入。借此机会,我们也亲自对这项服务进行了一番测试。
Gemini Live是谷歌针对OpenAI高级语音模式(Advanced Voice Mode)做出的回应,二者的功能几乎完全相同,且后者目前正通过ChatGPT开展alpha内部封测。虽然OpenAI通过抢先演示快了谷歌一步,但谷歌却成为首家正式推出最终功能的厂商。
根据个人体验,这些低延迟的口头交流功能使用起来要比向ChatGPT发文字、甚至是跟Siri或者Alexa交谈感觉自然得多。我发现Gemini Live一般都能在2秒钟以内回答问题,并且在被打断时迅速转移话头。当然,Gemini Live并不完美,但它已经是我见过的最强大的口头语音操控方式。
在使用Gemini Live之前,该项服务会首先邀请用户从10种声色当中做出选择,这样的数量远远多于OpenAI的3种。谷歌与配音演员们合作创作了如此丰富的音色,我对其中蕴藏的多样性深表赞赏,而且必须承认每种音色听起来都自然流畅、几可乱真。
在一段演示中,一位谷歌产品经理口头要求Gemini Live寻找山景城附近适合家庭出游的酒庄,同时要求设有户外区域和游乐场是满足孩子们的需求。这项任务比我们日常跟Siri的对话(在本质上其实就是谷歌搜索)要复杂得多,但Gemini还是成功找到了一个符合所有条件的地点:Saratoga的Copper-Garrod葡萄园。
话虽如此,但Gemini Live也有一些不足。首先它似乎产生了幻觉,误以为附近有一处名叫Henry Elementary School Playground的游乐场,据说这里距离该处葡萄园只有“10分钟路程”。Saratoga附近确实还有其他游乐场,但Henry Elementary School距离那边有两个多小时的车程。至于红木城的Henry Ford小学,距离葡萄园同样有30分钟的路。
谷歌还专门展示了用户如何打断Gemini Live的对话,看看AI如何迅速转移话头。该公司表示,这样用户就能轻松控制对话走向。但实际上,该项功能也并不完美。有时候谷歌的项目经理们虽然跟Gemini Live聊得很热闹,但AI似乎并没能听懂他们到底在说什么。
另外值得一提的是,据产品经理Leland Rechis介绍,谷歌禁止Gemini Live唱歌、或者在默认提供的10种音色之外再模仿任何语音。该公司这么做可能是为了避免与版权法发生冲突。此外,Rechis还提到,谷歌并不会特意让Gemini Live理解用户语音中的情感和语调——而OpenAI在其演示中一直在大肆宣扬这点。
总而言之,与简单的谷歌搜索相比,这项新功能似乎确实能以更自然的方式帮助用户深入了解特定主题。谷歌指出,Gemini Live属于Astra项目的组成部分,而Astra项目则是该公司在Google I/O期间首次公布的完全多模态AI模型。目前Gemini Live还仅支持语音对话,不过谷歌希望在未来逐渐实现对视频内容的实时理解能力。
好文章,需要你的鼓励
在Meta Connect大会上,Meta展示了新一代Ray-Ban智能眼镜的硬件实力,配备神经腕带支持手势控制,电池续航翻倍,摄像头性能提升。然而AI演示却频频失败,包括Live AI烹饪指导、WhatsApp通话和实时翻译功能都出现问题。尽管Meta在智能眼镜硬件方面表现出色,但AI软件仍远未达到扎克伯格提出的"超级智能"目标。文章建议Meta考虑开放AI生态,允许用户选择其他AI服务商,这可能帮助Meta在AI硬件市场获得优势。
DeepSeek-AI团队通过强化学习技术开发出DeepSeek-R1系列推理模型,无需人工标注即可自主学习复杂推理。该模型在数学、编程等领域表现卓越,在AIME 2024中达到79.8%准确率,编程能力超越96%人类选手。研究团队还通过知识蒸馏技术将推理能力传递给小模型,使7B参数模型也能超越GPT-4o。这项突破为AI推理能力发展开辟新路径。
英伟达同意以50亿美元收购英特尔股份,双方将合作开发多代数据中心和PC产品。英伟达将以每股23.28美元的价格收购约4%的英特尔股份,成为其最大股东之一。两家公司将通过NVLink接口整合各自架构,实现CPU和GPU间的高速数据传输。英特尔将为英伟达AI平台定制x86处理器,并开发集成RTX GPU的x86系统级芯片,用于消费级PC市场。
微软研究院推出rStar-Math系统,通过创新的"深度思考"训练方法,让小型AI模型在数学推理能力上达到甚至超越OpenAI o1水平。该系统采用代码验证、过程偏好模型和四轮自进化训练,将70亿参数模型的数学能力从58.8%提升至90.0%,在美国数学奥林匹克竞赛中达到前20%水平,证明了精巧方法比模型规模更重要,为AI发展开辟了新路径。