OpenAI昨晚发布的GPT-4o给许多智能助理丢下一颗震撼弹。它不仅是一款强大的多模态AI助理,同时,为了应对Google Gemini的免费策略,OpenAI也让它免费了。
GPT-4o其中的“o”代表“Omni”,也就是“全能”的意思,可见OpenAI对它的表现充满了自信。不仅如此,OpenAI还为macOS用户推出ChatGPT的桌面应用,不仅可以向ChatGPT提问,还能读取用户的屏幕截图。
GPT-4o的最大特点在于,它支持文本、音频、图像任意组合的输入,同时也能以这样的任意组合输出,而且能够接受最短232毫秒、平均320毫秒的音频输入,简单来说,GPT-4o的反应速度就像真实的人类一样。

在英文和代码处理能力上,GPT-4o与GPT-4 Turbo性能不相上下,但是GPT-4o已经可以直接在ChatGPT的网站使用。在非英文的能力上,GPT-4o有着明显的提升,而且API速度也更快,成本也更低。
GPT-4o提供了GPT-4级别的智能,同时改进了文本、视觉和音频方面的能力。OpenAI CTO Muri Murati表示,这些模型将越来越复杂,但交互体验需要变得更简单和自然,让用户忘记交互界面,只关注与GPT的协作上。

在演示过程中,工程师在iPhone上和GPT-4o进行了一次“视频通话”,它对即时的信息反应相当迅速,还能很好地理解人类情感,同时也能表现出丰富的情感。在视觉能力上,它也能通过手机的摄像头实时帮助工程师完成数学题甚至几何题的运算。

这么强大的能力,也让GPT-4o发布几个小时,就迅速在社交媒体上引发争论。
Nvidia高级科学家Jim Fan在X上表示:“OpenAI正在竞争中远超Character AI”,他也指出,以往OpenAI刻意压制的更具情感和个性化的AI特性,如今已经成为它迭代的方向。

AI开发者Benjamin De Kraker更感叹GPT-4o基本上就是AGI(通用人工智能):“这基本上就是AGI,这会被视为一个奇迹。当一个虚拟人能听、说、看,并且具备和人类几乎无异的推理能力时,人们还能怎么称呼它呢?”

与此同时,网络上也有一些质疑的声音。记者和作家James Vincent表示,将GPT-4o作为语音助手的推广方法很精明,但这最终只是“智能的伪装”,因为“声音的表现并不一定预示着能力的飞跃”。

对AI技术持反对意见的Artisanal Holdout表示:“OpenAI对GPT-5没有信心,在GPT-4发布一年多后才推出了GPT-4o。这对OpenAI和AI爱好者来说都是一种尴尬。”

不过,Google预计也会在北京时间5月15日凌晨的I/O大会上公布自己的大模型进展,而且Gemini早已取代Google Assistant,成为Android系统内置的虚拟助理。
不论是大模型还是虚拟助理方面,OpenAI已经抢尽风头,Google一定做好了准备迎接这场挑战。在I/O大会之后,OpenAI还会不会有什么别的动作也很难说呢。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。