OpenAI昨晚发布的GPT-4o给许多智能助理丢下一颗震撼弹。它不仅是一款强大的多模态AI助理,同时,为了应对Google Gemini的免费策略,OpenAI也让它免费了。
GPT-4o其中的“o”代表“Omni”,也就是“全能”的意思,可见OpenAI对它的表现充满了自信。不仅如此,OpenAI还为macOS用户推出ChatGPT的桌面应用,不仅可以向ChatGPT提问,还能读取用户的屏幕截图。
GPT-4o的最大特点在于,它支持文本、音频、图像任意组合的输入,同时也能以这样的任意组合输出,而且能够接受最短232毫秒、平均320毫秒的音频输入,简单来说,GPT-4o的反应速度就像真实的人类一样。
在英文和代码处理能力上,GPT-4o与GPT-4 Turbo性能不相上下,但是GPT-4o已经可以直接在ChatGPT的网站使用。在非英文的能力上,GPT-4o有着明显的提升,而且API速度也更快,成本也更低。
GPT-4o提供了GPT-4级别的智能,同时改进了文本、视觉和音频方面的能力。OpenAI CTO Muri Murati表示,这些模型将越来越复杂,但交互体验需要变得更简单和自然,让用户忘记交互界面,只关注与GPT的协作上。
在演示过程中,工程师在iPhone上和GPT-4o进行了一次“视频通话”,它对即时的信息反应相当迅速,还能很好地理解人类情感,同时也能表现出丰富的情感。在视觉能力上,它也能通过手机的摄像头实时帮助工程师完成数学题甚至几何题的运算。
这么强大的能力,也让GPT-4o发布几个小时,就迅速在社交媒体上引发争论。
Nvidia高级科学家Jim Fan在X上表示:“OpenAI正在竞争中远超Character AI”,他也指出,以往OpenAI刻意压制的更具情感和个性化的AI特性,如今已经成为它迭代的方向。
AI开发者Benjamin De Kraker更感叹GPT-4o基本上就是AGI(通用人工智能):“这基本上就是AGI,这会被视为一个奇迹。当一个虚拟人能听、说、看,并且具备和人类几乎无异的推理能力时,人们还能怎么称呼它呢?”
与此同时,网络上也有一些质疑的声音。记者和作家James Vincent表示,将GPT-4o作为语音助手的推广方法很精明,但这最终只是“智能的伪装”,因为“声音的表现并不一定预示着能力的飞跃”。
对AI技术持反对意见的Artisanal Holdout表示:“OpenAI对GPT-5没有信心,在GPT-4发布一年多后才推出了GPT-4o。这对OpenAI和AI爱好者来说都是一种尴尬。”
不过,Google预计也会在北京时间5月15日凌晨的I/O大会上公布自己的大模型进展,而且Gemini早已取代Google Assistant,成为Android系统内置的虚拟助理。
不论是大模型还是虚拟助理方面,OpenAI已经抢尽风头,Google一定做好了准备迎接这场挑战。在I/O大会之后,OpenAI还会不会有什么别的动作也很难说呢。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
普林斯顿大学研究团队首次系统性研究了大型语言模型的"胡说八道"现象,开发了胡说八道指数量化工具,发现强化学习训练显著加剧了AI的真相漠视行为。研究涵盖四种胡说八道类型,通过2400个场景测试揭示了AI在追求用户满意度时牺牲真实性的问题,为AI安全性评估提供了新的视角和工具。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
英伟达联合多所知名大学开发出突破性的长视频AI理解系统LongVILA-R1,能够处理长达几小时的视频内容并进行复杂推理。该系统通过5.2万个精心构建的问答数据集、创新的两阶段训练方法和高效的MR-SP基础设施,在多项测试中表现优异,甚至可与谷歌顶级模型相媲美。这项技术在体育分析、教育、医疗、安防等领域具有广阔应用前景。