相信很多朋友和我一样,都期待着苹果能够像之前在众多功能和应用中那样,在AI领域交出一份令人眼前一亮的答卷——观察、等待、学习,然后颠覆一切。可尽管苹果已经解决了这项备受争议的技术所带来的一系列棘手问题,但此番似乎并没能跨出长久困扰其他公司的同一片泥潭:与其他AI产品类似,Apple Intelligence同样缺乏真正从0到1的功能性。
要说辅助层面的功能,那确实是有的,甚至还完成得不错。但跟大部分其他AI工具一样,这只是在用高昂的算力资源换取对某些普通任务的效率提升。这也有其价值,特别是当推理运算(即执行实际文本分析、生成等)变得足够高效,且能够转移到设备本身直接处理时,也算是项值得称道的进步。
但眼下端出的一切,还完全配不上当初猛烈的宣传攻势。库克自己曾在“Glowtime”活动开始时告诉我们,Apple Intelligence那“突破性的能力”将产生“令人难以置信的影响”。苹果软件工程高级副总裁克雷格·费德里吉也提到,它将“改变我们在iPhone处理诸多事务的方式”。
而实际落地的功能包括:
• 改写文本片段;
• 总结电子邮件和消息内容;
• 生成自定义表情符号和剪贴画;
• 查找图片中的人物、地点和事件;
• 查找事物。
说真的,这些东西有什么突破性可言吗?市面上的写作助手已经不胜枚举,而文本总结能力也几乎成为一切大语言模型的必备基本功。图像生成早就成为不思进取的代名词,同样的底层原理也让众多服务能够轻松帮助我们通过提示词找到需要的照片。至于早在生成式AI还没诞生的十年之前,傻了吧唧 的语音助手也已经学会了如何为用户查找维基百科条目。
没错,改进是客观存在的。在本地设备和个人场景下完成这些任务,肯定是更好的选择。对于那些无法操作常规触摸屏界面的用户来说,便利性自然也会有所增加。
但是,重要在但是之后,这些功能既不新鲜、也没啥意思。自从WWDC大会之后发布相应的功能测试版以来,除了预料之中的bug修复之外,苹果就再没拿出过任何有实际意义的变化。
人们原本希望“苹果首款为Apple Intelligence量身打造的手机”能够提供更多功能。但事实证明,iPhone 16甚至就连前面提到的这些功能都没法第一时间搭载——它们将通过单独的更新陆续发布。

这到底是想象力的失败,还是技术上的疲软?AI厂商正逐渐将自己的大模型定位为又一种企业SaaS工具,而拿不出我们经常听到的“变革性”用例(事实证明,这些用例大多只是在重复你本来就能在网上查到的东西)。AI模型在正确的场景下确实很有价值,但这些场景似乎跟个人用户很难搭得上关系。
也就是说,厂商实际拿出的AI功能太过平庸,但对它们的描述却一个比一个夸张,于是在二者之间形成了一种诡异的错位。苹果曾经那种以极度克制的态度展示颠覆性创新的特色正在消失,取而代之的是声嘶力竭般的大声吆喝。可以负责任地讲,本周一的苹果发布会是近年来最让人昏昏欲睡的活动,而苹果在其中使用的字眼跟证据却比以往更加夸张和疯癫。
总而言之,跟其他AI提供商一样,苹果也参与到了这场耗资数十亿美元的淘金游戏当中,假装这些模型具有变革性和开创性——但你都知道,根本就是没影儿的事情。所以如果说实际功能早在五年前就已经能够实现,那么到底要怎么证明这帮企业砸进去的这么多资金有其合理性呢?
AI模型可能在某些科学研究领域真正改变了游戏规则,包括一部分编码任务,也许还有材料和结构设计,或者说是在传媒领域(虽然不一定是好事)。
但如果我们还能继续信任自己的眼睛和手指,而不是库克跟弗德里吉那想要扭曲现实般的粗暴宣传,那这批在苹果看来应该能掀起热潮的AI功能其实根本就没有什么新意、更不要说变革性了。而且更为讽刺的是,苹果的声明显然没能给AI领域带来新的“iPhone时刻”。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。