苹果最近与瑞士洛桑联邦理工学院(EPFL)合作,在Hugging Face Spaces上发布了4M AI模型的公开演示。此次发布距离该模型的首次开源已经过去七个月,代表着扩大复杂AI技术应用范围的又一重要进展。最新公开演示允许更多用户直接与4M模型交互,参与到功能的评估中来。
4M(大规模多模态遮蔽建模)展示了一种多功能AI模型,能够跨多种模态处理并生成内容。用户可以与该系统交互,根据文本描述创建图像、执行复杂的对象检测,甚至使用自然语言输入来操纵3D场景。
此次发布标志着苹果正逐渐放开长久以来坚持的内部秘密研发方式。通过在高人气开源AI平台上公开4M模型,该公司不仅展示了自身AI实力,也吸引到更多开发者的兴趣并围绕该项技术建立起生态系统。
Siri智能升级:对苹果AI驱动未来的影响
在AI领域最新发展的背景之下,此次发布的时机显得意义重大。虽然微软和谷歌等厂商因AI合作伙伴关系及产品而纷纷登上新闻头条,但苹果也一直在低调却稳步地推进自身AI能力。4M演示证明苹果在这一关键技术领域同样具备创新能力,这也与该公司最近的市场表现保持一致。
自今年5月1日以来,苹果公司股价已经大幅上涨24%,市场增加了6000多亿美元。这一飙升使得苹果成为科技领域表现最亮眼的厂商之一,在价值增长层面仅次于英伟达。市场的反应也表明,苹果如今同样被视为“AI股”,而最近与OpenAI间的合作声明更是印证了这一判断。
4M的不同之处,在于适应多种模态的统一架构。这种方法能够让整个苹果生态系统的AI应用更加连贯和通用。设想一下,未来的Siri也许能够理解并响应包括文本、图像和空间信息在内的多部分复杂查询,Final Cut Pro也有望根据自然语言指令自动生成并编辑视频内容。
然而,4M的发布也引发了关于数据实践和AI道德问题的争论。苹果长期以来一直将自身定位为用户隐私的捍卫者,但考虑到高级AI模型天然具有数据密集型性质,因此维持这一立场往往具有挑战性。该公司必须谨慎行事,以便在突破AI能力上限的同时保持住用户信任。
从iPhone到Vision Pro:苹果的AI革命路线图正徐徐展开
结合苹果在WWDC上公布的最新AI战略来看,4M模型的公开演示版本尤其引人注目。不同于专注在iPhone、Mac和Vision Pro头显上提供个性化AI设备体验的Apple Intelligence,4M大模型反映的明显是该公司更长期的AI野心。这套模型能够根据自然语言输入操纵3D场景,因此可能对Vision Pro的未来迭代以及苹果的增强现实工作产生令人振奋的积极影响。
4M大模型演示的发布时间紧随WWDC之后,表明苹果内各部门正协同努力,希望确立自身在AI行业中的主要参与者地位。而通过展示Apple Intelligence的消费级AI功能与4M的前沿研究能力,苹果则再次强调了自身对于整个AI领域的开发与贡献承诺。
面向消费级的实用AI外加以4M大模型为代表的前沿成果,体现出苹果正以双管齐下的方式设计自己的战略意图:引领AI革命,同时保持标志性的用户隐私保护能力。随着这些技术的成熟以及在苹果生态系统中的逐步集成,用户可能会在设备交互层面上再次迎来微妙而深刻的历史性转变。而下一阶段的真正考验,很可能是苹果要如何有效兑现它先进AI的承诺,同时继续秉持住保障用户隐私及无缝体验的历史使命。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。