尽管苹果拥有令人印象深刻的技术实力,但功能完备的Vision Pro并未引起轰动。不过,现在就下断言为时尚早,该公司正持续在这款产品身上投入宣发资源。据报道,苹果方面计划在visionOS中引入AI功能,同时着手更新当前苹果门店内的演示内容。
彭博社日前报道称,苹果正在努力解决将Apple Intelligence纳入头显增强现实界面的挑战。这可能会让Vision Pro用户稍微松一口气,毕竟苹果方面在今年WWDC 2024主题演讲的AI部分对该平台只字未提,着实令人感到沮丧和失望。
报道指出,该公司正在门店演示内容中添加新的“Go Deeper”选项,具体包括测试办公功能、观看视频,以及默认让体验者使用双环带(即带子从佩戴者的头顶绕过头部)。这是因为不少人在之前的体验中,曾明确抱怨单环带的使用感受不佳。
据报道,苹果还允许人们在头显中观看自己的视频和照片,包括全景图。在演示中引入更多感性元素似乎永远是个好办法,特别是随着今年秋季visionOS 2发布之后,“空间化”选项能够将2D照片转换为3D形式,而且这项功能的实际效果将远超人们的预料(只是在处理头发和眼镜时仍偶有瑕疵,类似于苹果的人像模式功能)。
但可以想象,如果人们最终在画面中未得到良好感受,那么效果将适得其反。大家应该都知道,把iPhone照片放到电脑显示器上往往会迅速放大其中的缺陷吧?那设想一下,如果进一步把内容放到一面墙那么大,情况又会如何。
但目前这些情况都是小问题,真正的关键在于苹果可能会在明年年底发布一款更便宜的头显。暂时还不清楚这款新头显会是什么样子,但关于低价版新品的传言已经光泽而来。这不禁令人好奇苹果为了降低售价会做出哪些调整,这款所谓“Vision Pro 2”的成型又需要投入多少工程力量。
不过,所有这些故事的共同之处在于,苹果已经意识到能满足品牌要求的头显肯定是用巨量资金堆出来的。虽然现在就宣判Vision Pro死刑还为时过早,但我总是隐隐有一种感觉:如果不能在下代产品中显著降低产品的价格,苹果的增强现实设备探索就没有出路……哦不,也许还有另外一种组合,就是继续维持Vision Pro在小众市场上的优势地位,同时再推出一款轻量化的纯AR眼镜类产品。
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。