据报道,在首款混合现实头显市场表现不佳的情况下,Apple Inc. 似乎正在践行"若不成功,尝试再尝试"的理念,公司正在准备推出两款新的 Vision Pro 头显设备。
Bloomberg 的 Apple 分析师 Mark Gurman(其对 Apple 计划的预测通常相当准确)今天报道称,该公司正在开发两款新机型:一款更轻便且价格更亲民的型号,以及另一款可直接连接 Mac 电脑、用于低延迟企业应用的型号。
价格更亲民的型号旨在解决原版 Vision Pro 最受诟病的两大问题:3,500 美元的售价和令人不适的重量。据报道,Apple 正致力于降低头显的成本和重量。目前的设备重量接近 1.5 磅,长时间使用往往会导致不适。
理论上,这款更实惠的版本将在保留首款机型诸多技术亮点的同时,扩大产品的受众群体。尽管首款产品表现不佳,截至 2024 年底,Apple 在全球范围内仅售出 42 万台,远低于首年 70-80 万台的预期销量。此外,还有传言称 Apple 已于 1 月 1 日停产。
据 Gurman 透露,正在开发的第二款机型面向专业用户和企业市场。与原版不同,这款设备将直接连接 Mac,适用于医学影像、飞行模拟等要求极低延迟的高性能场景。
有线连接方式将允许用户充分利用 Mac 的处理能力,同时享受头显的沉浸式显示功能,避免无线延迟和板载硬件限制带来的性能折衷。
除了这两款新头显,Apple 还据称正在开发配备摄像头和麦克风的智能眼镜,类似于 Meta Platform Inc. 的 Ray-Ban Meta AI 眼镜。这款眼镜旨在为用户提供 Siri 和视觉智能功能的访问,支持语音查询、物体识别和基本的环境感知等功能。
虽然新款 Vision Pro 和智能眼镜的具体发布时间仍是推测,但新款 Vision Pro 可能会在今年年底前发布。智能眼镜可能需要更长时间,有人预计要到 2027 年才会面世。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。