眼球追踪技术通过特制传感器监测我们视线的移动,这一技术已在医学研究、行为分析、工作场所安全、界面设计、汽车驾驶注意力监测及计算机游戏等多个领域应用了几十年。
2017年,HTC首次将眼动追踪技术融入其VR头戴设备中;苹果公司则计划在2024年初推出的空间计算平台Vision Pro中采用此技术。诸如索尼、惠普、Pico和Pimax等其他耳机制造商也已开始初步采用由眼动追踪创新者Tobii研发的专用硬件与芯片,特别是在电脑游戏领域。
虚拟现实(VR)中的眼动追踪技术能带来图像质量优化、用户体验革新、更精准的研究手段以及适应性更强的培训方案。同时,它也引发了对隐私的新关注,尤其是在精确追踪注意力和收集深度医疗信息方面。
在VR中,眼动追踪是如何运作的呢?人眼运动是人体最快且最微妙的动作之一。尽管我们所见的世界相对静态,但眼睛却以平滑追踪、快速扫视以及每秒数百次微小颤动的方式聚焦于物体细节上。通过监控这些动作的眼动追踪工具能够识别我们的视线焦点,并揭示思维及身体内部发生的活动。
早在古希腊时期,柏拉图在其著作《蒂迈欧篇》中就提出观看是一个积极的过程,即用注意力捕捉世界上的物体。如今,研究人员更加关注我们所见之物、观察机制及其对身心可能产生的意义。早期的眼球追踪技术复杂且具有侵入性,依赖于佩戴不舒适的磁性隐形眼镜或监听眼部肌肉放电的传感器。而现代眼动仪通常利用红外光反射并通过视频眼科描记法,借助多摄像头来追踪反射光。
眼动追踪器的性能以其赫兹(每秒帧数)衡量,保真度则通过分辨率和准确度来评判。分辨率代表可检测到的最小细节级别,而准确度则反映其与实际观察位置的一致程度。例如,高端设备如SR Research的EyeLink II可以实现500 Hz的采样率、0.01度的分辨率以及0.5度的准确度,但这相对昂贵且体积较大,不适合应用于VR头戴设备。
目前,除苹果以外的大多数VR和AR产品都采用了Tobii的眼动追踪芯片,虽然Tobii未公布其VR耳机芯片的具体规格,但参考其最新的科研用头戴式眼镜,能达到120 Hz的刷新率和约0.6度的精度。
眼动追踪为VR带来的创新体验
眼动追踪为VR带来了动态注视点渲染的创新,通过提升视网膜最敏感区域的图像质量,从而提高视觉体验。此外,如同鼠标和触摸屏一样颠覆性的新用户界面范例也可能因眼动追踪技术得以实现。
据SRI计算机视觉技术实验室首席科学家朱志伟介绍,频率超过200Hz、精度接近0.5度的眼动追踪系统足以支持视力正常的用户在VR中享受全新的交互体验。苹果在其Vision Pro平台上便运用了此类技术,使用户可以通过凝视虚拟物体并用手势与其互动。
HTC VIVE业务开发和企业解决方案副总裁Thomas Dexmier表示,新的用户体验取决于具体应用场景。VIVE新型的眼睛和头部追踪器达到120 Hz的刷新率,这对于当前和近期的应用来说是最优选择。比如,许多消费者研究主要集中在近距离行为观察,如货架陈列、衣物摆放或个人在虚拟观众面前的行为表现。即使是对复杂的3D模型进行审视,也大多在短距离内完成。“这意味着无需具备在远距离下毫米级精度跟踪的能力,”Dexmier解释道。
他认为,创造新体验的最大挑战在于如何让设计师和研究人员轻松获取这项技术。“一旦他们见识到眼动追踪的可能性,便会迅速采纳。”而在技术层面,开发者需要广泛的SDK来构建未来基于眼动追踪的应用程序,同时简化3D内容和眼动追踪数据格式,以便开发者更容易创建新颖体验。
进一步改进后,人们甚至有望仅凭眼神就能剪切粘贴文本,无需使用鼠标。然而,IT服务和咨询公司Diversified负责媒体解决方案创新的副总裁Jared Timmins认为,眼动追踪技术要达到传统鼠标和触摸交互的流畅性,可能还需要多次迭代。“尽管这些进步令人瞩目,但在提高大范围视野的准确性和精度、降低成本以及提升用户舒适度等方面取得更多进展仍然至关重要。”
克服眼动追踪技术普及的障碍
眼动追踪技术普及面临的障碍包括开发出能在不同光照条件和应用场景下高效运行的低延迟眼动追踪系统,以及适应戴眼镜的用户或具有不同眼部解剖结构的个体。在用户界面设计上,关键是要创造出自然直观的交互方式,利用眼球运动而不引发不适或疲劳,避免常见的晕动症或VR眩晕问题。
HarmonEyes和RightEye的联合创始人兼首席执行官Adam Gross指出,眼动追踪模型和应用程序在各类眼动追踪设备间的互操作性仍有待提升。“当前,将眼动追踪模型和应用转移到任何新型或不同的眼动追踪设备上,都需要手动验证和测试。”
他的两家公司正在研发眼动追踪数据聚合与转换工具,运用人工智能和机器学习技术关联不同追踪器的数据结果,用于评估注意力、检测脑震荡影响、提升运动表现和制定训练计划等目的。
保护隐私和道德规范对于眼动追踪技术的推广至关重要。随着消费者对点击和点赞数据使用的日益谨慎,他们可能会对追踪其在真实和虚拟世界中的视线内容感到更为担忧。因此,企业和客户必须采取适当的安全措施和政策来解决这些问题。正如Timmins所说:“如同对AI使用的顾虑一样,强有力的数据保护实践和自上而下的管理政策将成为所有采用眼动追踪技术公司的必备尽职调查。”
VR眼动追踪技术的未来展望
眼动追踪技术在虚拟现实(VR)领域的潜力无限,它不仅可以优化图形渲染和交互体验,还可能催生全新的研究方法与培训方案。例如,在医疗领域,通过精确的眼球运动数据可以分析病人的认知状态、注意力分布以及潜在的视觉障碍,这对于诊断神经退行性疾病或评估创伤后康复进程至关重要。
对于游戏开发者而言,眼动追踪能够实现更深层次的游戏沉浸感,让玩家只需通过视线就能控制游戏内角色或进行互动,大大提升了用户体验。同时,眼动数据可用于动态调整场景光照、视角变化等参数,使游戏画面更加逼真且适应个人视觉习惯。
在教育领域,眼动追踪可为教师提供关于学生学习过程中的注意力集中点和理解程度的实时反馈,有助于个性化教学策略并改进课程内容。此外,这项技术也能应用于职业训练,如飞行员模拟训练、手术模拟等,通过跟踪学员的眼球运动来评估其决策速度和准确性。
然而,尽管眼动追踪技术带来了诸多益处,但在广泛应用前仍需解决一些关键问题。首先,需要确保眼动追踪设备能在不同环境条件下稳定、准确地工作,并能舒适地适应各种人群,包括佩戴眼镜的用户和其他具有特殊眼部特征的人群。其次,隐私保护措施必须到位,以消除用户对眼球运动数据被滥用的担忧。最后,要建立统一的标准和接口,促进眼动追踪硬件与软件生态系统的互操作性,降低开发成本并加快应用创新的步伐。
随着技术的不断进步和完善,眼动追踪将在未来虚拟现实及更多领域发挥更大的作用,从提升娱乐体验到深化科学研究,再到推动教育培训方式变革,都将展现其强大的潜力与价值。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。