2016年被称为“AR/VR元年”, 这一年,VR领域头戴设备拳头产品HTC Vive、Oculus Rift、索尼PS VR均面向消费者发售。同年,AR手游《Pokémon Go》风靡全球。AR/VR不再只是“技术名词”,而是能够看得见、体验得到的“产品”。
经历了2016年的火爆,2017年,由于上市的产品在内容质量和体验方面远不及预期,行业进入大浪淘沙阶段。究其原因,还是“技术”不过关,进入市场的 VR/AR 产品暴露出很明显的体验短板,传输与显示是阻挠VR/AR产业发展的两大难题。
传输方面,AR/VR普遍具有内容高带宽、低时延的特点,受网络的影响较大,随着5G的到来,将给AR/VR行业带来巨大助力;显示方面,AR/VR显示在亮度、清晰度上存在诸多问题,发展滞缓,目前还没有特别好的解决方案。
挑战与机遇是并存的,据IDC预测,2020年,全球AR/VR市场相关支出规模将达到106.7亿美元,较2019年同比增长35.3%。企业要想迅速打开AR/VR这片蓝海市场,就需要解决目前所面临的问题,突破性的显示技术变得尤为重要。
近日,三星携手斯坦福研制出一种新的OLED显示屏,其分辨高达10,000PPI,这是什么概念?华为最新发布的Mate 40 Pro显示屏像素密度为456 PPI;iPhone 12显示屏像素密度为460ppi。
新显示屏利用OLED薄膜在两个反射层之间发射白光,其中一个反射层由银膜制成,另一层则是由纳米波纹的反射金属制成。这种“光学元面”改变了反射特性,并允许特定的颜色产生像素共振。这样可以实现比手机上的RGB OLED高得多的像素密度,同时又不会损失亮度。
这种超高分辨率的显示屏可作为理想的AR/VR显示设备,能创造几乎完美无瑕的图像,困扰多时的AR/VR显示设备亮度、清晰度等问题也可以迎刃而解。
据了解,三星已经在使用10,000 PPI技术开发“全尺寸”显示屏,可能再过几年我们就能看到搭载这种新显示屏的AR/VR产品问世。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。