三星本周发布新款手机,据称是有史以来AI渗透度最高的手机产品。请注意,这不是猜测——千万别误以为这是CES 2024大会上那种屡见不鲜的“把ChatGPT塞进去”的操作。三星正在以振聋发聩的声量向全世界宣布,这次的新品真的有份量、有来头。而且根据本周Galaxy Unpacked活动上的展示情况来看,跟在洗衣机上装ChatGPT那种胡闹行为不同,AI加持下的三星手机确实大有潜力。
AI技术的浪潮全面兴起于2023年,但对于我们日常生活中最重要的组成部分——手机,目前似乎还没有理想的结合方案。这也是AI技术的一大现实难题:用于支持ChatGPT等聊天机器人的大语言模型还无法运行在我们的手机上。虽然用户可以下载ChatGPT应用来调用云端查询资源,但此类服务却无法提醒我们刚刚收到一封重要邮件。好在情况正慢慢发生变化 :去年10月上市的Pixel 8 Pro已经能够在本机上运行谷歌基础模型,并承诺后续会进一步提供AI驱动更新。不过总体来讲,当前能够本机支持AI的设备还很有限,功能表现也平平无奇。
12月的软件更新添加了用AI总结Recorder记录的功能——我立刻体验了一下,因为自己平时也正好在使用Pixel Recorder应用。结果证明,其无法处理大段录音,一切超过10分钟的素材都不受支持。换言之,我的大部分录音都被排除在了适用范围之外。Video Boost也在此次更新中获得增强,新功能名为Night Sight夜视。视频的处理效果不错,但在静态照片上的表现相对差些,而且用户往往需要等待一、两个小时才能看到云端处理完成的视频。
尽管好消息不多,但也有不少前景光明的探索仍在继续。在去年年底的Pixel发布会上,谷歌宣布推出Assistant with Bard——这是一款ChatGPT风格的AI聊天机器人。Bard在当前的AI领域虽然不算绝顶高手,但至少一直在稳步发展并充实更多有用功能,相信它的介入能让AI助手在以往的设置闹钟和日历之外,给用户带来更多便利性体验。而且在三星Unpacked活动上的预告片当中,似乎也出现了Bard的身影。
那么,Galaxy S24系列手机会不会搭载某种定制版Bard?如果真是如此,那Bixby的命运又将如何?你可能还记得Bixby,我们实在很难想象谷歌会愿意在竞争对手的手机上搭载自家AI成果。但话又说回来,三星的Android手机销量远超谷歌,AI时代的降临很可能会让这些亦敌亦友的巨头成为更亲密的合作伙伴。
这款橙色AI小装置之所以引发人们的广泛关注,靠的就是把用户从手机上解放出来的承诺。
AI显然还能在我们的手机上做得更多,而迄今为止在未来愿景上思路最清晰的并不 谷歌或者三星。具体来讲,这个更接近正确答案的选项压根不是一款手机,而是Rabbit R1——CES 2024上最具突破性的热门产品。作为一款由Teenage Engineering设计的小装置,它负责充当手机的AI助手。用户需要授予它访问自己应用和账户的权限,之后就能要求它执行航班查询、外卖预订之类的日常操作。据称,它根本不需要开启应用或者点击菜单,就能帮助用户完成种种繁琐的操作。干得漂亮!
哪怕未来可能被并入手机之内,仍然无法掩盖这款产品的光辉。至于人们是否真的愿意用AI来管理自己的数字生活?每周数万的R1订单量也许已经给出了答案。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。