今年Google I/O大会上最令人印象深刻的演示之一,始于瀑布前的一张女性照片。主持人点选人像并将她拖拽至图像的另一侧,应用程序就能自动填补她之前站立的空间。主持人又点选阴云密布的天空,背景瞬间绽放出万里无云的明亮晴蓝。没错,短短几秒钟内,图片内容就发生了翻天覆地的变化。
这款AI驱动的工具名为Magic Editor,现场演示也证实其的确不负“魔法”(Magic)之名。这是Google多年来打造的一款工具,其功能库中已经包含多种AI图像编辑选项,例如能快速从图像背景中去掉人物或物体的Magic Eraser等。更重要的是,这类工具完全有可能篡改照片内容,进而招致我们目前还难以断言的重大后果。
虽然这款工具还称不上完美,具体发布日期也没有确定,但Google的最终目标非常明确:简单在屏幕上点击和拖拽,就打造出完美的照片。Google方面宣称这是一款“无需专业编辑工具,即可实现复杂编辑效果”的产品,用户可以在AI强大功能的支持下点选并调整照片内的特定部分。包括增强天空背景、移动和缩放选定对象,还有轻点几下将特定图像部分删除。
Google的Magic Editor试图在Photoshop等程序的高级编辑操作,统统打包进简单的点击操作当中——至少从演示来看基本是这个意思。例如,在Photoshop中,我们无法使用内容感知移动工具来拾取并移动图像内的特定主体。即使认真完成了抠图,最终效果看起来仍有瑕疵,需要配合克隆图章工具甚至是污点修复画笔等工具,一点点修复遗留下的不自然之处或背景冲突。虽然整个过程也不能说特别复杂,但与大多数专业创意工具一样,Photoshop还是给新手们设定了明确的学习曲线。
面对Photoshop等图像编辑应用程序高昂的售价和远称不上直观的使用感受,我完全支持Google这种让照片编辑工具免费化、易用化的努力。然而,如果真的将功能强大且极易上手的图像编辑工具交到几乎所有人手中,很可能彻底改变我们编辑和查看照片的方式。长久以来,人们一直在讨论篡改甚至伪造出来的照片能逼真到什么程度。而Google的工具让这个问题变得更加切近,每个人似乎都能通过简单点击生成极度逼真的图片,甚至根本不用操心内容是否真实。
三星方面最近通过“Space Zoom”让人们注意到了AI“增强”照片的能力。这项功能允许所有新款Galaxy设备的用户拍下令人难以置信的月球照片。今年3月,一位Reddit用户尝试在一张几乎已无法修复的月球图像上使用Space Zoom,发现三星似乎“捏造”了实际上并不存在的陨石坑等元素。这不仅构成了图像造假的风险,更让那些花几年时间捕捉夜空精彩瞬间的摄影师们身陷尴尬——在AI的操作下,人们根本分不清孰真孰假。
公平地讲,智能手机的拍照功能里也内置了不少类似的增强功能。熟悉手机拍照的朋友都知道,设备拍出来的图像早就跟现实相去甚远了——包括滤镜处理、背景模糊甚至是修改图像内容等。但GoogleMagic Editor让造假变得更简单、更有吸引力。在工具相关博文中,Google认为用户们似乎都在追求完美、接受不了存在缺憾的现实,并指出Magic Editor将“更好的控制照片最终呈现出的效果和感觉”,同时也有机会修复漏洞中的缺憾、反映最好的一面。
大家可以认为我是那种照片原教旨主义者,反正我不喜欢这种对眼前景象擅加修改的照片编辑方式。如果我正拍摄一张婚礼照片,而背景的天空哪怕乌云密布,我也不打算把它替换成更漂亮的样式。没错,也许我可能会考虑把朋友圈里发的照片先PS一下,但就算是这样Magic Editor做得也有点过了。当然,这仅仅只是我的个人观点,相信未来会有很多人用Magic Editor让自己在社交媒体上表现得光鲜亮丽,但这也是在强迫我们重新思考如何看待照片、大家到底有没有义务表达真实但可能没那么美好的世界。
Google将Magic Editor称为一项“实验性技术”,预计将在今年晚些时候登陆“部分”Pixel手机,之后再全面推出。如果Google在其Photos应用中引入AI图像编辑工具,那么智能手机制造商早晚会将这些一键式工具(比如替换背景天空或者移动主体的功能)直接集成到手机的拍照软件中。可有时候,照片的美不就在于它的不完美吗?而智能手机的制造商们似乎正努力让我们放弃这样的坚持。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。