今年以来,围绕生成式AI兴起的炒作泡沫可谓层出不穷,应用开发商们也一直对此保持关注。以AI为中心的工具几乎在苹果应用商店App Store的各个类别中都大放异彩,并一举在教育、生产力和图像编辑等领域挤入前十名。其中免费图形与设计类应用尤其多见,其中充斥着大量依托AI实现高效内容创作的工具。
但数量跟质量并不一定直接挂钩——其中很多应用都糟糕得令人难以置信。我本人就一直在试用各种高人气产品,希望借此展望AI工具的当前水平以及未来一年的发展方向。经验证明,每找到一款认真发掘AI潜力的软件,都会出现更多与之对应的纯粹跟风捞钱产品。具体行径包括:偷偷对宣传中强调的功能收费,设置高昂的订阅价格,并严重夸大甚至歪曲了用户能够从中获得的实现效果(不少应用甚至完全无效)。
在App Store排名前十的图形和设计应用当中,约有半数都挂上了各种“AI”相关的名头,而且其中三款来自同一家开发商——HUBX。这是一家成立于2022年,总部位于土耳其的应用开发商。从宣传来看,他们的DaVinci AI应用应该是一款具备部分图像编辑功能的AI图像生成器。但几乎所有工具都开出了30美元(约218元人民币)的年度订阅价格(按周订阅则为5美元,约36元人民币),且免费试用版只提供一项不及行业平均水平的文生图功能,用户可以选择使用不明版本的Stable Diffusion及DALL-E AI大模型。
它生成的图像质量低下,无法正确调整画面大小或裁剪比例,点击任何链接几乎都会触发应用内广告。此外,用户界面的导航感受也让人心烦。而且哪怕是付费使用完整版,用户也无法下载到纯净版的编辑后图像——画面中总会被打上丑陋的水印。但就是这样一款产品,排名还远远高于更优秀的知名创作平台——例如微软Designer,而且人家也有内置的文生图AI生成器。在设计应用这一大类之下,当前唯一排名高于DaVinci AI的就只有Adobe Express。
经过测试,另外两款排名靠前的产品同样乏善可陈:Home AI“室内设计”应用输出的房间图像充满幻觉元素,即使作为概念图也难以使用;而Tatto AI应用则完全不可用。更要命的是,这两款应用也跟DaVinci AI一样有着功能付费墙以及大量弹窗提示设置。至于App Store上显示的版本历史记录,全都是它们的开发商HUBX直接复制粘贴上去的,没有任何可供参考的细节。
虽然这三款应用都获得了数量惊人的五星评价,但社交媒体和App Store评论中的用户反馈却是以负面为主。大家普遍抱怨的问题是无法联系到客服支持。
但必须承认,将AI功能作为核心亮点进行宣传确实颇具吸引力。据Sensor Tower报道,今年初到目前为止,全美下载量最高的10款iOS图形与设计应用当中,有4款都在名头中加入了“AI”一词。虽然在数量上比去年少了两个,但受欢迎程度却是一路飙升。Photoroom的下载量与去年相比增长了160%以上。相比之下,iOS版本的Photoshop Express(同样包含生成式AI功能)的下载量在同一时期内则下降了21%。
以AI为中心的创意性应用当然也不乏优秀之作,然而应用市场的过度饱和导致用户难以找到真正专注发掘AI潜力的卓越软件。像谷歌Magic Editor以及Adobe Photoshop这样的应用,同样提供特定工具以从照片中删除不需要的对象、或是在特定位置上插入新对象。但好消息是,提供类似功能且可以出色完成任务的小型软件开发商,在App Store中的排名正逐步上升。
例如,功能定位类似于Canva和Adobe Express等平台的一体化图形设计应用Photoroom和Picsart AI用起来就相当不错!它们在免费分类下的“照片与视频”排名中位次很高,提供的各项功能可使用预制的数字资产及模板快速创作在线内容,同时内置有自动背景/对象清除等AI编辑工具。
虽然这两款应用还没达到让我为之惊叹的地步,但至少践行了它们在宣传中做出的承诺:背景清除效果比不上Canva,但确实能用;对象消除功能也可以快速删掉画面中不想保留的部分,只是不像谷歌Magic Editor那样自然无痕。这两款应用中的部分高级编辑功能和数字资产,则需要支付每月13美元的订阅费才能解锁——坦率地讲,这个价格也属于行业平均水平。毕竟个人版Canva和Adobe Express的月度订阅价格分别是15美元和10美元。
另一个值得关注的事实是,iPhone与iPad应用排行榜之间存在着明显差异——iPad的免费/付费软件排行榜中,前100名中以AI为主要卖点的应用并不多。相反,高人气应用仍然集中在Adobe Fresco、Clip Studio Paint以及Canva等更加多样化的平面设计应用这边。有趣的是,iPhone付费应用排行榜的情况与iPad高度相似,涉及大量素描与3D建模平台、由艺术家提供的高级参考资料,以及简化特定创作任务(例如清除背景和调整图像大小)的工具。而垃圾AI软件的重灾区,显然集中在iPhone免费应用这个大类之下。
这种差异表明,垃圾AI应用是一种大众市场现象,尚未完全影响到传统摄影师与插画家——他们仍习惯于选择久经考验的成熟应用。这也表明如果用户需要为AI专门付费,那么AI自身的吸引力就会降低。这种趋势在常见的创意类AI应用(包括定制纹身图案、徽标生成器和室内设计等)中表现突出,即一方面需要付费使用、另一方面也对用户的技术水平有着较高要求。简单总结下来,就是人们既不想花时间掌握一门设计技能,也不愿多花钱享受认真打磨的AI功能。
所以靠免费外壳吸引更多受众,再凭借应用内购机制帮自己赚钱的应用软件就成了App Store中的主流。但这也不算什么新鲜事,毕竟多年以来手机游戏一直走的都是这个路子——如今创意AI市场上发生的一切,几乎就是手游发展历程的又一翻版。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。