每周、甚至是每一天,世界上都会诞生了新的最为先进的AI模型。2025年,新模型发布的速度将更加令人眼花缭乱,甚至是精疲力竭、难以消化。过山车般的成长曲线继续保持着指数级增长,时而新奇、时而疲惫的感受也成为新时代下的新常态。每一次发布都伴随着此模型比以往所有模型都要更好的宣言,无数基准测试结果和柱状图也塞满了我们的脑容量,一片混乱之再难区分真伪。
十八个月前,绝大部分开发人员和企业都在使用单一AI模型。而如今的情况则正好相反,很少有大规模企业会将自己局限于单一模型的功能樊篱之内。企业对于供应商锁定抱持着谨慎的态度,而且特别不能容忍自己在AI这项正迅速在长期战略与短期基准收入中成为决定性因素的技术被他人所把控。换句话说,将全部赌注押在单一大语言模型(LLM)上所构成的风险正越来越高。
可尽管碎片化现状客观存在,不少模型提供商仍然保持着AI领域将会赢家通吃的市场预判。他们宣称,训练顶尖模型所需要的专业知识和计算能力极其恐怖,这种稀缺性必然会自我强化并形成宽大的护城河。在他们看来,构建AI模型的炒作泡沫终将破灭,只留下单一体量庞大的通用人工智能(AGI)模型。它将被用于处理一切事务,而独家掌握这套模型的组织将成为世界上最强大的公司。瞄准这顶桂冠,越来越多的企业投身其中展开了GPU资源的争夺,新的军备竞赛则每几个月就在模型训练的参数量后面再加一个零。
但我们对此类观点深表怀疑。无论是明年还是未来十年,都不会出现能够统治寰宇的单一大杠。相反,AI的未来必然由多个模型共同支撑,形成百家争鸣、共襄盛举的局面。
语言模型是种模糊商品
《牛津经济学词典》将商品定义为“大规模买卖并可单位互换的标准化产品”。从这两项重要定义上来看,语言模型确实是种商品:
1. 模型本身在更广泛的任务上变得愈发可互换;
2. 开发这些模型所需要的专业知识越来越分散且易于获取,前沿实验室之间没有形成遥遥领先的超越关系,开源社区中的独立研究团队也紧紧跟随。
虽然语言模型正在商品化,但它的发展进度也并不均衡。从GPT-4一直到Mistral Small,任何模型都很适合处理多种核心功能。而与此同时,随着我们迈和边缘位置和极端场景,不同用例间的差异则越来越大。一部分模型提供商明确专注于代码生成、推理、检索增强生成(RAG)或者数学。这也让人们心生焦虑,无休止地在Reddit上搜索、评估和微调,希望为每项工作找到最适合的正确模型选项。
因此,虽然语言模型确实是种商品,但更确切地讲,它们其实是种模糊商品。对于大多数用例,AI模型之间有着很强的可替代性,最终决定选择的往往是价格和延迟等直观指标。但在能力边界上,情况则截然相反:模型将进一步专业化,差异程度也越来越高。例如,Deepseek-V2.5在C#编码方面比GPT-4o还要强大,而体量只是后者的一小部分,使用成本更仅相当于4o大模型的五十分之一。
也就是说,商品化与专业化这两种动态直接推翻了单一模型适合处理所有潜在用例的观点。相反,其明确指出了AI将逐渐分散化的新格局。
多模型编排与路由
关于语言模型的市场动态,我们找到了一个恰当的比喻:人类大脑。我们的大脑结构在过去十万年间一直保持不变,不同大脑间的相似性要远大于差异性。而且在人类种群诞生后的绝大部分时间里,多数人都在学习相同的知识,也表现出了类似的能力。
但后来情况发生了变化。我们发展出用语言交流的能力——先是口语,之后使用文字。接下来的通信协议促进了网络发展,人类在互联网的支撑和引导下也变得越来越专业化。我们摆脱了需要在所有领域成为通才、拘囿于自给自足孤岛之内的负担。而辩证的是,专业化催生出的集体财富反而让如今的普通人比我们的任何祖先都更具备通才的特质、至少是基于查询检索的涉猎广度。
在足够宽广的输入空间之内,宇宙总是趋向于专业化。从分子化学到生物学、再到人类社会,概莫能外。只要有充分的多样性,分布式系统在计算效率上永远比整体系统更高。我们相信AI也同样如此。我们越是能利用多种模型的优势、而非单纯依赖一种模型,这些模型的专业化程度就越高,并开拓出人类能力的新领域。
而在运用不同模型优势方面,一种越来越重要的模式就是路由——即以动态方式将查询发送给最适合的模型,同时在不降低质量的前提下使用成本更低、速度更快的模型。路由机制让我们能够充分发挥专业化带来的所有好处,例如更高的准确度和更低的成本及延迟,同时不必牺牲泛化意义上的稳健性。
我们可以通过以下事实,感受到路由能力的基本逻辑:世界上大多数顶尖模型本身都有路由功能,它们采用混合专家架构构建而成,将每一项下一token生成任务路由到几十个专家子模型。如果大模型真要成为之前提到的模糊商品,那就必须让路由成为AI技术栈中至关重要、不可或缺的组成部分。
还有一种观点认为,随着大语言模型逐渐接近人类智能,它将达到稳定状态——即当能力达成饱和时,我们将围绕单一通用模型进行整合,就如同我们围绕AWS或者iPhone进行功能整合一样。这两大平台(也包括其他同类竞争对手)在过去几年间并没能将能力提高10倍,但这并不影响我们在其生态系统中获得极其舒适的体验。然而我们相信,AI不会止步于人类的当前智能水平,它将继续远远超越我们所能设想的一切极限。随着其实现,AI将变得越来越分散且专业化,就如同其他一切自然系统一样。
需要强调,我们不是在夸大AI模型碎片化有多好、多正确。我只是在说分散的市场才是真正有效率的市场:赋予了买家们权力,能够最大限度发挥创新,同时将成本降至最低水平。而且,如果我们能够使用体量更小、更加专业的模型网络,而非通过单一巨型模型来发送各种内容,那我们距离更安全、更可解释且更自主可控的AI未来也就又进了一步。
最伟大的发明应该没有所有人。富兰克林无法把电力传给他的子嗣,图灵的遗产中也不包括计算机。AI无疑是人类最伟大的发明之一,我们坚信它的未来将是、也应该是多种模型共存的局面。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。