在科技行业,我们习惯将某个时期称为”XX之年”,代表这是里程碑式的阶段。在刚刚过去的2024年,AI与智能体用例正面临广泛的产业实验。
随着2025年的到来,多位行业分析师和IT决策者,也带来他们的观点,帮你了解新的一年还会有哪些变化。而多数人的看法是,2025年将成为“智能体之年”,届时所有试点项目、实验和新的AI用例都将实践落地并转化为投资回报。
除此之外,受访专家们还普遍认为,2025年将成为AI编排在企业领域发挥更大作用的一年。所谓编排,就是通过组织规划让AI应用程序和智能体的管理体系变得更加简单。
以下是我们预计在2025年将会迎来的相关趋势。
更多部署
亚马逊云科技AI与数据副总裁Swami Sivasubramanian表示,2025年将成为生产力之年,因为高管们将更加关心AI技术的使用成本。也就是说,证明AI具备生产力将变得至关重要,而这又要求我们先了解负责改善内部工作流程并对接其他服务的多种智能体。
他表示:“在智能体的世界中,工作流程将经历重新设计,管理者也开始关注如何在保障准确性的前提下实现生产力倍增。”
Palantir公司首席架构师Akshay Krishnaswamy对此深以为然,认为决策者、特别是技术领域之外的决策者们,已经开始对AI投资给业务体系造成的影响抱以高度关注。
Krishnaswamy解释称:“人们理所当然会对沙盘推演感到厌倦,毕竟过去十年间的数据和分析累积已经达到极限。身为高管,大家肯定会想,‘今年也该带来一些看得见、摸得着的投资回报了吧?’”
编排框架的爆发式增长
进入2025年,建立基础设施以管理多个AI智能体及应用程序的需求将进一步扩大。
德勤董事总经理Chris Jangareddy在采访中表示,明年的新态势将令人极其兴奋。除了LangChain之外,市场上还涌现出一众希望提供自主编排平台的AI厂商。
Jangareddy指出:“不少工具正在追赶LangChain的脚步,我们将看到更多新生力量的出现。甚至在组织认真考虑多智能体之前,就已经在关注编排了,可以说几乎所有人都在为业务体系构建编排层。”
不少AI开发人员选择了LangChain,开始为AI应用程序构建流量系统。但对于某些公司而言,LangChain有时候并不是最佳解决方案,因此微软Magentic以及LlamaIndex等新方案开始应运而生。但到2025年,企业客户将迎来更多新的选择。
普华永道全球商业技术与创新官Matt Wood表示,“编排框架仍处于试验阶段,LangChain和Magentic也不例外,因此我们不能只关注其中一种。该领域的工具开发尚在早期,而且未来将会持续发展。”
更好的智能体,更广泛的集成空间
AI智能体已经成为2024年企业应用领域的最大趋势。随着组织准备将多种智能体部署到其工作流程当中,智能体从一个系统跨越至另一系统的可能性也在持续提升。因此,企业必须想办法向高管和员工展示多智能体当中蕴藏的全部价值。
亚马逊云科技的Bedrock乃至Slack等平台,都提供与Salesforce的Agentforce或者ServiceNow等其他智能体的连接,帮助用户轻松将上下文从一个平台转移至另一平台。可尽管如此,了解如何支持这些集成并引导编排器智能体准确识别内部及外部智能体,就成了又一个重要难题。
当智能体工作流变得愈发复杂之时,近期一批更强大的推理模型——例如OpenAI新近公布的o3以及谷歌Gemini 2.0——有望令编排器智能体在能力方面更上一层楼。
然而,如果企业在2025年无法让员工真正接受并适应新的AI工具,那么所有这一切都将是徒劳的。
纽约人寿保险公司首席数据与分析官Don Vu在采访中表示,在最后一英里问题上,员工往往更多选择手动操作、而非AI方案的情况将在明年继续存在。
Vu总结道:“最后一英里问题在2024年就普遍存在,毕竟变更管理和业务流程重塑肯定不像构建出具有不可思议功能的AI智能体那么有趣。而且事实证明,改变人类行为要远比部署技术应用困难得多。”
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。