从各个方面来看,2024年对于AI科技而言都是迄今为止最为重要的一年——至少在技术商业化角度上是如此。
2022年底,ChatGPT的横空出世开启了大语言模型(LLM)的轰动效应,而且直到当下也丝毫没有放缓的迹象。不仅是OpenAI、微软、Meta以及谷歌等巨头不断发布各种新型大模型,更有许多初创公司和个人开发者投身于其中、拿出自己的模型成果。
事实证明,关于AI研究放缓的报道即使不说毫无依据,也至少有着夸大其词、博人眼球之嫌。
此外,超越大多数大语言模型所依赖的Transformer架构的新兴技术也开始浮出水面,例如Liquid AI打造的Liquid Foundation基础模型。
最后,企业开始全面接受AI“智能体”的新思路——即开发出特定的AI机器人、应用程序与工作流程。这些机器人、应用程序和工作流程能够独立解决特定问题,或者至少要比典型大模型聊天机器人的往来交流模式拥有更低的人为干预需求。
面对纷繁复杂的一年,要想从过去这十二个月间的AI故事提取出四条,着实是件令人难以抉择的任务。本文尝试以合并同类项的方式将大量细节囊括进来,最终提炼出对于未来影响最为深远的四大重点:
OpenAI的技术布局已经全面超越ChatGPT
这家可说以一己之力开启生成式AI新时代的公司,今年也没有错过任何重要机会。尽管来自后起之秀和传统技术大厂的竞争冲击愈演愈烈,甚至投资合作伙伴乃至微软都只能算是竞合关系,但OpenAI仍然牢牢把握着这一年中AI生态体系中的C位。
o1模型:OpenAI发布了其GPT家族之外的首个大型通用模型家族,即o1“推理”系列。该系列将更多时间用于处理复杂提示词,从而提高了响应准确性。其在科学、编程和推理类任务中表现尤其突出。
o3模型:继今年9月发布的o1模型之后,OpenAI在年底又推出了一款更为先进的o3模型。虽然这款模型要到2025年初才会向公众开放,甚至不会供任何第三方使用,但仍体现出OpenAI不断探索、突破自我的雄心。
ChatGPT搜索:这项功能的最初形态其实是仅限受邀用户体验的独立产品SearchGPT,后被整合进ChatGPT当中,支持在ChatGPT内以高度实时的方式检索网络信息,并更精确地交付搜索结果。这不仅增强了功能自身对于最新查询请求的响应效果,也代表着OpenAI正式拉开了与谷歌、必应乃至后起之秀Perplexity展开正面交锋的决心。
Canvas:Canvas于今年10月推出,将ChatGPT界面从对话形式扩展至类似工作站的窗格,能够根据用户要求动态更新内容,例如编辑文档或者编程项目。但其设计和定位很难让人不联想到几个月前由Anthropic发布的Artifacts——至少二者在功能规划上高度趋同。
Sora:在这款受到严密保护的视频生成模型吊起全球用户的近一年之后,OpenAI终于在本月初正式开放了Sora——其努力通过独特且经过精心设计的界面与故事板功能,希望在竞争激烈的AI生成视频领域脱颖而出,亦迅速引起了市场的广泛反响。
开源AI全面崛起
Llama 3与3.1:Meta于今年4月推出了Llama 3,为开源AI大模型的性能树立起新的标准;此后Meta又于7月迅速发布了拥有4050亿参数的Llama 3.1。Llama 3.1版本用于支持该公司打造的Meta AI助手,后者被集成在WhatsApp、Messenger、Instagram以及Facebook等平台之上,希望成为应用范围最广的AI助手方案。
Llama 3.3:Llama 3.3模型于2024年12月发布,其性能足以与大语言模型相媲美,但计算成本仅为后者的一小部分,因此更适合企业级应用场景。
与此同时,阿里巴巴的Qwen-2.5系列与DeepSeek深度求索的全新V2.5及R1-Lite Preview等中国大模型也闪电般跻身一系列基准测试排行榜。至于实力雄厚的英伟达,其明显不满足于仅提供显卡与软件架构,同时也推出了自己功能强大的开源Nemotron-70B模型。
Nous Research是一家来自旧金山的小型公司,旨在提供更具个性化且限制条件更少的开源AI模型。该公司的不少设计思路都颇具亮点。
另外也别忘记来自法国的Mistral,其开源及专有AI产品阵容同时处于快速扩张阶段。
谷歌Gemini模型家族成为ChatGPT之外的最佳选项
今年早些时候刚刚公布之时,谷歌Gemini系列AI模型曾因其诡异的图像生成效果而饱受诟病,网友们纷纷吐槽称希望Gemini“清醒一点”。但随后其凭借强大的更新版本成功回归,目前在第三方性能基准测试排行榜上名列前茅,对于开发者和企业客户的吸引力也越来越大。
谷歌随后又发布了Gemini 2.0 Flash,这是一套支持流媒体分析的多模态AI模型,能够观察并指导用户在屏幕上的操作。接下来亮相的Gemini 2.0 Flash Thinking,则直接在推理能力方面与OpenAI的o1与o3模型叫板。
AI智能体席卷企业应用领域
随着时间推移,AI智能体已经从热门议题变成了顶级企业软件供应商严肃对待的一系列重要产品与计划。例如:
Salesforce的Agentforce 2.0:Salesforce在几天前刚刚推出的Agentforce 2.0是一款先进的AI智能体程序,能够增强其CRM与销售产品功能,同时对接Slack的推理/集成与定制能力,为各类现有企业生产力工具强势赋能。
SAP Joule:SAP将其Joule聊天机器人改造成了基于开源在语言模型(LLM)的AI智能体,旨在改善其在企业环境下的创新与效率表现。
谷歌Astra项目:作为Gemini 2.0计划的一部分,谷歌发岂有此理的Astra项目是一款AI助手,其依托于谷歌服务套件提供实时情境响应,旨在提高用户的工作效率与决策能力。
2025年,AI生成内容将占据主导地位
基于一系列进步,2025年将成为AI生成内容在商业和消费领域全面爆发的一年。从OpenAI到Meta,再到谷歌、微软、苹果甚至是马斯克掌控的xAI,几乎每一家厂商都在其产品中内置有AI图像生成工具。
这种扩展将大大降低内容创作门槛、增强个性化水平并提高各个领域的运作效率。
除此之外,我们预计大语言模型与生成式AI机器人也将在商业及消费级环境中初步实现大规模部署,从而彻底改变自动化与人机交互形态。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。