OpenAI在今天宣布为ChatGPT带来插件(plugins),借助第三方工具的力量,让ChatGPT更完美。网络上也有人感叹这是“AI的iPhone时刻”,英伟达AI科学家Jim Fan更直接把它与iOS的App Store做类比。

用户在使用时只需要通过ChatGPT的插件商店(Plugin Store)安装并选择一个插件,ChatGPT就能在对话窗口中调用插件提供的数据,提供更即时、准确的回答,或者像给助理发私信一样操作上面的功能。例如询问Expedia接下来的行程安排,或者通过Zapier绑定的Gmail邮箱查找或发送邮件等等。

之前推出的API,让ChatGPT为更多产品提供自然语言理解能力,现在的插件则是让其他产品入驻ChatGPT这个“平台”中来。
“Plugin Store”的概念就像苹果的App Store、Android的Android Market(现在是Play Store)一样,在智能手机刚开始风靡的那几年,几乎每天都有新的应用程序给你把玩。Plugin Store必然也会像App Store和Android Market一样,增强ChatGPT的可玩性和实用性,未来甚至可能成为开发者新的收入来源。
对ChatGPT来说,Plugin Store很好地弥补了它在数据准确性与即时信息获取能力上的不足。而在获取即时信息方面,OpenAI还为ChatGPT提供了新的“浏览(Browsing)”模式,可以直接在网页上获取信息。

你只需要把它的模式切换到“Browsing”,然后输入点什么,它就能像新必应(Bing)一样,在网络上搜索结果,访问搜索结果中的链接,然后返回信息,并提供来源链接。这个似曾相识的操作流程,简直就像复制了一个新必应一样。

这项功能的推出,恐怕会让微软必应(Bing)失去原本由GPT-4带来的优势,陷入尴尬的处境。OpenAI在博客文章中表示,这次公开的浏览模式是利用了WebGPT、GopherCite等过去的成果,并未提及必应。
ChatGPT的浏览模式就像内置了一个真正的网页浏览器一样,只不过搜索和点击的操作,它已经帮你完成了,插件功能则像是对第三方应用程序的支持,这样的组合确实很像一部智能手机。
不过使用ChatGPT的插件主要依靠人类与人工智能的对话过程,最关键的是,它能够在一次对话中同时调用多个插件。在OpenAI的演示视频中,ChatGPT利用OpenTable查询餐厅和食材,用WolframAlpha计算餐点的卡路里,并且将食材加入Instacart。

ChatGPT可以同时让多个插件在对话中发挥作用,在智能手机上,恐怕只有借助iOS的“快捷指令”(Shortcuts)才能媲美这样的体验了。不过在桌面浏览器上,这种运行模式从一开始就已经存在,不论Chrome、Firefox,还是Safari,浏览器扩展(extension)一直都能在一个页面上同时工作,当你访问一个网页,广告屏蔽器、防追踪、RSS查询工具都会同时执行各自的任务。

在人工智能领域,与ChatGPT插件最接近的,应该就只有亚马逊Alexa的“技能”(Skills)了,用户在后台安装好一个技能,通过Echo或Alexa就能下达指令。相比苹果Siri和Google Assistant,Alexa在语音助理中长期占据主导地位,第三方技能功不可没,早在2017年,Alexa就已经拥有上万种技能。然而,与ChatGPT不同的是,Alexa至今都无法理解一次性下达的多个指令,用户必须逐个交代,这也进一步凸显出GPT的优势。

相对于传统的人工智能助理,ChatGPT具有更强大的能力和潜力,可以说是具有颠覆性的。在GTC 2023上,NVIDIA创办人兼CEO黄仁勋提出,AI的iPhone时刻已经来临。ChatGPT从诞生到现在发生的一系列变化,的确具有开创性意义,不过相比苹果,OpenAI在创造了全新体验的同时,更加注重开放性,ChatGPT的形态更像开源的Android系统,你可以为它安装第三方应用,也能把它装进不同的“容器”中,增强产品体验。
如果未来OpenAI能够进一步整合第三方插件和ChatGPT API服务,就像被装进其他“容器”的Android也能运行第三方应用程序一样,那么Plugins也只是一个新的起点,ChatGPT将拥有更巨大的潜力,远超现在的表现。
好文章,需要你的鼓励
新加坡人工智能机构与阿里云发布全新大语言模型Qwen-Sea-Lion-v4,专门针对东南亚语言和文化特色进行优化。该模型结合阿里云Qwen3-32B基础模型和大量东南亚地区数据集,在东南亚语言模型评估榜单中位居开源模型首位。模型支持119种语言,能在32GB内存的消费级笔记本上运行,采用字节对编码技术更好处理非拉丁文字,并具备3.2万词元上下文长度,可执行文档级推理和摘要任务。
中科大联合快手等机构推出VR-Thinker技术,首次实现AI视频评判员的"边看边想"能力。该系统通过主动选择关键画面、智能记忆管理和三阶段训练,在视频质量评估准确率上达到75%-82%,特别擅长处理长视频场景,为AI视频生成的质量控制提供了突破性解决方案。
AI智能体是下一代业务自动化工具,不仅能对话交流,还能执行复杂任务。与ChatGPT聊天机器人不同,它们可在最少人工干预下规划并完成工作。文章介绍了五个高影响力应用:自动化客户服务解决方案、销售CRM管理、合规自动化、招聘筛选与排程、市场情报报告。这些应用都具有重复性工作流程、依赖结构化数据、遵循可预测规则等特点,能够释放员工宝贵时间用于更有价值的工作。
微软研究院发布BitDistill技术,通过三阶段优化将大型语言模型压缩至1.58位精度,在保持性能的同时实现10倍内存节省和2.65倍速度提升。该技术包括模型结构稳定化、持续预训练适应和知识蒸馏传承三个关键步骤,解决了模型量化中的性能衰减和规模化问题,为AI模型在资源受限设备上的高效部署提供了新方案。