过去一年来,提示词工程已经成为AI行业内的新兴热门岗位,而Anthropic则有意开发工具将它推向自动化——或者说,至少是一部分自动化。
根据Anthropic的博客文章,它在本周二公布了多项新功能,以帮助开发人员使用它的大语言模型Claude创建出更具实用性的应用程序。开发人员现在可以使用Claude 3.5 Sonnet来生成、测试和评估提示词,使用提示词工程技术进一步优化输入内容,从而改进Claude在特定任务上的回答质量。
当我们要求语言模型执行某些任务时,它对于输入内容一般比较宽容,但有时对提示措辞的微小变更则可能大大提升输出结果的质量表现。以往我们必须亲自调试措辞,或者聘请提示词工程师专门负责此事,但这次公布的新功能提供快速反馈、能帮助用户轻松找到符合预期的改进方向。
这些功能就旋转在Anthropic控制台的新增Evaluate评估选项卡下。控制台是该公司专门为开发人员提供的测试平台,旨在吸引更多企业客户使用Claude构建产品。其中一项功能正是Anthropic内置的提示词生成器,已经于今年5月推出。这款生成器利用Anthropic内部原研的提示词工程技术,可对任务做出简短描述,也可构建出更长、更详尽的提示内容。虽然Anthropic的工具可能还无法彻底取代提示词工程师,但该公司表示它有助于降低新用户的上手门槛,也能为经验丰富的提示词工程师们节约时间。
在评估选项卡中,开发人员可以测试自己的AI应用提示词在各类场景下的实际效果。开发人员可以将真实示例上传至该测试套件,也可以要求Claude提供一系列由AI生成的测试用例。之后,开发人员可以直接比较各类提示词的有效性,并以五分制对示例答案进行评分。
Anthropic在文章中列举的示例中,开发人员发现自己的应用程序在多个测试用例中都存在答案长度太短的问题。开发人员只需调整提示词中的一行就能扩展答案长度,并将它同时应用于所有测试用例。这无疑将为开发人员节省大量时间和精力,特别是那些几乎或者完全不具备提示词工程经验的开发人员。
Anthropic公司CEO兼联合创始人Dario Amodei在今年早些时候在Google Cloud Next大会上接受采访时表示,提示词工程是企业广泛采用生成式AI的关键因素、甚至说前提之一。Amodei总结称:“这事看似简单,但让专业提示词工程师上手30分钟,往往可以决定一种应用到底能不能顺利运行、达成目标。”
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。