为了快速改进你的AI应用，Claude推出提示词Playground

开发人员可以将真实示例上传至该测试套件，也可以要求Claude提供一系列由AI生成的测试用例。

过去一年来，提示词工程已经成为AI行业内的新兴热门岗位，而Anthropic则有意开发工具将它推向自动化——或者说，至少是一部分自动化。

根据Anthropic的博客文章，它在本周二公布了多项新功能，以帮助开发人员使用它的大语言模型Claude创建出更具实用性的应用程序。开发人员现在可以使用Claude 3.5 Sonnet来生成、测试和评估提示词，使用提示词工程技术进一步优化输入内容，从而改进Claude在特定任务上的回答质量。

当我们要求语言模型执行某些任务时，它对于输入内容一般比较宽容，但有时对提示措辞的微小变更则可能大大提升输出结果的质量表现。以往我们必须亲自调试措辞，或者聘请提示词工程师专门负责此事，但这次公布的新功能提供快速反馈、能帮助用户轻松找到符合预期的改进方向。

这些功能就旋转在Anthropic控制台的新增Evaluate评估选项卡下。控制台是该公司专门为开发人员提供的测试平台，旨在吸引更多企业客户使用Claude构建产品。其中一项功能正是Anthropic内置的提示词生成器，已经于今年5月推出。这款生成器利用Anthropic内部原研的提示词工程技术，可对任务做出简短描述，也可构建出更长、更详尽的提示内容。虽然Anthropic的工具可能还无法彻底取代提示词工程师，但该公司表示它有助于降低新用户的上手门槛，也能为经验丰富的提示词工程师们节约时间。

在评估选项卡中，开发人员可以测试自己的AI应用提示词在各类场景下的实际效果。开发人员可以将真实示例上传至该测试套件，也可以要求Claude提供一系列由AI生成的测试用例。之后，开发人员可以直接比较各类提示词的有效性，并以五分制对示例答案进行评分。

Anthropic在文章中列举的示例中，开发人员发现自己的应用程序在多个测试用例中都存在答案长度太短的问题。开发人员只需调整提示词中的一行就能扩展答案长度，并将它同时应用于所有测试用例。这无疑将为开发人员节省大量时间和精力，特别是那些几乎或者完全不具备提示词工程经验的开发人员。

Anthropic公司CEO兼联合创始人Dario Amodei在今年早些时候在Google Cloud Next大会上接受采访时表示，提示词工程是企业广泛采用生成式AI的关键因素、甚至说前提之一。Amodei总结称：“这事看似简单，但让专业提示词工程师上手30分钟，往往可以决定一种应用到底能不能顺利运行、达成目标。”

来源：TechCrunch

0赞

好文章，需要你的鼓励

为了快速改进你的AI应用，Claude推出提示词Playground

来源：TechCrunch

2024

07/11

11:58

分享

点赞

中国分布式数据库最新报告：OceanBase居本地部署市场两项第一

阿里团队突破多角色动画难题：FantasyPortrait让静态照片开口说话更自然

差异化为杠杆，Akamai如何撬动电商云服务市场？

Chrome iOS版简化工作与个人谷歌账户切换功能

戴尔科技数据分层策略，现代化存储的智胜之道

解锁商用办公的“效率密码” Ryzen 5 PRO 8600G交出“全场景”答卷

为什么机器不具备智能

巧用心理学技巧让AI按你的意愿工作

人工智能从聊天机器人向浏览器转移的原因

一位创始人能否借助AI打造百万美元产品品牌？

斯坦福研究揭示员工对AI工具的真实需求偏好

Cursor AI的YOLO模式让编程助手失控，安全公司发出警告

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: