今年 8 月,美国科罗拉多州博览会中的一场艺术比赛,一幅由人工智能创作的画脱颖而出。这幅画具有古典特色的巴洛克风格,画中人物在圆形的巨大窗口凝视着阳光普照、光芒四射的景观,风格、构图都相当优美,这幅作品通过输入关键字再由 Midjourney AI 产生,这也使该作品饱受争议。
在这之后,AIGC 成为舆论焦点,全球产业界和资本方也很看好 AIGC 的发展方向,例如 Gartner 在2022年的重要战略技术趋势中,认为生成式 AI 是非常重要的人工智能技术之一;一些科技巨头也在这个领域持续布局,加大投入,包括 Meta、Google、微软、OpenAI 等等,它们已经在这个领域深耕了多年,公布了许多的预训练模型。
不过真正把 AIGC 推上风口浪尖的并不是 AI 绘画,一款由 OpenAI 推出的聊天机器人模型 ChatGPT 在不久前上线,开放免费注册体验,大约只用了两天时间,便成为互联网上的”现象级”事件,引起各界关注。可能是由于更多人直接体验了一把 AIGC,这次网上的舆论声浪更大,涉及的议题也更宽泛,除了针对使用方式和提问技巧的交流,像是AI 未来会不会取代人类、如何设定人工智能的边界这样的问题也再次被广泛讨论,人们对 AIGC 的好奇心更强烈了。
诞生,AIGC 的前世今生
不过想要更好地了解 AIGC,了解它的原理自然是必不可少的,在”智能”这个概念刚刚出现时,有一个著名的”图灵测试”,图灵测试最早也是通过判断内容是否出自机器,来判定机器是否具备智能。中国信通院云计算与大数据研究所内容科技部副主任石霖指出:”早期也出现了 AIGC 的萌芽,在早期阶段,受限于科技水平,AIGC 主要也局限于小范围的实验。”
在第二个阶段,AIGC 也开始从实验室那么转向一些实用场景。石霖表示,当时一些机构和企业探索了基于人工智能的同声传译技术,但同样受限于当时的技术瓶颈,很多应用实际上无法大规模落地。
随着深度学习技术和大型模型相关应用的落地,目前我们已经正处在一个 AIGC 快速发展的阶段,像 ChatGPT 这种产品的诞生也充分反映出这一点。
石霖指出:”AIGC 进入到落地的阶段,它生成的一些内容基本上也可以用于日常的生产和生活。”近年来,已经有很多AIGC相关应用开始落地,包括一些翻译工具、导航中的语音合成等等。随着元宇宙相关概念的诞生,人们对数字空间和数字内容的需求和依赖度也越来越高,当传统的 PGC 和 UGC 较难满足日益增长的内容需求时,AIGC 可望成为未来满足人们内容需求的重要途径。
边界,AIGC 的能与不能
AIGC 拥有广阔的应用空间,但也暴露出一系列问题。石霖指出,AIGC 使用了人工智能的算法,而人工智能本身存在一些缺陷,包括黑箱机制、偏见数据等因素的影响,内容编辑与创作技术的不完善,也导致产出的作品千篇一律、语音机械感强、图像处理效果不理想等问题。
此外,AIGC 也面临着政策监管的问题。石霖举例称:”我们最近也在交流 ChatGPT是不是有可能被一些黑/灰产利用,例如支撑一些水军来刷屏。另外,AIGC 生成内容的版权归属问题也有待进一步的认定和解决。”
我国最近出台了《互联网信息服务深度合成管理规定》,规范了深度合成技术和相关产业的发展。石霖指出,深度合成技术与 AIGC 存在关联性,在这套管理规定中,提出了内容标识技术管理的这样一套制度,可以便于追踪深度合成内容的制作与发布。
石霖指出,《规定》明确提出了显性和隐性层面两种不同的标识方法。在显性层面,通过嵌入标识来告诉用户当前的内容采用了深度合成技术,隐性层面,通过水印或可追踪的标识,来追踪这些合成的数据。
此外,还需要持续保证这些标识的有效性,任何组织和个人不得采取技术手段删除、替换和隐秘相关标识。不过目前更具体的细则尚未公布,针对这一点,石霖表示:”我们的团队也会依托一些产业的机构和联盟性的组织,开展一些标准制定的工作。”
未来,AIGC 的应用渗透
有了配套的政策,AIGC 技术和产业的发展得到规范,未来也可望衍生出更多应用场景。石霖表示,AIGC 将加速渗透整个经济社会的方方面面:
在传媒领域,通过人机协同生产,推动媒体融合;在电商领域,通过推进虚实交融,营造沉浸体验;在影视领域,拓展创作空间,提升作品质量;在娱乐领域,通过扩展辐射边界,获得发展动能;在其他领域,AIGC 也将通过推进数实融合,加快产业升级。
对于 AIGC 未来的发展方向,石霖总结了三大能力:孪生、编辑和创作。
孪生能力可以为现实的物理世界提供一些高效可感知的数字化增强;编辑能力通过高效率仿真和低成本试错,为现实世界提供快速迭代能力;创作能力通过算法的自我演化,来支持海量内容生态。
石霖指出,未来 AIGC 的应用空间会非常广阔,目前随着相关应用的不断前进,以及国家政策的出台,也会使整个的产业的发展越来越健康。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。