今年 8 月,美国科罗拉多州博览会中的一场艺术比赛,一幅由人工智能创作的画脱颖而出。这幅画具有古典特色的巴洛克风格,画中人物在圆形的巨大窗口凝视着阳光普照、光芒四射的景观,风格、构图都相当优美,这幅作品通过输入关键字再由 Midjourney AI 产生,这也使该作品饱受争议。
在这之后,AIGC 成为舆论焦点,全球产业界和资本方也很看好 AIGC 的发展方向,例如 Gartner 在2022年的重要战略技术趋势中,认为生成式 AI 是非常重要的人工智能技术之一;一些科技巨头也在这个领域持续布局,加大投入,包括 Meta、Google、微软、OpenAI 等等,它们已经在这个领域深耕了多年,公布了许多的预训练模型。
不过真正把 AIGC 推上风口浪尖的并不是 AI 绘画,一款由 OpenAI 推出的聊天机器人模型 ChatGPT 在不久前上线,开放免费注册体验,大约只用了两天时间,便成为互联网上的”现象级”事件,引起各界关注。可能是由于更多人直接体验了一把 AIGC,这次网上的舆论声浪更大,涉及的议题也更宽泛,除了针对使用方式和提问技巧的交流,像是AI 未来会不会取代人类、如何设定人工智能的边界这样的问题也再次被广泛讨论,人们对 AIGC 的好奇心更强烈了。
诞生,AIGC 的前世今生
不过想要更好地了解 AIGC,了解它的原理自然是必不可少的,在”智能”这个概念刚刚出现时,有一个著名的”图灵测试”,图灵测试最早也是通过判断内容是否出自机器,来判定机器是否具备智能。中国信通院云计算与大数据研究所内容科技部副主任石霖指出:”早期也出现了 AIGC 的萌芽,在早期阶段,受限于科技水平,AIGC 主要也局限于小范围的实验。”
在第二个阶段,AIGC 也开始从实验室那么转向一些实用场景。石霖表示,当时一些机构和企业探索了基于人工智能的同声传译技术,但同样受限于当时的技术瓶颈,很多应用实际上无法大规模落地。
随着深度学习技术和大型模型相关应用的落地,目前我们已经正处在一个 AIGC 快速发展的阶段,像 ChatGPT 这种产品的诞生也充分反映出这一点。
石霖指出:”AIGC 进入到落地的阶段,它生成的一些内容基本上也可以用于日常的生产和生活。”近年来,已经有很多AIGC相关应用开始落地,包括一些翻译工具、导航中的语音合成等等。随着元宇宙相关概念的诞生,人们对数字空间和数字内容的需求和依赖度也越来越高,当传统的 PGC 和 UGC 较难满足日益增长的内容需求时,AIGC 可望成为未来满足人们内容需求的重要途径。
边界,AIGC 的能与不能
AIGC 拥有广阔的应用空间,但也暴露出一系列问题。石霖指出,AIGC 使用了人工智能的算法,而人工智能本身存在一些缺陷,包括黑箱机制、偏见数据等因素的影响,内容编辑与创作技术的不完善,也导致产出的作品千篇一律、语音机械感强、图像处理效果不理想等问题。
此外,AIGC 也面临着政策监管的问题。石霖举例称:”我们最近也在交流 ChatGPT是不是有可能被一些黑/灰产利用,例如支撑一些水军来刷屏。另外,AIGC 生成内容的版权归属问题也有待进一步的认定和解决。”
我国最近出台了《互联网信息服务深度合成管理规定》,规范了深度合成技术和相关产业的发展。石霖指出,深度合成技术与 AIGC 存在关联性,在这套管理规定中,提出了内容标识技术管理的这样一套制度,可以便于追踪深度合成内容的制作与发布。
石霖指出,《规定》明确提出了显性和隐性层面两种不同的标识方法。在显性层面,通过嵌入标识来告诉用户当前的内容采用了深度合成技术,隐性层面,通过水印或可追踪的标识,来追踪这些合成的数据。
此外,还需要持续保证这些标识的有效性,任何组织和个人不得采取技术手段删除、替换和隐秘相关标识。不过目前更具体的细则尚未公布,针对这一点,石霖表示:”我们的团队也会依托一些产业的机构和联盟性的组织,开展一些标准制定的工作。”
未来,AIGC 的应用渗透
有了配套的政策,AIGC 技术和产业的发展得到规范,未来也可望衍生出更多应用场景。石霖表示,AIGC 将加速渗透整个经济社会的方方面面:
在传媒领域,通过人机协同生产,推动媒体融合;在电商领域,通过推进虚实交融,营造沉浸体验;在影视领域,拓展创作空间,提升作品质量;在娱乐领域,通过扩展辐射边界,获得发展动能;在其他领域,AIGC 也将通过推进数实融合,加快产业升级。
对于 AIGC 未来的发展方向,石霖总结了三大能力:孪生、编辑和创作。
孪生能力可以为现实的物理世界提供一些高效可感知的数字化增强;编辑能力通过高效率仿真和低成本试错,为现实世界提供快速迭代能力;创作能力通过算法的自我演化,来支持海量内容生态。
石霖指出,未来 AIGC 的应用空间会非常广阔,目前随着相关应用的不断前进,以及国家政策的出台,也会使整个的产业的发展越来越健康。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。