生成式AI度过了美好的一年。微软、Adobe和GitHub等公司正将这项技术整合到自家产品当中;众多初创企业带着项目和筹来的数亿美元蓄势待发;AI软件甚至产生了文化影响力,文本到图像AI模型催生出无数模因。然而,关注生成式AI领域的讨论,大家总会在背景中听到一点不和谐的杂音:这东西,到底合法吗?
之所以提出这个问题,是因为生成式AI系统的训练方式本身就非常可疑。跟大多数机器学习软件一样,生成式AI模型会识别并复制数据中的模式。但由于这些程序所生成的是代码、文本、音乐和艺术作品,所以训练使用的网络抓取素材其实是由人类创建、甚至是明确受到版权保护的内容。
对于十年前的AI研究人员来说,这还不是什么大问题。毕竟当时最先进的模型也只能生成模糊的、指甲盖大小的黑白人脸图像,根本不足以对人类权益构成任何威胁。但到2022年,即使是业余爱好者也完全能使用Stable Diffusion等软件,在几小时内重现真假难辨的艺术风格。当山寨品随处可见,甚至企业开始商业销售由AI生成的、但又明显抄袭自现代设计师的图像时,合法性和道德问题正变得愈发紧迫。
以迪士尼插画家Hollie Mengert为例,她发现自己的艺术风格被某加拿大机械工程专业的学生拿去搞AI实验了。这名学生下载了Mengert的32幅作品,并花几个小时训练了一套能重现她风格的机器学习模型。Mengert对公布此案的技术专家Andy Baio表示:「就个人而言,我感觉这就像有人在夺取我的成果。从2011年进入艺术学校以来,我一直在做职业艺术创作,但AI却在未经我个人同意和许可的情况下创作艺术。」
但这公平吗?Mengert能为此做点什么?
要回答这个问题,先得了解生成式AI所处的法律背景。综合一系列专家的意见,包括律师、分析师和AI初创企业员工,我们发现唯一能确定的就是根本没有定论。有些人言之凿凿地表示这类AI系统肯定侵犯了版权,而且可能在不久的未来面临严重的法律制裁。但其他人则同样自信地表示,事实恰恰相反:目前生成式AI领域发生的一切都是合法的,任何诉讼都必然无功而返。
一直密切关注生成式AI用例的Baio提到:「我发现两派人士都对自己的立场充满了信心,但到底哪种答案才对,其实并没有定论。别看他们言语坚定,但真到对簿公堂那一天,谁输谁赢真的说不好。」
英国萨塞克斯大学专门研究AI与知识产权法的学者Andres Guadamuz表示,尽管存在诸多未知因素,但还是可以从几个关键问题出发为这一争论厘清脉络。首先,到底有没有可能对生成式AI模型的输出施加版权保护;如果可以,版权归谁?其次,如果拥有用于AI模型训练的输入素材的版权,是否代表着对模型或其创造的内容保持着法律主张权?在回答了这些问题之后,又会衍生出另一个更大的问题:我们该如何应对这项技术带来的后果?是否或者如何对数据收集施加法律限制?系统的构建者与系统训练数据的创造者之间,到底有没有和谐相处的可能?
下面,就让我们一一回答这些问题。
输出的问题:能否对AI模型创造的内容施加版权保护?
第一个问题的答案不算太难。在美国,完全由机器生成的作品不受版权保护。但是,如果创作者能够证明其中包含大量人工输入,那么版权保护似乎又不无可能。
今年9月,美国版权局首次对由文本到图像模型AI Midjourney创作的漫画书开放了注册。这是一部完整的漫画作品,长达18页,包含人物、对话和传统的漫画封面。尽管版权局仍在具体审查,但这本漫画的版权登记目前并未被撤销。审查所关注的一大重要元素,就是制作漫画所涉及的人力投入程度。创作该作品的艺术家Kristina Kashtanova在采访中表示,版权局要求她「提供创作过程的详细信息,以证明这部漫画的创作过程中有大量人力参与。」但版权局方面并未对此做出置评。
根据Guadamuz的观点,在为AI辅助生成作品授予版权时,所谓人为参与度将成为决定结果的关键。「如果只是输入『梵高风格的猫』,那应该不足以让作品在美国获得版权。但如果创作者不断添加提示制作出多张图片,并微调、修改并做出大量设计投入,那最终成果应该会在版权保护的范畴之内。」
考虑到这一点,生成式AI模型的绝大多数输出恐怕都不受版权保护。毕竟它们大多是批量制作而成,只需要几个关键词加以描述。但只要多投入一些人力,情况就会大为好转,例如赢下国家艺术博览会比赛的AI生成版画。创作者说他花了几周时间调试提示语言,还对作品进行了手动编辑,这足以证明个人参与程度已经相对较高。
计算机科学家Giorgio Franceschelli也写过关于AI版权问题的文章。在他看来,衡量人类输入对于欧盟这边的判例而言「尤其适用」。作为西方AI初创企业最关注的另一大主要司法管辖区,英国的立法思路有所不同,也是少数几个愿意为纯计算机生成作品授予版权的国家之一,并将作者定义为「在作品创作中进行必要安排的人。」这里当然有灵活的解读空间,例如这个「进行必要安排的人」到底是模型的开发者还是使用者,但英国法律还是更倾向于为AI生成作品提供版权保护。
但注册版权还只是第一步。Guadamuz警告称:「美国版权局并不是法院。要起诉他人侵犯版权,确实需要提前进行版权注册,但最终是否胜诉还是要由法院来判断。」
输入的问题:是否可以用受版权保护的数据来训练AI模型?
对于大多数专家来说,关于AI和版权的最大问题,其实出在训练模型所使用的数据这边。大多数系统的训练素材都是从网络上抓取到的内容,往往是文本、代码或者图像。例如,作为最大且最具影响力的文本到图像AI系统之一,Stable Diffusion的训练数据集就包含抓取自数百个域的几十亿张图像,范围涵盖WordPress/Blogspot托管的个人博客、DeviantArt等艺术平台、Shutterstock和Getty Images等图像存储网站等。事实上,生成式AI使用的训练数据集极为庞大,大家的作品可能已经被卷入其中(甚至有专门的网站,可供我们上传图片或搜索来进行自查)。
AI研究人员、初创企业和实力雄厚的科技巨头们之所以敢放手使用,原因就是这些图像(至少在美国)受到合理使用原则的约束,即鼓励使用受版权保护的作品来进行自由表达。
范德比尔特法学院教授Daniel Gervais解释称,在决定对素材的使用是否合理时,往往需要考虑到很多因素。他专门研究知识产权法,并就知识产权和AI的交叉问题撰写过大量文章。在他看来,其中有两个因素「非常非常重要,即使用的目的或性质是什么,还有对市场会产生怎样的影响。」换句话说:用例是否以某种方式改变了素材的性质(常被称为「改造性」使用),还有是否会与原创者竞争并威胁其生计。
考虑到这些因素,Gervais认为使用版权数据训练AI系统「很有可能」也被囊括在合理使用的范畴之内,但由此生成的内容却不一定。也就是说:大家可以使用他人的数据来训练AI模型,不过此模型生成的结果却有可能属于侵权。这种区别类似于为了拍电影而印假钞,跟印出假钞还真的用来买东西。
这时候,相同的文本到图像AI模型在不同场景下就会引发不同的结果。如果该模型用几百万张图片训练而成,并用于生成全新的图像,那侵犯版权的可能性就极小。因为训练数据在此过程中经历了「改造」,所以输出结果并不会威胁到原创艺术市场。但如果是用特定艺术家的100张作品微调该模型并生成真假难辨的图片,那艺术家提起诉讼也完全情有可原。
Gervais评论道:「如果让AI阅读10本斯蒂芬金的小说,然后要求它『写一部斯蒂芬金小说』,那这明显就是在跟原作者竞争。这能算合理使用吗?恐怕不行。」
更重要的是,在公平使用和不公平使用这两个极端之间,还有无数种其他情况,其中的输入、目标和输出有着具体的权衡倾向,所以最终法律裁决还是要受到种种细节的影响。
生成式AI厂商Wombo的幕僚长Ryan Khurana表示,大多数销售这类服务的公司都能感受到这种差异。他在采访邮件中解释称:「各大主要厂商都制定了服务条款,明确禁止帮助用受版权保护的作品来生成输出结果。」但他同时提到,「相关执法也很困难」,企业更关注「能不能想办法既不侵犯版权、又能使用模型……尽量别限制训练数据。」像Stable Diffusion这样的开源文本到图像模型尤其如此,它可以在零监督或无需过滤器的情况下完成训练和使用。虽然「开源」的光环掩盖掉了很多争议,但其也许确实是给侵犯版权开启了方便之门。
判断是否属于合理使用的另一个变量,是训练数据和模型是否出自学术研究人员和非营利组织之手。这类用途往往更符合合理使用的定义,初创企业当然也知道这一点。所以,分发Stable Diffusion的公司Stability AI就没有亲自为模型收集训练数据或开展模型训练,而是出资支持并协助学者开展这项工作。于是Stability AI就将该模型转化成了一种商业服务,始终与亲手创建保持着一定的距离。
Baio将这种行为称为「AI数据洗钱」。他指出,这种方法之前在人脸识别软件的开发中也有出现,MegaFace就是典型案例。MegaFace是华盛顿大学研究人员从Flickr中抓取照片并创建的数据集。「学术研究人员获取数据、进行数据清洗,然后把成果交付给商业公司使用。」如今,这批包含成百上千万张个人照片的数据被掌握在「人脸识别厂商Clearview AI和执法部门手中。」这是一种相当稳妥、而且被切实证明有效的「洗钱」过程,可以保护生成式AI模型的创造者免于承担责任。
但最终的转折点还未真正来临。Gervais指出,由于美国最高法院一直没有对涉及安迪·沃霍尔和Prince的案件做出判决,所以对于合理使用的解释很可能在接下来几个月内迎来重大转变。顺带一提,案件内容就是沃霍尔使用Prince的照片创作了艺术品,那这种算合理使用还是侵犯版权?
Gervais表示:「最高法院很少接手合理使用方面的案件,所以这次的状况可以说是非同凡响。所以在最高法院给出法律意见之前,任何论断都不足以采信。」
艺术家如何与AI厂商和谐共存?
即使生成式AI模型的训练被证明属于合理使用范畴,由此引发的问题也仍未得到解决。这既不能安慰那些自己作品被用于训练商业模型的愤怒艺术家们,也未必能给代码和音乐等其他生成式AI研究领域带来启发。于是新的问题来了:能不能采取一种补救措施,例如技术性或者其他形式的方法,可以既保证AI的蓬勃发展、又为受影响的创作者提供一定补偿或鼓励?
最直接的建议当然就是通过数据许可向创作者付费。但对某些人来说,这将扼杀AI技术行业的未来。法律论文《公平学习》的作者Bryan Casey和Mark Lemley就一直在鼓吹AI合理使用的重要性。他们认为目前的训练数据集已经无比庞大,根本「不可能为全部底层照片、视频、音频或文本提供全面的许可。」在他们看来,这种版权主张「表达的根本就不是向版权所有者支付报酬,而是直接禁止使用。」因此在文章中,他们强调「公平学习」,即通过鼓励创新开发出更好的AI系统。
也有人认为,既然传统上那些极为复杂的版权问题都能解决,没理由到AI这就不行了。有几位专家还回顾了当初音乐盗版横行的时代,当时的文件共享程序就是大规模侵权的途径。但后来新协议对于版权的尊重和保护,反而成了行业再次蓬勃发展的前提。
专注于企业抓取数据训练AI模型法律纠纷的律师Matthew Butterick表示:「在2000年初,大家都用Napster、也都喜欢它,可这东西完全不合法。如今,我们有了Spotify和iTunes,这些系统是怎么来的?答案是企业开展许可交易并保证传播内容的合法化。所有利益相关方都得坐到谈判桌旁,各自表达观点。所以对我来说,类似的情况也应该被用来管理AI模型。」
Wombo公司的Ryan Khurana也做出了类似的预测:「由于涉及多种不同许可、众多权利持有人和无数中介,音乐行业的版权规则在复杂度方面远超大家的想象。考虑到AI模型的法律问题也涉及大量细节差异,所以我觉得整个生成式AI领域最终会采取类似于音乐的许可制度。」
其他替代性方案也在试验当中。例如,Shutterstock表示计划设立一个基金,以向作品被出售给AI公司以供模型训练的个人提供补偿。DeviantArt则为网络上共享的图像创建了元数据标记,警告AI研究人员不要抓取他们的内容(小型社交网络Cohost也已经采用了此标签,并表示如果仍发现有研究人员抓取其图像,「将不排除采取法律行动」)。不过,这些方法真能弥补生成式AI模型给艺术家们造成的损失吗?而且现在才实施的新标签,怎么补偿那些作品已经被用于训练商业AI系统的艺术家?
对很多创作者来说,损害似乎已经造成。但AI初创公司至少在为未来探索新的方法,其中一大明显进步就是AI研究人员开始创建绝不侵犯版权的数据库——其中部分素材已获得许可,也有部分素材是专为AI训练而生成。「The Stack」就是其中一例,这套AI训练数据集就是专为避免版权侵犯指控而生。它只包含采取最宽松开源许可证的代码,并为开发人员提供一种可根据要求随时删除其数据的简便方法。据说,这种模式完全可以在整个行业中推广开。
Hugging Face与合作伙伴ServiceNow合作开发了The Stack,该公司机器学习与社会负责人Yacine Jernite在采访中表示:「The Stack的方法绝对适用于其他媒体,这是探索广泛同意机制的重要第一步。当各方设计AI训练数据的通行性规范时,相信The Stack能够带来启发、发挥重要作用。」Hugging Face希望能够带来「根本性转变」,扭转AI研究人员对待创作者的方式。但到目前为止,这一思路还没能真正普及。
接下来又会怎样?
不论我们打算直面哪个阶段的法律争议,生成式AI领域的各参与方都已经做好了准备。从这项技术中赚得数百万美元的企业希望巩固自己的地位,并反复声明自己所做的一切都完全合法;而在争端的另一侧,版权所有者们则纷纷表明了自己的立场,但还没有实际采取行动。Getty Images最近禁止了AI生成的图像,表示这会给客户带来潜在的法律风险(该公司CEO Craig Peters上月指出:「我认为这种行为不负责任,甚至可能是非法的」)。而音乐行业贸易组织RIAA则宣布,AI生成型音乐混音器和提取器侵犯了会员的版权(但他们还没有发起任何实际诉讼)。
不过AI版权之战的第一枪已经打响。就在上周,针对微软、GitHub和OpenAI的集体诉讼已然启动,原告方指控这三家公司在未经适当许可的情况下,通过AI编码助手Copilot故意复制开源代码。上周,案件律师在采访时表示,这可能会给整个生成式AI领域开创先例(但也有其他专家对此提出异议,称涉及代码的版权争议跟艺术和音乐等内容的版权冲突恐怕不是一回事)。
与此同时,Guadamuz和Baio也都惊讶于居然只有这么点人愿意拿起法律武器。Guadamuz表示:「老实说,我真的大吃一惊。但我觉得这是因为各个行业怕动作太快又惨遭败诉,最终失去决定权。可只要有人行动起来,相信相关诉讼接下来一定会大量涌现。」
Baio则认为,问题在于受生成式AI技术影响最大的艺术家群体,根本就不善于处置法律挑战:「他们缺少资源,而且这种诉讼非常昂贵和耗时,只有在知道自己必赢的情况下才会行动。正因为如此,我才一直认为围绕AI艺术的第一起诉讼案肯定会来自图片存储网站。他们受这项技术的影响最严重,而且可以清晰证明自己的语料库确实被用于模型训练,也有充足的资金支撑这样复杂的法律诉讼。」
Guadamuz对此深表赞同:「每个人都知道这种官司打起来不便宜。无论谁提起诉讼,都先由下级法院做出裁决,然后败方上诉、再诉,最终可能一路闹到最高法院。」
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。