深伪可怕吗?OpenAI现在还想克隆你的声音

随着deepfakes深度伪造行为的激增,OpenAI虽仍在完善它的语音克隆技术,但坚持表示将采取更负责任的管控方式、不会贸然对外开放。

OpenAI最近推出了Voice Engine,这是该公司现有文本转语音API的新扩展。这款语音引擎经过约两年的开发,允许用户上传任意15秒长度的语音样本,随后可以生成该语音的合成副本。但目前OpenAI尚未给出公开发布日期,理由是希望腾出时间对该模型的正常使用与滥用情况做出约束。

OpenAI公司产品部成员Jeff Harris在采访中表示:“我们希望确保每个人都对新功能的部署方式感到满意——我们也深切意识到这项技术的巨大风险,而且已经在采取相应的缓解措施。”

模型训练

Harris介绍称,为该语音引擎提供支持的生成式AI模型已经存在一段时间,但始终没有刻意强调。

正是这套模型在支持OpenAI的AI聊天机器人ChatGPT中的语音和“朗读”功能,以及OpenAI文本转语音API中的预设语音选项。Spotify公司自去年9月初以来就一直在使用它为Lex Fridman等知名主持人用不同的语种进行播客配音。

在被问及模型的训练数据来自哪里这个有点敏感的问题时,Harris只表示这套语音引擎模型是根据许可数据及分开数据的组合训练而成。

像驱动Voice Engine这样的模型肯定需要依托大量示例(在本示例中为语音录音)训练而成,这些示例通常来自公共网站和网络上的数据集。不少生成式AI厂商都将训练数据视为一种竞争优势和稀缺资源,因此会牢牢把控与之相关的细节信息。但训练数据的细节也是知识产权诉讼的潜在证据,这也是厂商们不愿透露太多信息的另一个原因。

OpenAI已被指控违反知识产权法,理由是该公司使用受版权保护的内容(包括照片、艺术品、代码、文章和电子书)训练其AI模型,且并未向创作者或所有者提供补偿或付款。

OpenAI与部分内容提供商(包括图库服务商Shutterstock及新闻出版商Axel Springer)签订了许可协议,并允许网站管理员阻止其网络爬虫抓取网站以获取训练数据。OpenAI还允许艺术家“选择退出”以从该公司用于训练图像生成模型(包括最新的DALL-E 3)的数据集中删除自己的作品。

但OpenAI并未为旗下其他产品提供类似的退出方案。在最近向英国上议院递交的声明中,OpenAI表示如果没有受版权保护的素材,具备实用的AI模型根本“不可能”被创造出来,并坚称模型训练属于使用受版权保护的作品进行二创的合理使用情形。换言之,只要模型训练具有原创属性,即输出的结果具有创造力,即应受到保护。

合成语音

令人惊讶的是,语音引擎并非根据用户数据进行训练或微调。其部分原因,在于该模型(扩散过程与transformer的结合)采取了临时性的语音生成方式。

Harris强调:“我们只采取少量音频样本与文本,生成与原始说话者高度相似的真实语音。在请求完成之后,所使用的音频将被删除。”

根据他的解释,该模型会同时分析提取到的语音数据以及需要朗读的文本数据,据此生成匹配的语音,而无法为每个说话者构建自定义模型。

其实这并不算是什么新颖技术。许多初创公司多年来一直在提供语音克隆产品。从Eleven Labs到Replica Studios,再到Papercup、Deppdub乃至Respeecher。事实上,亚马逊、谷歌和微软等科技大厂也有类似的产品。顺带一提,微软正是OpenAI的主要投资方。

Harris宣称,OpenAI的方法能够提供整体质量更高的语音输出。

据称其定价也会更有吸引力。尽管OpenAI从此次发布的营销材料中删除了Voice Engine的价格数字,但根据流出的相关文件,Voice Engine的价格为每百万字符(约15.25万个单词)15美元,也就是转录一遍狄更斯的《雾都孤儿》还有点富余。(“高清”质量选项的价格为普通版本的2倍,但令人困惑的是,OpenAI发言人表示高清与非高清语音之间没有质量差异。所以选不选随你。)

也就是说普通版这15美元大概可以转录18个小时的音频,相当于每个小时约合1美元。这的确要比目前在市场上大受欢迎的竞争对手之一Eleven Labs的收费便宜——后者每月10万个字符要价11美元。唯一的区别,就是Voice Engine不像Eleven Labs那样提供丰富的定制化选项。

Voice Engine不提供语音音调、音色或节奏的调节控件。事实上,它目前甚至不提供任何微调旋钮或者转盘,Harris只强调15秒语音样本中的任何特征都将在后续生成内容中持续存在(例如,当我们提交的样本为兴奋证据,则据此输出的合成语音将全程保持兴奋情绪)。恐怕要等到OpenAI实际公开这套模型时,我们才能确定它与其他同类产品相比究竟质量如何。

配音流水线化,从业者该怎么办?

ZipRecruiter上的配音演员工资从每小时12美元到79美元不等——明显要比Voice Engine贵得多。即使是没有经纪人的新人演员,配音成本也不可能跟AI模型相抗衡。如果OpenAI的这款工具真的流行起来,把配音工作全面转向流水线化,演员们又该何去何从?

但好在配音人力市场应该不至于措手不及——一段时间以来,其一直在努力应对生成式AI带来的威胁。越来越多的配音党员被要求放弃其声音的所有权,以便客户可以使用AI生成最终将其取代的合成版本。语音工作——特别是廉价的入门级工作——很可能会被AI生成的语音所取代。

为此,部分AI语音平台希望找到新的平衡边界。

Replica Studios去年与美国演员工会(SAG-AFTRA)签订了一项颇具争议的协议,获得授权以制作艺术家联盟成员的声音副本。各组织表示,协议内容包含公平与道德条款及约束,以确保在电子游戏等新作品中使用合成声音时,必须先通过谈判获得表演者的同意。

与此同时,Eleven Labs则建立起合成声音市场,允许用户在其中创建声音、验证并公开分享。当其他人使用声音时,原创者会收到补偿——每1000个字符对应一定的美元收益。

OpenAI并不打算建立此类工会交易或市场,至少在短期内不会,而且目前只要求用户获得声音来源者的“明确同意 ”,同时“明确披露”哪些声音是由AI生成,且不得使用未成年人、已故人士或在任政治人物的声音。

Harris解释称:“关于技术发展可能对配音演员的收入影响,我们正在密切关注,也将持续跟进。我认为通过这项技术,将有更多机会扩大配音演员的市场影响力。但最终结果,还是要由人们实际部署并使用该技术之后的情况而定。”

道德与深度伪造

语音克隆应用可能已经遭到滥用,且程度远远超过了威胁演员生计的范畴。

臭名昭著的网络论坛4chan向来以发表阴谋言论而闻名,这里就有人使用Eleven Labs发布模仿艾玛·沃森等名人的仇恨信息。The Verge的James Vincent在实验中成功利用AI工具快速获取恶意语音副本,生成也包括暴力威胁、种族主义、跨性别恐惧等言论的各种内容样本。在Vice,记者 Joseph Cox则顺利生成了一段足以骗过银行身份验证系统的语音克隆。

人们担心这些恶意人士还会利用语音克隆来影响选举结果。这种担忧并非全无依据:今年1月,就有人利用深度伪造技术装作拜登总统给新罕布什尔州的民众,想要阻碍其正常投票。此事促使联邦通信委员会采取行动,称未来此类活动将属于非法。

那么除了在政策层面禁止深度伪造之外,OpenAI还打算采取哪些措施来防止Voice Engine遭到滥用?Harris列举了几个例子。

首先,Voice Engine目前仅向极少数开发人员(约10人)开放。Harris表示,除了尝试“以负责任方式”合成语音之外,OpenAI还优先考虑“低风险”及“对社会有益”的用例,例如医疗保健及可及性领域的用途。

已经有部分早期采用者体验过这款语音引擎,包括Age of Learning(一家教育科技公司),该公司使用该工具为已故演员生成配音;还有HeyGen(一家利用语音引擎进行翻译的讲故事应用)。Livox和Lifespan则使用Voice Engine为存在语言障碍和残疾的人们生成语音;Dimagi正在开发基于Voice Engine的工具,尝试以医疗卫生工作者们熟悉的语言向其提供反馈。

其次,使用Voice Engine生成的克隆中将包含由OpenAI技术添加的水印,该技术能够在录音片段中嵌入人耳无法察觉的标记。(包括Resemble AI及微软在内的其他厂商也拥有类似的水印技术。)Harris并未承诺此类水印完全无法规避,只表示其采用“防篡改”设计。

Harris解释道:“面对一段音频剪辑,我们可以轻松通过观察确定其是否由我们的系统生成、以及具体由哪位开发者操作生成。到目前为止,Voice Engine尚未真正开源——我们只在内部测试和开发。我们当然希望能早一点将其公开,但这显然会带来暴露和破坏等严重风险。”

第三,OpenAI计划为其红队网络成员提供访问语音引擎的权限。红队网络是一支签约专家小组,负责对各厂商的AI模型进行风险评估并提供缓解策略,努力阻止其被恶意利用。

一部分专家认为,AI领域的红队设置还不够全面,供应商有责任开发工具以防御AI可能造成的损害。OpenAI在语音引擎方面还处于早期探索阶段,但Harris声称该公司始终以安全发布技术成果为“最高原则”。

全面发布

根据预览的进展情况以及公众对于Voice Engine的接受程度,OpenAI可能会逐步向更广泛的开发者群体发布该工具。但目前该公司不愿做出任何具体承诺。

但Harris已经掌握了Voice Engine的发展路线图,并透露称OpenAI正在测试一种安全机制,要求用户读取随机生成的文本以作为其本人在场并了解自己的语音正被如何使用的证据。Harris表示,这种方式可以让OpenAI有信心将语音引擎推向更大的受众,或者说至少是个理想的开端。

他解释称:“在实际语音匹配技术方面,推动我们前进的因素实际上主要取决于我们从测试参与者那里获得的反馈、发现的安全问题以及我们初步采取的缓解措施。总而言之,我们绝不希望人们把人工合成的声音跟人类发出的真实声音混淆起来。”

好吧,至少人们可以在这最后一点上达成共识。

来源:TechCrunch

0赞

好文章,需要你的鼓励

2024

04/02

10:59

分享

点赞

邮件订阅