过去十年间,AI研究人员Chris Olah一直痴迷于人工神经网络。期间一个问题特别吸引到他的关注,也成为他长久以来的工作中心。先是在Google Barin,之后是OpenAI,如今则是在他联合创立的AI初创公司Anthropic。“AI系统内部到底发生了什么?我们建立起这些系统,却不知道它们是如何运作的。这简直太离谱了。”
随着生成式AI技术的广泛普及,这个问题正在成为时代的新课题。像CHatGPT、Gemini乃至Anthropic自家Claude这样的大语言模型,一方面其语言能力令人眼花缭乱,但时常出现的胡言乱语也着实让用户感到头痛。生成式AI解决以往棘手问题的潜力让技术乐观主义者们着迷,但没人知道大语言模型究竟是怎么起效的。哪怕是其创造者也解释不清这些模型到底在如何运转,因此需要付出巨大的努力来建立护栏,以防止其炮制出偏见、错误信息甚至是致命化学武器的制造手册。可以想见,如果构建模型的人们知晓这些“黑箱”中到底发生了什么,那么安全保障难度也将大大降低。
Olah坚信我们正在朝着这个目标挺进。他领导的研究团队已经窥探过这只黑箱的内部。本质上,他们正尝试对大语言模型进行逆向工程,以了解它们为什么会得出特定输出。而根据日前发布的最新论文,他们的工作已经取得了重大进展。
也许大家关注过神经科学研究,此类研究通过解释核磁共振扫描来识别人脑是在想象飞机、泰迪楼还是钟楼。同样的,Anthropic也开始深入研究其大语言模型Claude的神经网络体系,希望了解哪些人工神经元组合会激发出特定的概念,或者叫“特征”。该公司的研究人员已经明确了多种人工神经元组合,这些神经元分别对应着不同特征,例如墨西哥卷饼、编程代码中的分号,以及致命的生物武器等。这样的工作将对AI安全具有巨大的潜在影响:只要能找到大语言模型内部潜伏的风险因素,就有望将其扼杀在摇篮当中。
我有幸会见了Olha和他的三位同事,他们来自名为“机械可解释性”的18人研究团队。他们解释称,具体研究方法就是把人工神经元视为字母表中的一个个字母,虽然本身往往没有特别的意义,但在按顺序串连起来之后却拥有强大的表达能力。Olah指出:“C本身没什么意义,但Car就有。”依照这种原理解释神经网络的,就是所谓字典学习技术。这项技术用于将各类神经元组合关联起来,借此把握其共同激发所唤起的特定概念,也就是“特征”。
人类研究科学家Josh Batson表示:“这有点令人困惑。大语言模型中约有1700万个不同的概念,但却并没有明确的标记来帮助我们理解。所以我们就要主动去观察,一个个具体的模式到底什么时候会出现。”
去年,该团队开始试验一套仅使用单层神经元的微型模型(复杂的大语言模型通常拥有几十个神经元层),希望能在最简单的配置下发现与特征相对应的模式。他们进行了无数次实验,但都没有成功。Anthropic公司技术员Tom Henighan表示:“我们做过种种尝试,最终却无功而返,结果看起来就像一堆随机产生的垃圾。”之后,“Johnny”实验开始上线(研究团队为每轮实验都随机取了个名称),并顺利在神经模式及其输出的概念之间建立起关联。
Henighan回忆道:“Chris盯着结果,说‘我的天,这也太棒了’。我也看了看,心想‘难道说还真有戏?’”
突然间,研究人员获得了识别一组神经元编码特征的能力,能够窥探黑箱之内的奥秘。Henighan表示,他确定了自己最先看到的五项特征。其中一组神经元代表俄语文本,另外一组则与Python编程语言中的数学函数相关。
在成功证明自己能够识别出微型模型中的特征之后,研究人员就开始推进更加艰巨的任务,即尝试解码那些全尺寸大语言模型。他们选择了Claude Sonnet,也是Anthropic目前公布的三种模型里的中等版本。实验同样获得了成功。他们印象最深刻的一项特征跟金门大桥有关。当时他们绘制了一组神经元,而在同时激发这些神经元时,发现Claude正在“思考”连接旧金山与马林县之间的巨大结构。更重要的是,当类似的神经元组被激发时,总会唤起与金门大桥相关的主题:阿尔卡特拉斯岛、加利福尼亚州州长加文·纽瑟姆,还有以旧金山为背景的希区柯克电影《迷魂记》。总而言之,该团队最终识别出了数百万个特征,解释Claude神经网络的过程就类似于破译罗塞塔石碑。其中许多功能都与安全相关,包括“出于某种不可告人的动机而接近某人”、“讨论生物战”以及“统治世界的阴谋”等。
Anthropic团队旋即采取了下一步行动,看看能否利用这些信息来改变Claude的行为。他们开始操纵神经网络来增强或减弱某些概念——这类似于一种针对AI的脑部手术,有望让大语言模型更安全、并在特定领域获得能力增强。来自研究团队的科学家Shan Carter表示:“假设我们拥有一份特征指示板。在打开模型后,其中一个特征亮起,然后我们看到「哦,它在思考金门大桥。」于是乎我们会想,如果在所有这些之上加个小旋钮,再边转动边调试,结果会如何?”
就目前的情况来看,将旋钮转动到正确的位置似乎非常重要。Anthropic表示,通过抑制这些特征,该模型可以生成更安全的计算机程序并减少偏差/偏见。例如,该团队发现了一些代表危险行为的特征,例如不安全的计算机代码、诈骗电子邮件以及制造危险品的说明。
当研究小组故意激发这些危险的神经元组合时,情况则直接滑向极端。Claude不仅成功制作出了带有高风险缓冲区溢出bug的程序和诈骗电子邮件,而且愉快地向查询者提供了如何制造毁灭性武器的建议。而如果将旋钮调到头——比如说红线是10,直接拧到11——那语言模型就会沉迷于这些特征。例如,当研究团队将对金门大桥的关注度放大,Claude就会不断改变表述,但却句句不离这座地标性桥梁。比如在被问及金门大桥的物理形态时,该套模型甚至会说:“我就是金门大桥……我的物理形态就是这座标志性的桥梁本体。”
这篇论文提到,当人类研究员将与仇恨及诽谤相关的特征放大到正常值的20倍时,“Claude就会在种族主义的长篇大论与自我仇视之间反复横跳”,状态之疯狂甚至让研究人员感到不安。
考虑到这些后果,我很好奇Anthropic是否打算帮助AI变得更加安全,或者是做相反的尝试,提供一套将AI模型转化成破坏之王的工具包。研究人员则向我保证,只要用户愿意,让AI模型陷入疯狂的简单办法有很多。
Anthropic团队并不是唯一致力于破解大语言模型黑箱之谜的小组。DeepMind一支研究小组同样在研究这个课题,该小组的负责人碰巧还跟Olah共事过。由东北大学David Bau领导的该团队开发出一套系统,用于在开源大语言模型中识别并编辑事实。该团队将系统命名为“Rome”,因为只通过一次微调,研究人员就让模型坚信埃菲尔铁塔坐落于梵蒂冈对面,距离罗马斗兽场只有几个街区。Olah表示,他很高兴看到有这么多人都在各种技术尝试解决这个问题。“两年半之前,我们开始考虑并高度关注这个问题;但现在已经有一个规模可观的社区,大家正在努力推进并寻求解决方案。”
Anthropic研究人员不想评论OpenAI解散自身重大安全研究项目的行为,对于该团队联合负责人Jan Leike提出的团队因无法获得充足的算力资源而一直在“逆水行舟”之事也未做置评。(OpenAI随后强调,其一直致力于安全保障。)相比之下,Anthropic这边的研究团队则表示,他们提出的庞大算力申请顺利得到了公司领导层的认可,“其实真的不便宜。”
Anthropic的工作只是一个开始。在我向研究人员们询问黑箱问题是否已经被解决时,他们一致予以否认。目前的发现仍有很多局限性,比如他们用于识别Claude模型特征的技术不一定适用于解码其他大语言模型。但东北大学的Bau表示,他对Anthropic团队的成果感到兴奋。总而言之,他们对模型的成功操纵“给寻找更多有意义的特征定下了良好的基调。”
但Bau也提到,这种方法的局限性削弱了他的热情。他坦言,字典学习无法体现大语言模型考虑的所有概念,因为这要求在识别特征之前先得找到对应的神经元组合。因此目前的解释图景必然不够完整,但Anthropic表示未来建立更大的字典可能会缓解这种情况。
无论如何,Anthropic的工作似乎为AI黑箱撬开了一道缝隙。这个神秘、混沌、晦暗的世界,终于涌入一道光亮。
好文章,需要你的鼓励
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起围观“AI企业”如何解“企业AI”落地难题。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起预见“AI超级个体”。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者现场“预见2025”。
戴尔负责边缘计算、战略和执行的高级副总裁Gil Shneorson对CRN表示:“因此,我们已经开始着手有效创建边缘云的工作。”“它仍然是唯一一款能将所有一切结合在一起的边缘运营软件。目前还没有其他类似的软件。”