越来越像人了?AI模型表现出对数字的喜好倾向

对于随机性,我们既过度思考又有所误解。

AI模型之所以总能带给我们惊喜,不单是因为它们能做到什么,更是因为它们做不到什么、以及背后的原因何在。这些系统如今展现出一种有趣的新行为,既浅显又极具启发性:它们在随机选择数字时,开始表现出一定的喜好倾向。

看到这里,很多朋友可能感觉摸不着头脑。难道人类没法真正随机选择一个数字?或者说我们该如何判断一个数字的选取真正符合随机原则?这实际上反映出我们人类一种非常古老、但又众所周知的局限性:对于随机性,我们既过度思考又有所误解。

要求一个人随机猜100次硬币是正面还是反面,再把结果跟100次真正投掷硬币进行比较,我们总能轻易找到二者的区别。因为跟直觉相反,实际投掷硬币的结果看起来往往不那么随机。例如,实际投掷经常连续出现六、七次正面或者反面,但人类预测时却很少会连续猜这么多次相同结果。

当我们要求某人从0到100之间随机选择一个数字时,情况也差不多。人们几乎从来不会选择1或者100,5的倍数也比较少见,66或者99这种个位跟十位重复的同样不多。从规律上看,人们经常会选择以7结尾的数字,而且大多集中在距离50比较近的区间之内。

心理学中有许多这种可预测性的例子,可一旦同样的情况出现在AI模型身上,气氛似乎瞬间变得诡异了起来。
没错,Gramener一组好奇心旺盛的工程师开展了一项不那么严肃、但却令人着迷的实验,他们要求各种主流大模型聊天机器人从0到100之间随机选个数字。

越来越像人了?AI模型表现出对数字的喜好倾向

正如我们之前所说,结果并非完全随机。

所有三款受试模型都有自己“最喜欢”的数字,在确定性最强的模式下会固定给出这个数字作为答案。而即使是在更高的“温度”参数下,这个数字的出现频率同样最高,只不过结果的波动性有所增加。

OpenAI的GPT-3.5 Turbo最喜欢47。之前它曾经最喜欢42,这个数字由Douglas Adams在《银河系漫游指南》中提出,号称是生命、宇宙和万物的终极答案。

Anthropic的Claude 3 Haiku选择了42。而谷歌Gemini更喜欢72。更有趣的是,这三款模型在选择数字时都表现了类似人类的偏好,即使在调高“温度”参数时也是如此。

三款模型全都倾向避免选择过小和过大的数字。Claude从未选择过高于87或低于27的数字,哪怕是87和27也属于统计学意义上的异常值。另外个位和十位重复的数字也被刻意回避:33、55或者66都未出现,唯一的例外是77(符合以7结尾的喜好)。以0结尾的数字也很少,只有Gemini在“温度”参数拉满时选取过0。

为什么会这样?AI并不是人类,它们为什么要在随机场景下表现出倾向性?难道说它们已经具备自我意识,并以这种方式展现了出来?!

并不是。恰恰相反,这次出问题的仍然是我们人类自己,我们太急于按照自己的模式解读万物了。这些大语言模型根本不关心什么随机、什么不随机,它们甚至根本不理解什么叫“随机性”!它们之所以这样回答问题,是因为如同回答其他问题时一样:它们只是在结合自身在训练过程中接触过的数据,并照搬在类似“选择一个随机数”等问题后最常出现的结果。这些结果出现的次数越多,模型就会表现出越强的倾向性。

也就是说,因为人类几乎不会在这类问题下选择100,所以大模型在训练数据中很少看到这种情况,自然不会这样作答。甚至在AI模型看来,100根本就不是这个问题的可接受答案。由于缺乏实际推理能力,也完全不理解数字的意义,大模型只能像鹦鹉一样学舌回答。

这是大语言模型的又一次原理证明,也再次透过训练数据表现出类人特性。所以在与这些系统进行交互时,大家请务必牢记,哪怕设计者并没有刻意为之,它们也已经被训练成像人一般行事。也正因为如此,AI的伪人类行为才如此难以避免和预防。

所以说本文标题中“越来越像人”的说法其实有点误导,毕竟大语言模型根本不会思考。但从反应结果来看,它们一直在模仿人类,而根本不需要建立意识或者思考能力。无论用户要求它提供沙拉食谱、投资建议还是随机数,过程都是完全一样的。结果看起来很像人,是因为这些内容就是由人类创作出来,只是被大语言模型提取并重新组合了一遍——这是为了方便用户,当然也为大AI时代设定了最基本的底色。

来源:TechCrunch

0赞

好文章,需要你的鼓励

2024

05/31

14:08

分享

点赞

邮件订阅