研究发现:AI与人类“思考”方式存在重大差异
参考消息网4月3日报道 据美国趣味科学网站4月1日报道,我们都知道,人工智能(AI)与人类的思考方式不同,但一项新研究揭示了AI与人类在思考方式上的差异可能会影响AI的决策,从而引发人类也许无法预见的现实后果。
这项研究于2025年2月发表在《机器学习研究汇刊》上,研究了大语言模型作类比的能力。
研究人员发现,在面对简单的字母串类比和数字矩阵问题(即填补矩阵中缺失的数字)时,人类都表现良好,但AI的表现(比处理其他任务时)显著下降。
用基于故事的类比问题测试人类和AI模型的稳健性时,该研究发现,AI模型易受回答顺序效应的影响,即在实验中因处理顺序不同而出现回答差异,而且AI模型使用改述的可能性更大。
总体而言,这项研究的结论是,AI模型缺乏“零样本”学习的能力,即学习者观察训练期间遇到未见过的样本类别,根据提问预计这些样本属于哪个类别。
该研究的合著者、荷兰阿姆斯特丹大学神经符号AI研究助理教授玛莎·刘易斯举例说明了面对字母串问题时,AI无法像人类那样进行类比推理。
刘易斯对记者说:“字母串类比的形式是‘如果abcd指向abce,那么ijkl指向什么?’大多数人类会回答‘ijkm’,而(AI)一般也会给出这个答案。但要是提出另一个问题,‘如果abbcd指向abcd,那么ijkkl指向什么?’人类一般会回答‘ijkl’——规律是去除重复的元素。但AI模型GPT-4往往会在这类问题上给出错误的答案。”
刘易斯说,人类可以将特定的模式抽象为更普遍的规律,但大语言模型不具备这种能力。她说:“大语言模型擅长识别和匹配模式,但不擅长归纳总结。”
大多数AI应用在一定程度上依赖于量——可用的训练数据越多,能识别的模式就越多。但刘易斯强调,模式匹配和抽象总结并不是一回事。她补充说:“关键不在于数据里有什么,而在于如何使用数据。”
该研究的意义重大,例如AI被越来越多地用于法律领域的研究、判例法分析和量刑建议。但是,由于AI作类比的能力较差,它可能无法认识到法律先例该如何适用于略微不同的案件。
考虑到AI缺乏稳健性可能会影响现实世界的结果,该研究指出,这证明我们需要仔细评估AI系统,不仅要评估其准确性,还要评估其认知能力的稳健性。(编译/胡雪)
(审核:欧云海)