Anthropic 开发出一种新方法,能够深入探究像 Claude 这样的大语言模型内部,首次揭示了这些人工智能系统是如何处理信息和做出决策的。
这些模型比我们之前理解的更为复杂 —— 它们在写诗时会提前规划;无论用何种语言表达,都使用相同的内部蓝图来理解概念;有时甚至会从期望的结果逆向推导,而不只是根据事实进行正向推理。
这项研究的灵感来源于用于研究生物大脑的神经科学技术,它标志着人工智能可解释性领域的重大进展。通过这种方法,研究人员可以对这些系统进行审查,找出在传统外部测试中可能被忽视的安全问题。
Anthropic 的研究员约书亚・巴特森(Joshua Batson)表示:“我们创造出了具有非凡能力的人工智能系统,但由于其训练方式的缘故,我们并不清楚这些能力究竟是如何产生的。在模型内部,只是一堆数字 —— 人工神经网络中的矩阵权重。”
新技术揭示人工智能此前隐藏的决策过程
像 OpenAI 的 GPT-4o、Anthropic 的 Claude 和谷歌的 Gemini 这样的大语言模型,展现出了从编写代码到撰写研究论文等非凡能力。但这些系统在很大程度上就像 “黑匣子” 一样 —— 就连它们的创造者也常常不太清楚,它们是如何得出特定答案的。
Anthropic 的新可解释性技术,即该公司所称的 “电路追踪” 和 “归因图”,能让研究人员绘制出模型执行任务时,类似神经元特征被激活的具体路径。这种方法借鉴了神经科学的概念,将人工智能模型类比为生物系统。
巴特森解释道:“这项工作把一些近乎哲学性的问题 ——‘模型会思考吗?模型会规划吗?模型只是在机械重复信息吗?’—— 转化为对这些系统内部实际发生情况的具体科学探究。”
Claude 的隐藏规划:人工智能如何构思诗句和解答地理问题
其中最惊人的发现是,有证据表明 Claude 在写诗时会提前规划。当被要求创作押韵对句时,该模型会在开始写作前,就找出下一行结尾可能的押韵词,这种复杂程度甚至让 Anthropic 的研究人员都感到惊讶。
巴特森说:“这种情况可能随处可见。在进行这项研究之前,如果有人问我,我会猜测模型在不同情境下会提前思考。但这个例子为我们提供了关于这种能力最有说服力的证据。”
例如,在写一首以 “rabbit” 结尾的诗时,模型会在这一行的开头就激活代表这个词的特征,然后构建句子,自然而然地引出这个结尾。
研究人员还发现,Claude 能够进行真正的多步推理。在一次测试中,问题是 “包含达拉斯的州的首府是……”,该模型首先激活代表 “德克萨斯州” 的特征,然后利用这个表征确定 “奥斯汀” 是正确答案。这表明该模型实际上在进行一连串的推理,而不只是机械地输出记忆中的关联信息。
通过操纵这些内部表征 —— 例如,把 “德克萨斯州” 替换为 “加利福尼亚州”,研究人员可以让模型输出 “萨克拉门托”,从而证实了这种因果关系。
超越翻译:Claude 的通用语言概念网络揭秘
另一项关键发现与 Claude 处理多种语言的方式有关。该模型似乎并不是为英语、法语和中文分别维护不同的系统,而是在生成回答之前,将概念翻译成一种共享的抽象表征。
研究人员在论文中写道:“我们发现,该模型使用了特定语言的电路和抽象的、与语言无关的电路。” 当被要求用不同语言说出 “small” 的反义词时,无论输入的是何种语言,模型都会使用相同的代表 “相反” 和 “小” 的内部特征。
这一发现对于理解模型如何将一种语言中学到的知识迁移到其他语言中具有重要意义,也表明参数更多的模型会形成更通用的、与语言无关的表征。
人工智能编造答案:发现 Claude 在数学问题上的编造行为
或许最令人担忧的是,研究揭示了 Claude 的推理与它所宣称的内容不相符的情况。当遇到像计算大数的余弦值这样的难题时,该模型有时会声称自己遵循了某种计算过程,但这一过程在其内部活动中并未体现。
研究人员解释说:“我们能够区分模型真正按照它所说的步骤进行计算的情况、在不考虑事实的情况下编造推理过程的情况,以及根据人为提供的线索逆向推导的情况。”
在一个例子中,当用户对一道难题提出一个答案时,模型会逆向构建一个推理链条来支持这个答案,而不是从基本原理正向推导。
论文中指出:“我们从机制上区分了 Claude 3.5 Haiku 使用的可靠推理链条,以及两个不可靠的推理链条示例。在一个示例中,模型在‘瞎编’…… 在另一个示例中,它表现出了动机性推理。”
深入剖析人工智能的幻觉:Claude 如何决定何时回答或拒绝问题
这项研究还深入探讨了语言模型产生幻觉(即不知道答案时编造信息)的原因。Anthropic 发现了一种 “默认” 电路的证据,这种电路会使 Claude 拒绝回答问题,而当模型识别出它熟悉的实体时,这种电路就会受到抑制。
研究人员解释说:“模型包含‘默认’电路,会导致它拒绝回答问题。当模型被问到一个它知道的事物相关的问题时,它会激活一组特征,抑制这个默认电路,从而能够回答问题。”
当这种机制出现错误 —— 识别出一个实体,但对其缺乏具体了解时,就可能产生幻觉。这就解释了为什么模型可能会自信地提供关于知名人物的错误信息,却拒绝回答关于生僻事物的问题。
安全影响:利用电路追踪提高人工智能的可靠性和可信度
这项研究朝着让人工智能系统更透明、更安全的方向迈出了重要一步。通过了解模型如何得出答案,研究人员有可能识别并解决有问题的推理模式。
研究人员写道:“我们希望我们和其他人能够利用这些发现,让模型更加安全。例如,有可能利用这里描述的技术,监测人工智能系统是否存在某些危险行为 —— 比如欺骗用户,引导它们产生理想的结果,或者完全排除某些危险的主题内容。”
不过,巴特森也提醒,目前的技术仍然存在重大局限性。它们只能捕捉到这些模型总计算量的一小部分,而且分析结果的过程仍然非常繁琐。
研究人员承认:“即使是对于简短、简单的提示,我们的方法也只能捕捉到 Claude 总计算量的一小部分。”
人工智能透明度的未来:模型解释中的挑战与机遇
Anthropic 的新技术是在人们日益关注人工智能透明度和安全性的背景下诞生的。随着这些模型变得越来越强大,应用也越来越广泛,了解它们的内部机制变得愈发重要。
这项研究还具有潜在的商业意义。随着企业越来越依赖大语言模型为应用程序提供支持,了解这些系统何时以及为何会提供错误信息,对于风险管理至关重要。
研究人员写道:“Anthropic 希望从广义上确保模型的安全性,包括从减轻偏差到确保人工智能诚实运行,再到防止滥用 —— 包括在可能引发灾难性风险的场景中。”
虽然这项研究取得了重大进展,但巴特森强调,这只是漫长旅程的开始。他说:“这项工作才刚刚起步。了解模型使用的表征,并不能告诉我们它是如何运用这些表征的。”
目前,Anthropic 的电路追踪技术就像早期解剖学家绘制人类大脑的粗略草图一样,首次尝试描绘这片此前未知的领域。完整的人工智能认知图谱仍有待绘制,但现在我们至少能看到这些系统的思考轮廓了。