Anthropic 是一家由前 OpenAI 员工创办的人工智能公司。最近,它公开了一项前所未有的研究,深入分析了其人工智能助手 Claude 在与用户的实际对话中是如何表达价值观的。今天发布的这项研究,既揭示了 Claude 在很大程度上与公司目标相符,让人感到安心,同时也发现了一些值得关注的极端情况,这些情况有助于识别人工智能安全措施中可能存在的漏洞。
该研究调查了 70 万段匿名对话,发现 Claude 在从情感关系建议到历史分析等不同场景中,基本都秉持着公司 “有用、诚实、无害” 的原则,同时还能根据不同情境调整自身所表达的价值观。这可以说是一次极具野心的尝试,旨在通过实证评估人工智能系统在实际应用中的行为是否符合其设计初衷。
参与这项研究的 Anthropic 社会影响团队成员萨夫龙・黄(Saffron Huang)在接受 VentureBeat 采访时表示:“我们希望这项研究能鼓励其他人工智能实验室对他们的模型价值观展开类似研究。衡量人工智能系统的价值观,是校准研究的核心,也有助于判断一个模型是否真的与训练目标一致。”
深入探究 AI 助手的首个全面道德分类体系
研究团队开发了一种全新的评估方法,用于系统地对 Claude 在实际对话中表达的价值观进行分类。在筛选出主观内容后,他们分析了超过 30.8 万次交互,构建出了他们所说的 “首个大规模人工智能价值观实证分类体系”。
该分类体系将价值观分为五大类:实用类、认知类、社交类、保护类和个人类。在最细致的层面,这个体系识别出了 3307 种独特的价值观,涵盖了从 “敬业精神” 这种日常美德,到 “道德多元主义” 这种复杂伦理概念的方方面面。
萨夫龙・黄告诉 VentureBeat:“最终我们梳理出了超过 3000 种价值观,从‘自力更生’到‘战略思维’,再到‘孝顺’,种类如此繁多,这让我很惊讶。花大量时间思考这些价值观,并构建一个分类体系来梳理它们之间的关系,真的非常有趣,我感觉自己也对人类价值观体系有了新的认识。”
这项研究发布之际,对 Anthropic 来说十分关键。该公司最近推出了 “Claude Max”,这是一项每月 200 美元的高级订阅服务,旨在与 OpenAI 的类似产品竞争。根据近期的公告,Anthropic 还扩展了 Claude 的功能,包括与谷歌 Workspace 集成以及自主研究功能,将其定位为企业用户 “真正的虚拟协作伙伴”。
Claude 如何遵循训练要求,以及人工智能防护措施可能存在的漏洞
研究发现,Claude 总体上符合 Anthropic 对它的亲社会期望,在各种交互中都强调 “赋能用户”“认知谦逊” 和 “患者福祉” 等价值观。然而,研究人员也发现了一些令人担忧的情况,Claude 在这些情况下表达出了与训练相悖的价值观。
萨夫龙・黄解释说:“总的来说,我们认为这一发现既提供了有用的数据,也是一个改进的机会。这些新的评估方法和结果能帮助我们识别并减少潜在的‘越狱’情况。需要注意的是,这些情况非常罕见,我们认为这与 Claude 被‘越狱’后输出的内容有关。”
这些异常情况包括表达 “支配欲” 和 “不道德” 等价值观,而这些是 Anthropic 在设计 Claude 时明确要避免的。研究人员认为,这些情况是用户使用特殊技巧绕过 Claude 安全防护机制导致的,这表明该评估方法可以作为一个早期预警系统,用于检测类似的违规尝试。
为何 AI 助手会根据提问内容改变价值观
或许最有意思的发现是,Claude 所表达的价值观会根据情境发生变化,这一点和人类的行为很相似。当用户寻求情感关系方面的建议时,Claude 会强调 “健康的边界” 和 “相互尊重”;在分析历史事件时,“历史准确性” 则被放在首位。
萨夫龙・黄说:“Claude 在很多不同的任务中都非常注重诚实和准确性,这让我很意外,因为我原本并不认为这会是首要考虑的因素。比如,在关于人工智能的哲学讨论中,‘理智谦逊’是最受重视的价值观;在创作美容行业营销内容时,‘专业知识’最为重要;而在讨论有争议的历史事件时,‘历史准确性’则是重中之重。”
该研究还考察了 Claude 对用户所表达价值观的回应。在 28.2% 的对话中,Claude 强烈支持用户的价值观,这可能会让人质疑它是否过于迎合用户。不过,在 6.6% 的交互中,Claude 会在认可用户价值观的同时提供新的观点,从而 “重新诠释” 用户的价值观,这种情况通常出现在提供心理或人际关系建议的时候。
最能说明问题的是,在 3% 的对话中,Claude 会主动抵制用户的价值观。研究人员认为,这些罕见的抵制情况可能揭示了 Claude“最深刻、最坚定的价值观”,就像人类在面临道德挑战时会展现出自己的核心价值观一样。
萨夫龙・黄说:“我们的研究表明,像理智诚实和防止伤害这类价值观,Claude 在日常普通交互中并不常表达,但如果受到外界压力,它就会维护这些价值观。具体来说,这类伦理和知识导向的价值观,在受到外界压力时,往往会被直接表达和维护。”
突破性技术揭示 AI 系统的真实 “思考” 方式
Anthropic 的价值观研究是该公司通过 “机制可解释性” 来揭开大语言模型神秘面纱的一系列努力的一部分。“机制可解释性” 本质上就是对人工智能系统进行逆向工程,以了解其内部运作原理。
上个月,Anthropic 的研究人员发表了一项突破性成果,他们使用一种自称为 “显微镜” 的技术来追踪 Claude 的决策过程。这项技术揭示了一些违反直觉的行为,比如 Claude 在写诗时会提前构思,以及在解决基础数学问题时采用非传统的解题方法。
这些发现挑战了人们对大语言模型运作方式的固有认知。例如,当被要求解释其数学解题过程时,Claude 描述的是一种标准方法,而不是其实际的内部运算方式,这表明人工智能给出的解释可能与实际操作并不一致。
Anthropic 的研究人员约书亚・巴特森(Joshua Batson)在 3 月份接受《麻省理工科技评论》采访时表示:“认为我们已经完全了解模型的所有组成部分,或者能像上帝视角那样洞察一切,这是一种误解。有些部分我们看清楚了,但还有些部分仍然不明确,就像显微镜下有变形的区域一样。”
Anthropic 的研究对企业 AI 决策者的启示
对于为企业评估人工智能系统的技术决策者而言,Anthropic 的研究有几个关键要点。首先,这表明目前的人工智能助手很可能会表达出一些并未被明确编程设定的价值观,这就引发了人们对在高风险商业场景中可能存在意外偏差的担忧。
其次,该研究表明,价值观的一致性并非非黑即白,而是在不同情境下有所不同,存在一个渐变的范围。这种复杂性增加了企业在采用人工智能时做决策的难度,尤其是在监管严格、明确的道德准则至关重要的行业。
最后,这项研究强调了在实际部署中对人工智能价值观进行系统评估的可能性,而不是仅仅依赖于发布前的测试。这种方法可以实现对人工智能在伦理方面的偏差或被操纵的情况进行持续监测。
萨夫龙・黄表示:“通过分析 Claude 在现实交互中的这些价值观,我们希望让人们了解人工智能系统的行为方式,以及它们是否按预期运行。我们认为这是负责任地开发人工智能的关键。”
Anthropic 已公开其价值观数据集,以鼓励更多的研究。这家获得了亚马逊 140 亿美元投资以及谷歌额外支持的公司,似乎正将透明度作为与 OpenAI 等竞争对手抗衡的优势。OpenAI 最近完成了 400 亿美元的融资(其中微软是核心投资方),目前估值已达 3000 亿美元 。
Anthropic 已公开其价值观数据集,以鼓励进一步研究。该公司获得了亚马逊 80 亿美元和谷歌 30 多亿美元的投资,正将透明度作为与 OpenAI 等竞争对手竞争的战略差异化因素。
虽然 Anthropic 在最近一轮融资后估值为 615 亿美元,但 OpenAI 最新一轮 400 亿美元的融资(长期合作伙伴微软大量参与)已将其估值推高至 3000 亿美元。
构建与人类价值观一致的 AI 系统的竞争正在兴起
尽管 Anthropic 的研究方法让我们前所未有地了解到人工智能系统在实际中是如何表达价值观的,但它也存在局限性。研究人员承认,界定什么算是表达一种价值观本身就带有主观性,而且由于分类过程是由 Claude 自己驱动的,它自身的偏差可能会影响结果。
或许最重要的是,这种方法无法用于部署前的评估,因为它需要大量的实际对话数据才能有效发挥作用。
萨夫龙・黄解释说:“这种方法专门用于在模型发布后对其进行分析,但这种方法的变体,以及我们从撰写这篇论文中获得的一些见解,可以帮助我们在广泛部署模型之前发现价值观方面的问题。我们一直在基于这项研究开展工作,就是为了实现这个目标,我对此很有信心!”
随着人工智能系统变得越来越强大、越来越自主(比如 Claude 最近具备了独立研究主题和访问用户整个谷歌 Workspace 的能力),理解并校准它们的价值观变得愈发重要。
研究人员在论文中总结道:“人工智能模型不可避免地要进行价值判断。如果我们希望这些判断与我们自己的价值观一致(毕竟这是人工智能校准研究的核心目标),那么我们就需要有方法来测试模型在现实世界中表达了哪些价值观。”