当人工智能系统能够同时控制多个信息源时,潜在危害会呈爆发式增长。我们需要让人类参与其中。
人工智能代理让整个科技行业为之兴奋。与聊天机器人不同,这些具有开创性的新系统并不局限于聊天窗口,它们可以在多个应用程序间穿梭,根据用户的简单指令执行诸如安排会议或在线购物等复杂任务。随着人工智能代理的能力不断提升,一个关键问题浮出水面:我们愿意交出多少控制权,又要为此付出怎样的代价?
几乎每周都有关于人工智能代理的新框架和新功能发布,各公司都在大力推广这项技术,称它能帮我们完成那些做不了或不想做的事情,让生活变得更轻松。比较突出的例子有 “电脑操作” 功能,它能让 Anthropic 公司的 Claude 系统直接在你的电脑屏幕上执行操作;还有 “通用人工智能代理” Manus,它可以利用各种在线工具完成诸如寻找客户、规划旅行等多种任务。
这些进展标志着人工智能领域取得了重大突破:这些系统旨在无需人类直接监督的情况下在数字世界中运行。
这一前景确实诱人。谁不想在繁重的工作或没时间做的任务上得到帮助呢?人工智能代理提供的帮助很快就会以多种形式出现,比如提醒你询问同事孩子的篮球比赛情况,或者帮你为下一次演示文稿寻找图片。说不定再过几周,它们就能帮你制作演示文稿了。
人工智能代理还有望给人们的生活带来深刻而有意义的改变。对于手部活动不便或视力不佳的人来说,人工智能代理可以根据简单的语言指令在网上完成任务。在危急情况下,人工智能代理还能协调为大量人群同时提供帮助,比如在灾难发生时引导交通,帮助司机尽快集体撤离某个区域。
不过,在人们急于追求更高自主性的过程中,人工智能代理的这种发展愿景也带来了一些可能被忽视的重大风险。我在 Hugging Face 的研究团队多年来一直在开发和研究这些系统,我们最近的研究结果表明,人工智能代理的发展可能正处于犯下严重错误的边缘。
一点一点地放弃控制权
核心问题就在于人工智能代理最令人兴奋的地方:人工智能系统的自主性越高,我们让渡的人类控制权就越多。开发人工智能代理是为了让它们灵活应对各种任务,这些任务无需进行直接编程就能完成。
对于许多系统而言,这种灵活性之所以能够实现,是因为它们是基于大语言模型构建的,而大语言模型具有不可预测性,还容易出现严重(有时甚至很荒唐)的错误。当大语言模型在聊天界面生成文本时,任何错误都只局限于该对话中。但当一个系统可以独立行动并能访问多个应用程序时,它可能会做出一些我们不希望的行为,比如操作文件、冒充用户或进行未经授权的交易。而被当作卖点宣传的 “减少人类监督”,恰恰是最主要的漏洞所在。
要全面了解风险与收益的情况,按照自主性程度对人工智能代理系统进行分类会很有帮助。最低级别的是简单处理器,它们不会对程序流程产生影响,比如公司网站上向你打招呼的聊天机器人。最高级别的是完全自主代理,它们可以在没有人类限制或监督的情况下编写和执行新代码,能够在你没有提出任何要求时就采取行动(移动文件、更改记录、发送电子邮件等)。中间级别包括路由器,它决定采用哪些由人类提供的步骤;工具调用器,它使用代理推荐的工具运行人类编写的函数;还有多步代理,它能决定何时、如何执行哪些功能。每一个级别都意味着人类控制权的逐步减少。
很明显,人工智能代理对我们的日常活动能起到极大的帮助。但这也带来了明显的隐私、安全方面的问题。帮你快速了解某人情况的代理需要获取此人的个人信息,并对你之前的互动进行大量监测,这可能会导致严重的隐私泄露。根据建筑规划生成路线的代理可能会被恶意行为者利用,从而进入未经授权的区域。
而且,当系统能够同时控制多个信息源时,潜在危害会呈爆发式增长。例如,一个既能访问私人通信又能访问公共平台的代理,可能会在社交媒体上分享个人信息。这些信息可能并不属实,但却能避开传统事实核查机制的审查,并且随着进一步传播被放大,从而造成严重的声誉损害。不难想象,“不是我干的,是我的人工智能代理干的!!” 很快就会成为人们为不良后果开脱的常用借口。
让人类参与其中
历史上的先例表明了保持人类监督的重要性。1980 年,计算机系统错误地显示有 2000 多枚苏联导弹正朝北美飞来。这个错误引发了紧急程序,让我们险些陷入灾难。而避免这场灾难的,是人类对不同预警系统进行的交叉核查。如果当时决策完全交给那些把速度看得比准确性更重要的自主系统,后果可能不堪设想。
有人可能会反驳说,收益大于风险,但我们认为,要获得这些收益并不需要完全放弃人类控制。相反,在开发人工智能代理的同时,必须同步建立起有保障的人类监督机制,以此限制人工智能代理的行为范围。
开源代理系统是应对风险的一种方式,因为这些系统能让人们更好地监督系统的行为边界。在 Hugging Face,我们正在开发 smolagents 框架,它提供了沙盒安全环境,并且以透明性为核心让开发者构建代理,这样任何独立团队都可以核查是否存在适当的人类控制。
这种方法与当前主流趋势形成了鲜明对比,现在的趋势是人工智能系统越来越复杂、不透明,它们将决策过程隐藏在层层专有技术背后,根本无法保证安全性。
在推进日益复杂的人工智能代理的开发过程中,我们必须认识到,任何技术最重要的特性都不是提高效率,而是促进人类福祉。
这意味着我们开发的系统应该始终是工具,而不是决策者;是助手,而不是替代品。尽管人类的判断并不完美,但它仍然是确保这些系统为我们服务,而非损害我们利益的关键要素