摘要:机器人初创公司Figure AI公布其最新进展,其人形机器人Figure 01在集成了OpenAI的大型语言模型后,能够与人类进行流畅的自然语言对话,并根据语音指令自主理解、推理和执行复杂的物理任务。...

人形机器人领域迎来了一次重大突破。初创公司Figure AI近日发布了一段令人惊叹的视频,展示了其机器人Figure 01在与OpenAI的先进大模型集成后所获得的非凡能力。视频中,机器人不仅能与人类进行实时流畅的对话,还能准确理解复杂的指令,并自主地执行一系列物理操作,标志着具身智能(Embodied AI)的发展达到了一个新高度。

OpenAI大模型赋能的“大脑”

这次合作的核心是将OpenAI强大的多模态模型作为Figure 01的“大脑”。Figure机器人自身的机载摄像头负责捕捉环境图像和文字,麦克风负责拾取人类的语音指令。这些多模态信息被实时传输到由OpenAI训练的大型视觉-语言模型(VLM)中进行处理。该模型能够理解图像和文本,并将高级指令转化为机器人可以执行的、低级别的、灵巧的动作序列。Figure自家的神经网络则负责将这些指令转化为机器人精准、快速的物理动作。

演示中的关键能力展示

在演示视频中,Figure 01展现了多项关键能力,使其看起来更像一个智能助手而非简单的机器:

  • 自然语言交互:机器人能够实时回答关于其所见所闻的问题,例如“我能吃点东西吗?”它会识别桌上的苹果并回答“可以”,然后将苹果递给人类。

  • 任务推理与规划:当被要求清理桌面垃圾时,机器人能自主识别垃圾,并规划出捡起、放入篮筐的动作路径,同时还能解释自己为什么这么做。

  • 多任务执行:它可以在执行任务的同时,继续与人类对话,展现出色的多任务处理能力。例如,在将杯子和盘子放到沥水架上的同时,还能回答关于自己下一步行动的提问。

  • 学习与纠错:整个过程完全由AI驱动,没有远程遥控。机器人的所有行为都是其通过学习人类行为范例而获得的,展现出一定的自主学习和适应能力。

商业化前景与未来影响

Figure AI的目标是开发能够替代人类在危险、重复或繁重岗位上工作的通用人形机器人,其潜在应用场景包括制造业、物流仓储、零售业乃至太空探索。此次与OpenAI的合作,极大地加速了这一目标的实现进程。通过赋予机器人接近人类的理解和推理能力,Figure 01不再是只能执行预设程序的机器,而是有望成为能够适应动态环境、解决实际问题的“蓝领工人”。

这项技术的进步,也引发了关于未来劳动力市场、人机协作伦理以及AI安全性的广泛讨论。虽然距离大规模商业化部署仍有一段路要走,但Figure AI和OpenAI的这次合作,无疑为我们描绘了一幅通用人工智能在物理世界中发挥巨大作用的清晰蓝图。