摘要:就像自动驾驶汽车需要海量测试,家政机器人必须通过物理世界和模拟环境的双重验证。当前测试重点集中在仓储、酒店和医院等半封闭场景,操作员仍需远程监控辅助。要让机器人真正胜任收拾餐具这样的家务,或许还需经历...

当谷歌上周三宣布推出Gemini Robotics时,这项将大型语言模型与空间推理能力结合的技术,标志着AI突破数字疆界的重要一步。用户现在可以对机械臂说出"把葡萄放进玻璃碗里"的指令,语言模型会解析意图并分解为机器人可执行的动作步骤。

物理AI的融合之路

谷歌的尝试并非孤例。早在2024年,人形机器人初创公司Figure就因演示语音控制机器人收拾餐具的视频引发热议。同期从OpenAI剥离的Covariant公司,开发出可通过图像、文字或视频指令操控仓储机械臂的系统,该技术被亚马逊收购后加速商用化进程。

这种双向融合趋势日益明显:机器人公司加速引入AI能力,而AI巨头们则反向进军实体机器人领域。英伟达在去年十月明确提出"物理AI"将是下一波浪潮,OpenAI虽在2021年关闭机器人团队,却在今年重启人形机器人项目。

从工厂到家庭的漫长征途

Figure公司近日宣布建造年产1.2万台人形机器人的超级工厂,但其竞争对手Agility Robotics的案例揭示了现实挑战——由于缺乏完善的安全标准,该公司人形机器人只能在隔离区域作业。这解释了为何家庭场景仍是终极难题:相较于结构化的工厂环境,家庭空间的混乱无序对AI系统提出更高要求。

就像自动驾驶汽车需要海量测试,家政机器人必须通过物理世界和模拟环境的双重验证。当前测试重点集中在仓储、酒店和医院等半封闭场景,操作员仍需远程监控辅助。要让机器人真正胜任收拾餐具这样的家务,或许还需经历漫长技术迭代。

物理AI的黎明曙光

尽管前路漫漫,行业动向已显露端倪:谷歌通过Gemini Robotics展现语言模型与实体设备的交互潜力,亚马逊借收购Covariant布局智能仓储,而Figure的制造规划预示着规模化应用正在临近。当AI开始理解三维空间的物理规则,我们或许正在见证机器智能触摸现实世界的起点。