摘要:谷歌DeepMind近日展示了一项革命性技术,其最新的视觉-语言-行动(VLA)模型能完全在机器人本地运行。这意味着机器人无需连接云端服务器,即可理解并执行“把眼镜放到盒子里”等复杂的语音指令,是端侧...
谷歌DeepMind在机器人技术领域取得了里程碑式的进展。根据2025年7月1日披露的最新研究,该公司成功开发出一种先进的视觉-语言-行动(Vision-Language-Action, VLA)模型,该模型能够完全在机器人硬件上本地运行,无需依赖云端连接。
这项被称为“Gemini Robotics”的创新技术,首次让机器人实现了真正的“离线智能”。在演示中,搭载了该模型的机器人能够直接理解人类通过语音下达的复杂指令,并将其转化为精确的物理动作。例如,研究人员对机器人说“把纸对折”或“把眼镜放到盒子里”,机器人便能准确无误地完成任务。
这一突破的核心优势在于其彻底摆脱了对网络的依赖:
端侧处理:所有的感知、理解、决策和执行过程均在机器人内部的处理器上完成,极大地降低了延迟,提升了响应速度。
泛化能力:该模型展示了出色的泛化能力,能够成功处理在训练数据中从未见过的新任务和新环境,这对于实际应用至关重要。
广泛应用前景:这项技术为在各种复杂环境下部署智能机器人开辟了新的可能性,尤其是在网络信号不稳定或完全没有网络的区域,如灾难救援现场、深空探索、偏远地区物流等。
此前,大多数高级机器人都需要将摄像头捕捉到的数据上传到云端的强大服务器进行处理,然后接收指令再行动,这一过程不仅耗时,而且严重受限于网络条件。谷歌DeepMind的这项研究,通过将强大的多模态AI模型成功“压缩”并部署到端侧,标志着机器人自主性的巨大飞跃,预示着一个更智能、更独立的机器人时代的到来。