在科技飞速发展的今天,人形机器人的研究和应用成为了热门领域。具身智能的本质是人工智能的高技术供给驱动生产力范式重构。传统的人形机器人在发展过程中面临诸多限制,尚未实现真正的具身智能。以往的强化学习方案与拖拽示教方案效率低下,难以解决长尾问题,导致人形机器人在复杂环境中的适应能力和任务执行能力有限。
而本轮大模型技术的进步,为解决这些问题带来了新的契机。大模型大幅度提高了机器人感知、决策、控制系统的技术供给,在降低软件开发门槛的同时拓宽了机器人的应用场景。具身智能机器人作为自洽的智能体,在思维方式、行为模式方面高度拟人,可以提高劳动力供给,在特种场景替代人类,在长尾制造、柔性制造场景大规模应用,有望极大限度地解放生产力、重构生产力范式。因此,开发人形机器人具身智能大模型具有重要的现实意义和深远的发展前景。
近年来兴起的大模型有望重塑人形机器人的算法开发模式。在软件算法性能不足的情况下,大模型将首先搭载于服务型机器人,用于人机交互场景。后续的图像 - 文本 - 动作(VLA)大模型可以将软件算法的感知、决策规划、控制三个模块相融合,减少模块间的“hard decision”与 Prompt 摩擦,彻底实现模型的端到端方案。
以特斯拉推出的 Optimus 为例,它带动了本轮人形机器人的高热度。虽然人形机器人有较多零部件继承自工业机器人,但核心生态位却由跨界巨头占据。这是因为跨界巨头具备较强的 AI 能力,可以在算法、算力、数据三个层面保持人形机器人软件层面的核心优势。大模型或成为具身智能的必备选项,具身智能或成为大模型在现实世界的具象化形态,这将从根本上改变人形机器人的算法开发路径,提升其性能和应用范围。
要实现与机器人的智能交互,感知是第一步。目前机器人的交互依然基于麦克风阵列,传统算法波束形成角度太宽,导致主说话人两侧的噪声容易录入,使机器人在复杂环境下几乎不可用。通过加上神经网络,大幅限制正向方的角度,从 60 度变成 30 度,有效抑制了两侧的噪声,能够在比较恶劣的场景下实现较好的交互。
然而,在实际生产过程中,前后人声的噪声更为普遍和棘手。除了安静的家居环境,在类似鸡尾酒会的环境中攻克难度很大,依靠传统声学难以提升。此时引入摄像头,通过人脸实时进行嘴巴检测和实时声音检测,将录音信息加上物体跟踪,三个系统进行融合,就能屏蔽画面中其他人的声音,只听取目标声音。
在语音交互方面,将音频转成文字时,大模型对于语义体现有着显著优势。传统语音识别模型的参数和体量非常有限,而现在基于神经网络大模型的方案,可以实现多语种的联合建模,达成多种语言的识别。这使得人形机器人在与不同语言背景的用户交流时更加顺畅,拓展了其应用的地域范围和用户群体。
AI 大模型在自然语言处理(NLP)方面表现出色,使得人形机器人能够理解和生成自然语言。通过在大规模文本数据上进行训练,机器人可以更准确地理解用户的指令和请求,并生成符合语境的回答。例如在客服领域,人形机器人可以根据用户的咨询内容提供详细、准确的解决方案;在教育领域,它能与学生进行互动交流,解答问题;在陪伴场景中,也能给予用户情感上的回应,实现更加自然和流畅的交流。
AI 大模型在计算机视觉任务中表现优异,能够帮助人形机器人更好地理解和处理视觉信息。利用深度学习模型,人形机器人可以实现物体识别、面部识别、姿态估计和场景理解等功能。比如在物流仓库中,机器人可以通过物体识别准确抓取货物;在安防领域,能够进行面部识别以判断人员身份;在复杂的户外环境中,通过姿态估计和场景理解进行自主导航,提高其工作效率和安全性。
AI 大模型在动作规划和控制方面也有重要应用。通过强化学习和深度学习技术,机器人可以学习复杂的动作和任务,例如行走、搬运物体和组装零件。这些模型能够根据实时环境反馈不断调整和优化机器人行为,使其具备更高的灵活性和适应性。以工业生产线上的人形机器人为例,它可以根据产品的不同规格和生产要求,灵活调整自己的动作和操作流程,完成各种组装和加工任务。
AI 大模型可以处理多种模态的数据(如文本、图像、音频等),这对人形机器人的多模态感知和决策具有重要意义。机器人可以同时使用视觉和语音信息来理解用户的意图,进行更加准确和智能的响应。例如,当用户发出指令时,机器人不仅可以通过语音识别理解指令内容,还能结合视觉信息判断指令的执行环境和目标位置,从而更精准地完成任务。多模态融合还可以增强机器人的情境感知能力,使其在复杂场景中表现更佳。
AI 大模型通过大量数据的训练,具有强大的自主学习能力。人形机器人可以利用这些模型进行自我学习和改进,逐渐适应不同的环境和任务需求。比如在不同的工厂车间中,机器人可以通过自主学习掌握新的生产工艺和操作流程;在家庭服务场景中,随着与家庭成员的不断互动,它可以了解每个成员的生活习惯和需求,提供更加个性化的服务。
目前,众多企业和科研机构都在积极投入到人形机器人具身智能大模型的开发中,并取得了一定的成果。科大讯飞于 2023 年科大讯飞全球“1024 开发者节”上正式发布了“大模型 + 具身智能”的人形机器人技术原型,并在 2024 世界机器人大会中展示全新升级的星火大模型 + 具身智能的人形机器人。字节跳动也推出了第二代机器人大模型 GR - 2(Generative Robot2.0),它是最先进的通用型机器人代理,擅长执行多功能且可泛化的机器人操作任务。
在 2025CES 上,英伟达创始人兼 CEO 黄仁勋做开幕演讲,并且带领 14 款生态人形机器人产品精彩亮相。英伟达公布的 14 家合作人形机器人公司中,中国厂商占据 6 席,包括宇树科技、众擎机器人与傅利叶 以及小鹏汽车、银河通用、星动纪元。同时,英伟达宣布推出“世界基础模型”NVIDIA Cosmos,开发人员可以使用 Omniverse 创建三维场景,然后使用 Cosmos 将其转换为照片级逼真的场景,再通过同时生成多个模型,帮助机器人找到完成任务的最佳方法,从而实现机器人更快学习和进步。
尽管人形机器人具身智能大模型的开发已经取得了一定进展,但仍然面临着诸多挑战。首先,技术层面上,大模型的训练需要大量的计算资源和数据,成本高昂,而且目前的模型在处理复杂场景和不确定性问题时还存在一定的局限性。其次,伦理和法律问题也是不容忽视的,随着人形机器人的智能化程度不断提高,其行为和决策可能会对人类社会产生影响,需要建立相应的伦理准则和法律规范来进行约束。此外,市场接受度也是一个问题,用户对于人形机器人的安全性、可靠性和实用性还存在疑虑,需要进一步加强宣传和推广。
展望未来,随着技术的不断进步和完善,人形机器人具身智能大模型有望在更多领域发挥重要作用。在工业制造领域,它可以提高生产效率和质量,实现柔性制造;在医疗领域,能够协助医生进行手术操作、护理病人;在家庭服务领域,为人们提供更加便捷和个性化的生活服务。同时,随着产学研用的深度融合,相信会有更多创新成果涌现,推动人形机器人具身智能大模型的发展迈上新的台阶。