聊天机器人之后具身智能开启通用AI下一站？

原创

2023-03-19 10:17 星期日

科创板日报宋子乔

GPT等大模型的出现，为推翻树立在人类与人工智能面前的“巴别塔”提供了新思路。

《科创板日报》3月19日讯（编辑宋子乔） 一个有灵魂的机器人/仿真人被制造出来，磕磕碰碰地生活在人类世界，在此过程中碰撞出爱情、友情、亲情……相信你对这个剧本并不陌生，匹诺曹、剪刀手爱德华、银翼杀手等作品都已精彩演绎。

在现实世界中，这类具备自主决策和行动能力的机器人/仿真人是通用AI的高级形态——具身智能机器人，一个具有物理实体、可与真实世界进行多模态交互，像人类一样感知和理解环境，并通过自主学习完成任务的智能体。

正如斯坦福大学计算机科学教授李飞飞所说，“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”

简单来说，具身智能机器人可以听懂人类语言并完成相应任务。理想很丰满，现实科学止步于“听懂人类语言”，人们依然严重依赖手写代码来实现对机器人的控制。

英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox 指出，机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点，它们必须首先接触并学习如何与人类交互。

如何实现更加便利的人机交互？

GPT等大模型的出现，为推翻树立在人类与人工智能面前的“巴别塔”提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来，通过将图像、文字、具身数据联合训练，并引入多模态输入，增强模型对现实中对象的理解，帮助机器人处理具身推理任务。

谷歌、微软的AI团队走在前列，试图以大模型为机器人注入灵魂。

3月8日，谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E，参数量高达5620亿（GPT-3的参数量为1750亿）。作为一种多模态具身视觉语言模型（VLM），PaLM-E不仅可以理解图像，还能理解、生成语言，可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用，例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。