具身智能是什么？智能体如何匹配人类价值？上海期智研究院青年科学家们这么说……丨WAIC 2023

7月7日，以“智联世界·生成未来”为主题的世界人工智能大会（WAIC 2023）进入第二日。主会场大咖云集、亮点纷呈，分会场同样也精彩不断。当天，以“具身通用人工智能（Embodied AGI）”为主题的论坛在徐汇分会场召开，探讨如何定义并实现能深入人类生活、真正通用的人工智能。

活动现场图片来源：每经记者程雅摄

近期，以ChatGPT为代表的通用人工智能（AGI）实现了巨大的突破，其强大的语言理解与对话能力令人震惊，未来AGI还应该有灵活的四肢和身体、有敏锐而灵活的感官，这才能具备更深层交互的能力。为实现以上目标，不仅需要语言预训练模型，还需要为其赋予身体，赋予感知与行动的能力。

(资料图)

“机器人需要准确理解人类意图并与人类协同工作，要与人类价值观相互吻合，并且在具身智能完全成功之后，人类存在的意义又将会有怎样的定义？这是一个值得思考的哲学问题。”上海期智研究院青年科学家许华哲称。

具身智能尚面临诸多挑战

什么是通用具身智能？它能给人们带来什么？据许华哲介绍，通用具身智能是指将智能算法赋能于机器人等物理实体的领域，凡是与物理世界进行交互学习的智能体都可以看成是具身智能。从更广义的角度，有时也会涵盖数字人、游戏智能体等虚拟具身单位。

“具身智能可以看作是强人工智能或通用人工智能的终极追求，十分接近在阿西莫夫等科幻作家笔下的机器人，它应该可以在大量的不同场景中完成成百上千种任务。具身智能的实现，可以让人们拥有一个机器人朋友并服务于人，例如可以在家居场景中为人端茶倒水、洗衣做饭，完成一系列的服务性工作。”许华哲称，其中的难点在于，不同个体的住宅都具备差异性，不同功能的空间也具备差异性，对于人本身而言这种差异可以自动调整、忽略不计，但对于具身智能来说却是巨大的挑战。

而在工业场景下，具身智能可以完成通用的物体分拣、装配、整理等任务。但与数控机床或者现有的工厂流水线不同，他们不需要人类为特定任务编写特定程序，而是通用地解决很多任务。

但从技术角度出发，具身智能的实现还面临着诸多挑战。

许华哲介绍，AI方面，数据获取是一大难点，需要丰富的多模态数据，其获取难度远高于文本。此外，训练方法同样需要重视，行为必须符合物理世界的规律，纯文本预训练模式不再适用。而机器人方面，Embodied AGI的硬件载体需要人形机器人这样的通用型机器人，其研发与制造难度都显著高于普通机器人。并且，通用型机器人需要融合行走、导航、操作等所有机器人所需要的技能，还需要在未知环境下工作。

大模型也需匹配个体价值差异

随着人工智能的发展，安全性、价值标准就成为一个无法忽视的话题。

许华哲表示，由于机器人可能与人产生直接接触，其安全性需要得到严格保障。另一方面，要保障算法不作恶，如果算法本身充满了偏见和恶意，那将对整个人类社会带来不可弥补的创伤。

在训练大模型的过程中，如何让其匹配人类的价值观是一个有趣的问题。许华哲认为，应该让人类是否“开心”这一标准高于其他所有目标。大模型可以是一个超级优化器，可以解决世界上的各种问题，但将人类的价值观、善恶观放进系统优化的目标中，就成了底线。

不过，就当下而言，不同的人具有不同的价值观，善与恶的界定也并不是非黑即白，大模型又如何界定？

许哲华告诉《每日经济新闻》记者，善与恶的界定，不仅需要匹配人类整体的价值观，还需要匹配每个个体，形成差异性的优化。

上海期智研究院青年科学家弋力则告诉记者，针对具身智能领域，更重要的是如何与用户相结合，研究出的技术如何实现智能体和人类之间的价值对齐，并且在对齐的过程中，如何保证其他智能体的利益不受侵害。不过，这需要计算机科学技术的从业者与社会学、伦理学等多领域的专家，包括政策的制定者一起推进与研究。

另外，弋力介绍，ChatGPT的出现对具身智能的影响非常大，主要是通过大模型来赋能传统机器人的学习能力和行为能力。机器人需要控制、感知、决策进行融合，大模型在机器人的感知、决策上会给到很多帮助。

封面图片来源：每经记者程雅摄

关键词：