顶尖机器人专家讨论人形机器人、生成式人工智能等等

Chat中文版

上个月，我休了一个较长的假。然而，为了保持我的机器人新闻通讯《Actuator》更新和运营，我联系了一些行业内最重要的名字。我向卡内基梅隆大学、加州大学伯克利分校、Meta、Nvidis、波士顿动力和丰田研究所的人们提出了相同的六个问题，涵盖了生成式人工智能、类人形态、家庭机器人等主题。你会在下面按问题组织好所有的回答。你会很难找到比这更全面的2023年机器人技术综述以及它为未来技术铺平道路的资料。

在未来的机器人技术中，生成式人工智能将扮演什么角色？

Chat中文版

卡内基梅隆大学的马修·约翰逊-罗伯森：生成式人工智能将通过其生成新颖数据和解决方案的能力，大大增强机器人的功能。它可以使机器人更好地应对各种任务，提高它们适应新环境的能力，并改善它们自主学习和进化的能力。

德鲁夫·巴特拉，Meta：我认为生成式人工智能在具身化人工智能和机器人研究中扮演了两个不同的角色：

数据/经验生成器为了训练机器人而生成2D图像、视频、3D场景或4D（3D +时间）的模拟体验（特别是动作/语言条件的体验），因为在机器人技术中真实的世界经验非常稀缺。基本上，可以将其视为“学习模拟器”。我相信，如果在模拟环境中进行训练和测试，机器人研究将无法扩展。
自监督学习的架构生成代理将来会观察到的感知观察结果，与实际观察结果进行比较，并用作无需注释的学习信号。详细信息请参阅Yann关于AMI的论文。

伊伦·桑德斯（Aaron Saunders），波士顿动力公司：当前的变化速度非常快，很难预测未来很远的情况。基础模型代表了最佳机器学习模型的一种重大转变，我们已经看到了自然语言界面方面一些令人印象深刻的短期加速。它们提供了创建与我们的机器人对话界面的机会，提升现有的计算机视觉功能的质量，还有可能实现新的面向客户的能力，比如视觉问答。最终，我们认为这些更可扩展的架构和训练策略很可能会扩展到语言和视觉之外的机器人规划和控制领域。能够解读机器人周围的世界将极大地增强我们与之互动的理解。现在是做机器人工程师非常令人兴奋的时刻！

Russ Tedrake表示，生成式人工智能有潜力为机器人带来革命性的新能力。我们不仅能够用自然语言与机器人进行交流，还能通过连接互联网规模的语言和图像数据，使机器人对世界具有更强大的理解和推理能力。然而，我们仍处于初级阶段，还需要更多工作来理解如何将图像和语言知识与使机器人真正有用所需的物理智能相结合。

加州大学伯克利分校的Ken Goldberg表示，尽管这种风声稍早就开始了，但2023年将被记为生成型人工智能改变机器人技术的一年。像ChatGPT这样的大型语言模型可以让机器人和人类进行自然语言交流。单词随着时间的推移，从“椅子”到“巧克力”再到“领导魅力”等等，逐渐演变成表示有用概念的词汇。此外，机器人学家还发现，通过训练大型触觉语言动作模型，可以促进机器人的感知能力，并控制机器人的手臂和腿部运动。训练需要大量的数据，因此全球的实验室正在合作共享数据。结果不断涌现，尽管对于泛化仍然存在一些问题，但其影响将是深远的。

另一个令人兴奋的话题是“多模态模型”，它有两个意义上的“多模态”：

多模态是指将不同的输入方式进行结合，例如视觉和语言。现在还将其扩展为包括触觉和深度感知以及机器人动作。

多模态是指对同一输入状态允许不同的动作。在机器人技术中，这种情况出奇的常见；例如有很多种方式可以抓取一个物体。标准的深度模型会对这些抓取动作进行“平均”，这可能导致抓取效果很差。一种非常令人兴奋的保存多模态动作的方法是通过扩散策略，该方法由现在在斯坦福大学的Shuran Song开发。

Nvidia的Deepu Talla表示：我们已经看到生成式人工智能在各个行业中带来的生产力提升。显然，生成式人工智能将在机器人领域实现从仿真到设计等多方面的深刻变革。

模拟: 通过构建场景、建立环境和生成资源，模型将能够加速模拟开发，弥合3D技术艺术家和开发人员之间的差距。这些GenAI资源将会被广泛用于合成数据生成、机器人技能训练和软件测试。
多模态人工智能：基于Transformer的模型将提高机器人对周围世界的理解能力，使其能够在更多环境中工作并完成复杂任务。
机器人（重新）编程：使用简单语言更加容易定义任务和功能，使机器人更加通用/多用途。
设计：更高效率的新型机械设计——例如末端执行器。

你对人形外形有什么想法？

Chat中文版

肯·戈德伯格，加州大学伯克利分校的教授：我一直对人形机器人和四脚机器人持怀疑态度，因为它们可能过于轰动和低效，但在看到波士顿动力、敏捷和优鹤科技最新的人形机器人和四脚机器人后，我正重新考虑。特斯拉拥有大规模开发低成本电机和传动系统的工程技能。相较于轮子，四脚机器人在家庭和工厂中横跨台阶、杂物和地毯时有很多优势。双臂机器人在许多任务中至关重要，但我仍然认为简单的夹具比五指机器人手更可靠和具有成本效益。

NVIDIA的Deepu Talla：设计自主机器人很困难。人形机器人更加困难。与大多数主要理解地面障碍物的自主移动机器人不同，人形机器人是移动操纵者，需要多模态人工智能来更好地理解周围环境。需要进行大量传感器处理、先进控制和技能执行。

生成式人工智能能力的突破正在构建基础模型，使人形机器人所需的技能更具一般化。与此同时，我们还看到了模拟技术的进步，可以训练基于人工智能的控制系统和感知系统。

马修·约翰逊-罗伯森，CMU：人形机器人的形态是一个非常复杂的工程和设计难题。模仿人类的运动和互动的愿望对致动器和控制系统提出了很高的要求。在平衡和协调方面，它也带来了独特的挑战。尽管存在这些挑战，人形机器人的潜力在各种社交和实际环境中极具多功能性和直观可用性，模拟了自然的人机界面和互动。但在这之前，我们可能会看到其他平台的成功。

MAX Bajracharya，三星认为，机器人可能有助于人类的场所往往是为人类设计的，因此这些机器人可能需要适应并在这些环境中工作。然而，这并不意味着它们需要采取类似人类的形态（两只手臂，五指手，两条腿和一个头）；简单来说，它们需要紧凑、安全，并具备类似人类的任务能力。

Dhruv Batra, Meta：我对此持乐观态度。从根本上说，人类环境是为人形体设计的。如果我们真的希望通用目的的机器人在为人类设计的环境中运行，机器人的形态至少要有些类似人形（机器人可能比人类拥有更多的传感器，并可能拥有更多的附肢）。

波士顿动力公司的亚伦·桑德斯表示，机器人并非所有任务的最佳形态。以Stretch为例，当初我们通过共享Atlas搬运货物的视频引起了人们对于一个搬运机器人的兴趣。仅仅因为人类可以搬运货物，并不意味着我们是完成这项任务的最佳形态，因此我们最终设计了专为搬运货物而制作的Stretch机器人，它比人类能更高效、更有效地搬运货物。尽管如此，我们依然看到了通用机器人长期追求方面的巨大潜力，而人形机器人形态与我们的形态最为契合。我们一直对人形机器人的潜力感到兴奋，并且正在努力填补技术差距。

在制造业和仓储业之后，机器人技术的下一个主要领域是什么？

Chat中文版

马克斯·巴杰拉查里亚，TRI: 我看到农业领域有很多潜力和需求，但许多任务的户外和非结构化特性非常具有挑战性。丰田创投已经投资了几家公司，像Burro和Agtonomy，它们在推动农业领域自主性方面取得了良好的进展。

马修·约翰逊-罗伯逊，卡内基梅隆大学：除了制造和仓储领域，农业部门为机器人技术应对劳动力短缺、提高效率和可持续性提供了巨大机遇。运输和最后一公里配送是机器人能够提高效率、降低成本和提升服务水平的另外两个领域。随着技术的成熟和法规框架支持更广泛的应用，这些领域很可能会见到机器人解决方案的加速采用。

艾伦·桑德斯，波士顿动力公司：当你将客户需求与技术的最新状态相匹配时，这两个行业仍然突出显示出来。随着我们的扩展，我认为我们将从具有确定性的环境逐渐转向具有更高不确定性的环境。一旦我们在制造业和物流等友好于自动化的行业中看到了广泛采用，下一个浪潮可能出现在建筑和医疗等领域。这些行业是有吸引力的机会，因为它们拥有庞大的劳动力和对熟练劳动力的高需求，但供应却无法满足需求。结合工作环境，它位于高度结构化的工业环境和完全无结构的消费市场之间，这可能代表着通往通用目的的自然下一步。

Deepu Talla，英伟达：在企业感受到劳动力短缺和人口结构变化影响的市场将继续与相应的机器人技术机遇相吻合。这涉及机器人公司在各个行业中的工作，从农业到最后一公里运输再到零售等等。

在构建不同类别的自主机器人时，一个关键的挑战是构建所需的3D虚拟世界来模拟和测试系统。再一次，生成式人工智能将有助于开发人员更快地构建逼真的仿真环境。将人工智能整合到机器人技术中将允许在更活跃、不太“友好”的环境中实现更高程度的自动化。

加州大学伯克利分校的肯·戈德伯格：在最近的工会工资谈判之后，我认为我们将会看到比现在更多的机器人在制造业和仓库中使用。近来无人驾驶出租车的进展令人印象深刻，尤其是在交通条件比凤凰城更复杂的旧金山地区。但我并不相信它们能够具有成本效益。在机器人辅助手术方面，研究人员正在探索“增强灵巧”——也就是机器人通过执行缝合等低级子任务来提高外科技能。

真正通用的机器人离我们还有多远？

Chat中文版

Dhruv Batra, Meta：三十年。所以实际上已经超出了任何有意义的预测窗口。事实上，我相信我们应该对那些声称"AGI即将来临"的人持怀疑和警惕的态度。

Nvidia的Deepu Talla表示：我们不断看到机器人变得更加智能和能够在给定环境中执行多个任务。我们预计在解决特定任务的同时，也将使它们更具普遍适应性。真正的通用自主机能还需要更长时间的发展。

马修·约翰逊-罗伯森，卡内基梅隆大学: 真正通用的机器人的出现，能够在不同环境中执行各种任务，可能仍然是一个遥远的现实。这需要在多个领域取得突破，包括人工智能、机器学习、材料科学和控制系统。实现这种多功能性的旅程是一个逐步进行的过程，机器人将逐渐从特定任务变得更加多功能，最终成为通用机器人。

拉斯·泰德雷克，隶属于三重研究所：我对这个领域能够从目前相对封闭的机器人逐渐发展成为更具普遍用途的机器人持乐观态度。虽然目前不清楚需要多长时间，但弹性自动化、高混合制造、农业机器人、服务机器人以及可能还有我们尚未设想的新兴产业，将会从机器人的自治水平和广泛能力的提高中获益。

加州大学伯克利分校的肯·戈德堡（Ken Goldberg）：我不认为在不久的将来会出现真正的人工智能（AGI）和通用型机器人。我所认识的机器人学家无一担心机器人会抢走工作或成为我们的霸主。

波士顿动力公司的亚伦·桑德斯：今天与真正多功能机器人之间存在许多难题。在工业自动化领域，定制机器人已经成为商品，但我们现在才见到多功能机器人的出现。要成为真正多功能的机器人，它们需要在无结构环境中进行导航并解决它们从未遇到过的问题。它们需要以一种建立信任并让用户满意的方式来做到这一点。而且它们必须以具有竞争力的价格来提供这种价值。好消息是，我们正看到领域中关键质量和兴趣的令人兴奋的增长。我们的孩子从小就接触到机器人，最近的毕业生正在帮助我们推动技术的大规模加速。今天向工业客户提供价值的挑战正在为明天的消费机会和我们梦寐以求的多功能未来铺平道路。

在未来十年内，家用机器人（除了吸尘器以外的类型）会流行起来吗？

Chat中文版

马修·约翰逊-罗伯森，卡内基梅隆大学：真正具备广泛任务能力、能够在不同环境中完成多种任务的通用机器人的出现可能仍然是一个遥远的现实。这需要在多个领域取得突破，包括人工智能、机器学习、材料科学和控制系统。实现这种多功能性的旅程是一个逐步推进的过程，机器人将逐渐从具有特定任务的角色演变为更多功能的，最终成为通用的机器人。

Nvidia首席执行官迪普·塔拉（Deepu Talla）：我们将拥有实用的个人助手、割草机和机器人，以帮助老年人在日常生活中。

到目前为止，妨碍家用机器人发展的权衡在于人们愿意为机器人支付多少钱以及机器人是否能带来相应的价值。长期以来，机器人吸尘器一直能够以合适的价格提供相应的价值，因此受到了广泛的欢迎。

随着机器人变得越来越智能化，具备直观用户界面将成为促进普及的关键。能够自行绘制环境地图并通过语音接收指令的机器人将比需要编程的机器人更容易被家庭消费者使用。

下一个可能起飞的类别很可能首先专注于户外领域，例如自主修剪草坪。其他家用机器人，如个人/医疗护理助手，展示了潜力，但需要解决动态、无结构家庭环境中遇到的一些室内挑战。

Max Bajracharya, TRI：由于住宅的多样性和无结构性，以及消费者对价格敏感，对于机器人来说，住宅仍然是一个难题。未来很难预测，但机器人技术领域正在迅速发展。

波士顿动力公司的亚伦·桑德斯表示，在未来的十年内，我们可能会看到更多的机器人进入家庭，但只用于非常有限和特定的任务（就像Roomba一样，在我们的日常生活中，我们将找到其他明确的价值案例）。距离能够为广大消费者市场提供价值的多功能家用机器人还需要十多年的时间。当机器人能够达到我们所习以为常的那些令人惊叹的机器带给我们的便利和价值时，你会像买车一样愿意为它付出同样多的价钱。

加州大学伯克利分校的肯·戈德伯格：我预测在未来十年内，我们将拥有能够以实惠的价格购买的家庭机器人，可以帮助整理杂物，如衣物、玩具和垃圾，将它们从地板上收集起来并且放入相应的容器中。就像今天的吸尘器一样，这些机器人偶尔会犯错，但对于父母和老年人来说，好处将超过风险。

Dhruv Batra，Meta公司：不，我不相信核心技术已经准备好了。

有哪些重要的机器人故事/趋势没有得到足够的报道？

Chat中文版

波士顿动力公司的Aaron Saunders表示，人工智能及其潜力改变各行各业，包括机器人工业，引发了很多热情。尽管人工智能有着明确的作用，并可能开启数十年来相对静态的领域，但一个好的机器人产品远非仅仅由1和0构成。要使人工智能在物理上体现出来并与我们周围的世界进行互动，我们需要跟踪关键技术的进展，如计算机、感知传感器、电源以及构成完整机器人系统的所有其他元素。汽车行业近期向电动化和高级驾驶辅助系统（ADAS）转变，正在快速改变一个庞大的供应链。图形卡、计算机和越来越复杂的人工智能消费电子产品的进展不断为相关供应链带来价值。这个很少受到关注的庞大技术雪球是机器人领域最激动人心的趋势之一，因为它使小型创新公司可以借助巨人们的力量创造出新颖有趣的产品。

Russ Tedrake，TRI：现在我们经常听到关于生成型人工智能和硬件投资的巨大进展。然而，这些成功很大程度上要归功于我们在仿真领域看到的静默革命。仅仅几年前，大部分机器人学家会说，在仿真中训练或测试计算机视觉系统是不可能的；而现在这已经成为标准做法。虽然有些研究人员对于我们能否完全在仿真中开发出像灵巧手这样的控制系统，并使其在现实中正常工作持怀疑态度，但趋势正逐渐朝着这个方向发展。像Nvidia、Google DeepMind和TRI这样的公司的大笔投资正在推动这一进展。

Dhruv Batra, Meta: 现在我们可以在真实的家庭环境中测试导航机器人，并且它们实际上能正常工作！请注意，与自动驾驶汽车不同，这些家用导航机器人没有幸福地通过数百万英里的行驶来建立精确地图的便利。我们将机器人带到一个新的房子，并要求它找到物品。

Deepu Talla，英伟达：平台式方法的必要性。许多机器人初创企业无法扩展，因为他们正在构建适用于特定任务或环境的机器人。为了商业可行性的大规模发展，开发更具通用性的机器人非常重要——即能够快速增加新技能或将现有技能引入新环境。

机器人学家需要具备工具和库来训练和测试机器人AI的平台。这个平台应该提供模拟能力来训练模型，生成合成数据，并对整个机器人软件库进行测试，同时能够在机器人上直接运行最新和新兴的生成式AI模型。

明天成功的创业公司和机器人公司应该专注于发展新的机器人技能和自动化任务，并充分利用现有的端到端开发平台的能力。