自从2022年,特斯拉推出Optimus(擎天柱)原型机后,彻底引爆全球人形机器人产业链,全世界科技巨头,比如NVIDIA、高通、谷歌、亚马逊、微软、Meta、三星、OpenAI、腾讯、小米等,以及波士顿动力、Figure、1X Technologies、Agility Robotics、达闼、宇树、智元、傅利叶智能、追觅等创业公司都在积极探索和布局人形机器人领域,推出的产品方案也各具特色。
近年来,随着政策的不断出台,加上资本的持续涌入,人形机器人产业链得到不断壮大和完善,加速了人形机器人在工业、商业,以及家庭等不同场景下的应用落地。业界普遍认为2024年将会是人形机器人产业化元年。高盛不久前也调高了对人形机器人产业的发展预期,他们估计到2035年,全球人形机器人市场的总规模将达到380亿美元,出货量将达到140万台。马斯克则在去年5月人形机器人发布会上预测人形机器人的市场需求在100亿台以上,远超汽车。
| 专项政策频出,人形机器人战略地位上升
欧盟委员会在今年初宣布将于2025年发布一份涵盖全欧盟的机器人战略,旨在确保各成员国在人工智能和机器人技术应用方面的协同与合作。
我国也自2015年以来,陆续出台了相关机器人的产业发展规划,或者在制造业整体战略方向中重点提出机器人板块的发展指引,比如2023年1月发布了《“机器人+”应用行动实施方案》,11月发布了《人形机器人创新发展指导意见》,首次将人形机器人上升至国家层面专项行动指导意见层次。
除了国家层面,2023年,北京、上海和深圳均发布了为期2~3年左右的机器人相关产业发展行动方案,且出台了相应的奖励支持政策。同时各地的人形机器人创新中心和研究所也接连成立,目前已经成立的创新中心有浙江人形机器人创新中心、北京人形机器人创新中心、广东省人形机器人创新中心等。
在多个国家和地方多个政策的催化下,人形机器人的创业公司和相关公司变得越来越多,特别是人形机器人本体制造企业,国内这两年出现了近百家,也涌现出了不少明星人形机器人公司,比如优必选、宇树科技、达闼、傅利叶智能、智元等等。
虽然目前大部分企业的人形机器人产品还处于让人形机器人走起来,或者跑起来的水平,但推出的产品越来越多,距离产业化应用越来越近。有部分厂商的人形机器人产品已经可以执行一些具体的任务了,比如波士顿动力的人形机器人已经可以在工厂中搬运货物及进行货架安装;Figure的人形机器人Figure 01可以与人进行互动,并做一些简单的家务;优必选的Walker S已经进入蔚来汽车工厂进行实训和验证。
| AI加速技术突破,人形机器人产业化加速
近年来,AI技术的加速突破,多模态AI大模型与人形机器人相结合显著提高了人形机器人的技术可行性,带来了产品性能的显著提升和快速迭代,使得人形机器人产业化的速度得到快速提升。
大模型的引入为人形机器人在软件和算法层面带来了前所未有的革新。主要影响有:首先,人形机器人有可能实现更加广泛的通用性。以往由于算法模型的局限性,大多数的机器人只能专注于某一特定应用场景,大模型的应用,大大增强了人形机器人的通用性。
其次,大模型的加持,特别是基于大模型的生成式AI的加持,让人形机器人拥有了强大的AI大脑,让它能够理解和运用自然语言,并拥有卓越的任务规划能力。这意味着人形机器人可以根据含糊的目标,自主执行任务。例如,今年3月份Figure 01与OpenAI大模型结合的案例,就展示了在大模型的加持下,Figure 01可以听懂人类的指令并自主决策执行,当人说到肚子饿了的时候,它会递上一个苹果。在国内,我们也看到了优必选与百度文心大模型的联合,共同探索中国AI大模型+人形机器人的应用。
三是大模型可以帮助人形机器人改善编程和学习能力,比如说基于大模型的生成式AI可以让人形机器人自行操控底层执行系统,大大减轻工程师为每一个细微动作单独编写代码的工作负担。
四是大模型展现出来了强大的泛化能力,即使面临未曾接触过的任务,它也能通过推理和理解去完成任务。也就是说,有了大模型后,人形机器人可以模拟人类的学习过程,让自己能够适应更多的未知场景。
其实,除了OpenAI,AI领域的红人NVIDIA近几年在人形机器人领域也是动作频频。为了加速大模型在人形机器人领域的落地,保证足够的算力支持,在不久前,NVIDIA宣布将专门为人形机器人打造一个全新的计算平台Jetson Thor,该 SoC 包括一个带有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架构,可提供每秒 800 万亿次8位浮点运算 AI 性能。此外,它还集成了功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽。
(来源:NVIDIA)
Blackwell架构是NVIDIA继两年前推出的NVIDIA Hopper架构以来的全新架构,它以一位专门研究博弈论和统计学的数学家David Harold Blackwell命名。相比其前一代Hopper架构,在性能、能耗、安全、规模和模块化等方面都有了全面的提升。
图:Blackwell架构GPU与Hopper架构GPU性能对比(来源:NVIDIA)
具体数据方面,根据NVIDIA官网公布的信息,基于Blackwell架构GPU与上一代基于Hopper架构GPU相比,训练性能提升了4倍、推理性能提高了30倍,能源效率提升了25倍。
NVIDIA即将推出的Jetson Thor芯片可为机器人提供前所未有的计算能力,这种强大的算力使得在终端侧部署中等规模的大模型或视觉模型V-MoE成为了可能,对推动人形机器人技术的实际应用和商业化具有重要的意义。
Jetson Thor芯片的推出也标志着NVIDIA在机器人硬件领域的又一次飞跃,它不仅为机器人提供了必要的算力支持,还为开发者提供了更多的创新空间,让他们能够在硬件平台上实现更加复杂和先进的算法。
| 软件创新助力人形机器人发展
硬件是构成人形机器人实体的基础,决定着产品的质量和稳定性。然而,决定人形机器人未来能够达到何种高度的核心要素则是软件技术。优秀的软件开发能力不仅能赋予人形机器人更加灵活多变的行为模式,还能实现更高层次的智能化服务,从而真正拉开企业间的竞争差距,创造出更大的市场价值。
目前的人形机器人已经在执行层面取得了一定的成就,可以完成折叠衣物、清理杂物、制作咖啡等相对复杂的任务。按照2022年国家机器人检测评定中心联合制定的智能等级划分标准,这些机器人大多处于L3级别智能,具备自然交互的能力。不过,要达到真正的商业化应用水平,并实现与人类相似的高级交互,尚存一定的差距。比如Figure 01机器人已经达到了L3级别智能,但要想迈向更高层级的智能,比如L4级别自主执行任务,或L5级别与人类同等智能水平,仍然面临不少挑战。这其中最大的一个挑战就是高质量的训练数据短缺。
目前针对人形机器人的大模型训练数据资源非常紧缺,仅仅靠现在的人形机器人样机收集的现实世界数据肯定是远远不够的。那么,有什么比较好的解决方案吗?NVIDIA 创始人兼首席执行官黄仁勋在今年的GTC大会上表示,“我们需要一个模拟引擎,来以数字方式为机器人呈现世界,这样机器人就有了一个学习如何成为机器人的‘健身房’,我们称这个虚拟世界为Omniverse。”
也就是说NVIDIA会通过仿真合成数据的方法来缓解机器人训练数据不足的问题。
其实,在人形机器人的数据采集也是NVIDIA研究的重点,这包括人类第一人称视角视频和机器人按照人类指示执行任务的数据。比如,在NVIDIA GTC 2024上,该公司着重介绍了Isaac工具,包括用于强化学习的Isaac Lab和用于计算编排服务的OSMO。其中,Isaac Lab基于Isaac Sim而构建,能够运行数千个用于机器人学习的并行仿真。作为底层技术,开发人员也可以通过Isaac Sim仿真摄像头、激光雷达、超声波、测距传感器等各种机器人用到的传感器,还可以生成用于训练感知模型的合成数据,这种逼真、物理属性准确的虚拟环境,可以大幅提升机器人的开发效率。
NVIDIA OSMO能够在分布式环境中协调数据生成、模型训练和软硬件在环工作流,如下图所示,这个云原生工作流程编排平台可用于合成数据生成 (SDG),DNN训练和验证,强化学习,SIL或HIL 中的机器人 (重新) 仿真,以及基于SIM或真实数据的感知评估。
此外,Isaac Lab 还提供 Isaac Manipulator 和 Isaac Perceptor 等一系列机器人预训练模型、库和参考硬件。其中,前者可用于辅助提升机械臂等的灵活度和精确性,并提供一系列基础模型和GPU加速库,比如可提供高达80倍的路径规划加速,零样本感知提高了效率和吞吐量,让开发者能够实现更多新的机器人任务的自动化;后者可提供多摄像头 360°视觉功能,提高三维空间感知能力,可用于制造业和物流业中的自主移动机器人。
也就是说,升级后的NVIDIA Isaac软件平台可以实现多种硬件本体上的快速数据采集,这对解决集成任务中常见的数据采集困难问题是一个巨大的进步。全新Isaac平台的推出,将会推动机器人技术的发展,因为它不仅简化了数据采集过程,还提供了一套完整的工具和库,帮助开发者在机器人应用开发中实现更高的效率和更低的门槛。值得一提的是,该软件平台还支持模块化的设计,开发者能够根据自己的需求快速组装和定制解决方案。
| 构建人形机器人生态,加速产品落地
目前人形机器人还处于发展初期,虽然它们在家庭服务、工业自动化、医疗护理等领域展现出了巨大的应用潜力,但要实现人形机器人的广泛应用,需要有一个健康、可持续的产业生态的支持。
NVIDIA在构建人形机器人产业生态方面也相当积极,3月份GTC大会上首个人形机器人通用模型GR00T的推出就是其重大举措之一。该模型可以接受文本、语音、视频、甚至是现场人类演示,输出特定的操作任务。由 GR00T 基础模型驱动的机器人不仅能够理解自然语言,而且能够模仿人类动作,实现快速学习协调性、灵活性以及其他的技能,进而能够融入现实世界并与人类进行互动。
GR00T大模型的定位在于应用层开发,它为开发者提供了一个通用和基础的平台,使得他们能够在此基础上,开发出适应各种应用场景的机器人解决方案。GR00T模型可能不会过度偏向研究超前端科技,而是更加注重实用性和通用性,鼓励开发者在这个平台上进行创新和定制,以满足实际应用的需求。
也就是说,GR00T大模型更侧重于生态建设,它旨在激活整个机器人开发者社区的活力,尤其是应用层开发人员的创新活力。重要的是,它将支持一系列已有的硬件,为开发者提供一个坚实的基础,让他们能够在此基础上进行新模型的迭代或应用层开发,加速端到端系统工程的迭代研发,加速人形机器人产品的落地。
通过这种方式,NVIDIA不仅提供了一个强大的开发工具,还为整个行业的发展提供了一个共享的参考框架,促进了支持的共享和技术的迭代,创造了一个充满活力的生态系统。
| 结语
预计未来十年,随着颠覆性产品的不断诞生,人形机器人产业将会迎来重大的结构性变革。苹果公司有意进军家用机器人领域,预示着继智能手机和新能源汽车之后,人形机器人有望成为科技领域下一个重要的赛道。
AI领域的重要玩家NVIDIA对此领域的关注和投入,也进一步印证了人形机器人产业的变革趋势。到目前为止,NVIDIA构建了AI、Omniverse和Isaac三大与机器人产业紧密相连的平台。同时,还推出了人形机器人通用基础模型GR00T,进一步推动人形机器人和具身智能的研发进程。
随着技术的不断进步,可以预见,未来人形机器人有望多点开花,在特殊制造业应用场景,或在家庭环境中承担更多的角色,比如家务助手、健康监护者等,为人类生活带来便利。
全部评论