技术 | NVIDIA 构建全流程开发生态,迎接人形机器人浪潮

来源: 芯查查资讯 2025-05-09 10:33:39
相关专题
#人形机器人
NVIDIA通过构建从训练到部署的全流程开发生态,抢先布局物理AI与人形机器人领域,以为开发者提供端到端的解决方案,加速人形机器人从实验室到现实世界的落地。

随着大模型技术的发展,AI从感知AI发展到了生成式AI,再到如今的代理式AI阶段。在今年的NVIDIA GTC 2025上,CEO黄仁勋更是预测AI的下一个浪潮将是物理AI,将数字智能与物理世界相结合,而汽车和机器人将是物理AI最为理想的载体,特别是人形机器人。

 

近两年来,人形机器人广受市场关注,德意志银行发布的人形机器人报告认为2025年将会迎来人形机器人加速生产阶段,该机构预计到2035年,人形机器人市场规模将达到750亿美元,2050年将会达到1万亿美元。

这从全球主要人形机器人企业的量产计划也可以看出,今年将会是人形机器人的量产元年。比如特斯拉计划在2025年生产“数千台”人形机器人Optimus,2026年生产5至10万台,2027年达到50万台;Figure计划在未来4年生产10万台人形机器人;优必选预计2025年将生产1,000至2,000台;智元和宇树科技预计今年将会生产3,000至5,000台;奇瑞2025年人形机器人的量产目标是2,000台;银河通用(Galbot)计划5年内生产1万台;比亚迪计划到2026年在其工厂部署2万台人形机器人。

 

面对这一行业浪潮,NVIDIA通过构建从训练到部署的全流程开发生态,抢先布局物理AI与人形机器人领域,以为开发者提供端到端的解决方案,加速人形机器人从实验室到现实世界的落地。

端到端解决方案,加速人形机器人落地

传统的机器人是为单一目的设计的,比如工厂的AGV,机械臂等,但未来的人形机器人作为通用机器人的理想形态,能够无缝适应人类设计的工作空间,具备理解自然语言能力、自主规划复杂的动作,完成高强度的任务。构建这样的人形机器人通常需要四层技术架构。

 

首先最底层是硬件抽象层,它是人形机器人的核心神经末梢,统一管理物理硬件设备和标准化传感器的驱动,包括IMU、音频与麦克风、体感/触摸传感器、摄像头、位置传感器,以及标准化的执行器接口,兼容各种类型的电机、关节等执行设备。

 

在硬件抽象层上面是实时控制框架层,它通过将其上一层发来的突发指令转化为具体的硬件控制信号,运行频率为100Hz至1kHz。开发者可以通过模型预测控制,或者AI控制策略来实现一系列的控制需求,实时控制包括速度控制器、位置控制器、阻抗控制器和力矩控制器等。

图:人形机器人四层技术架构

第三层是感知和规划层,这是机器人的“小脑”,运行频率是30Hz,完成的任务包括场景识别与自身定位、物体识别与定位、抓取动作规划,整体移动能力等。

 

最上面的第四层是高层推理层,也就是机器人的“大脑”,负责抽象具体的任务,或者制定长期的目标规划,运行的频率为1至5Hz。完成的任务包括自然语言交互、场景理解、符号化的规划任务目标,以及全局调度等。

 

为了满足人形机器人这四层技术架构的需求,以及帮助开发者快速开发出人形机器人产品,NVIDIA提出了“三个计算平台”系统架构,构建从训练到部署的全流程开发生态,提前布局物理AI与人形机器人领域。

第一个计算平台是NVIDIA DGX平台,开发者可以在该平台上使用NVIDIA NeMo来训练和微调基础和生成式AI模型,也可以利用通用机器人开发平台NVIDIA Project GR00T,其中包括人形机器人基础模型GR00T N1,使人形机器人能够理解自然语言,并通过观察人类动作来模仿动作。

 

第二个计算平台是NVIDIA OVX,开发者可以在该平台上运行Omniverse与Cosmos等应用程序编程接口和框架。开发者可以使用Omniverse来提供物理精确的数字孪生环境并进行仿真。Cosmos 世界基础模型基于 2000 万小时多模态数据(包含视觉、力传感器、关节轨迹),生成物理一致的合成场景。将Omniverse与Cosmos相结合,可以实现“数据倍增”的效果。

 

第三个计算平台则是AGX,可以将训练好的人形机器人模型部署到端侧。比如Jetson AGX Thor,这是NVIDIA专为人形机器人而设计的硬件平台。该芯片具有2000 FP4 TFLOPS算力,支持实时运行复杂控制模型。其硬件安全岛设计满足 ISO 26262 功能安全标准,确保机器人在工业场景中的故障容错;256-bit LPDDR5X内存支持加载2B 参数的GR00T N1模型,推理延迟低至12ms,满足100Hz高频控制需求。

推出多个工具应对人形机器人开发的两大核心挑战

其实开发具身智能人形机器人产品并不容易,除了强大的算力需求外,还面临着诸多挑战,其中最为核心的有两个,一是数据的稀缺,二是仿真与现实的差距(Sim-to-Real Gap)。

 

比如说数据问题,训练人形机器人需要数以百万级带物理标注的轨迹数据,而传统真机采集成本高昂且效率低下,比如现实中单个工业机器人每天仅能生成数小时的有效数据,这样的数据鸿沟,限制了人形机器人的泛化能力。

 

而仿真与现实的差距(Sim-to-Real Gap)始终存在。传统物理引擎在复杂场景下精度不足,模型从虚拟环境迁移到真实场景时性能衰减可达40%以上,需大量真机调参。这种偏差使得仿真难以替代真实测试,阻碍了人形机器人开发的效率提升。

 

为此,NVIDIA针对这些痛点,这些年推出了一系列突破性技术,最为典型的就是用于通用人形机器人推理和技能的开源基础模型NVIDIA Isaac GR00T N1;基于NVIDIA Omniverse和NVIDIA Cosmos构建的参考工作流NVIDIA Isaac GR00T Blueprint;以及与Google DeepMind 和 Disney Research 共同开发的一款开源、可扩展的物理引擎Newton等。

NVIDIA Isaac GR00T N1:加速通用人形机器人的开发

作为全球首个开源且完全可定制的人形机器人基础模型,Isaac GR00T N1采用双系统架构,结合视觉语言模型(System 2,基于NVIDIA-Eagle和SmolLM-1.7B)和扩散Transformer动作模型(System 1),实现从环境推理到连续动作控制的闭环。其跨本体泛化能力尤为突出,通过“Embodiment-Specific Adapters”,可在不同机器人(如宇树GR-1、1X Neo)上快速迁移,无需重新训练。

图:GR00T N1 模型架构

实测显示,GR00T N1在未知物体抓取任务中的成功率比传统模型提升40%,为通用机器人开发提供了强大引擎。模型权重(2B参数)和预训练脚本已通过Hugging Face开放,配套LeRobot数据格式支持快速微调,显著降低开发门槛。
 

而且,利用GR00T N1来进行人形机器人开发非常方便,只需要按照以下步骤开始使用即可。
数据准备:将机器人演示数据(视频、状态、动作)三元组格式化为与 Hugging Face LeRobot 格式兼容的 GR00T 数据集。

  • 数据验证:使用验证脚本确保数据符合正确的格式。
  • 后训练:使用 PyTorch 脚本,用自定义数据集对预训练的 GR00T N1 模型进行微调。
  • 推理:将推理脚本连接到机器人控制器,以使用后训练的 GR00T N1 模型在目标硬件或仿真环境中执行动作。
  • 评估:运行评估脚本以获取模型的任务成功率。

NVIDIA Isaac GR00T Blueprint:合成数据的“加速器”

这一基于Omniverse和Cosmos Transfer世界基础模型的合成数据生成工作流,通过少量人类演示即可生成海量轨迹数据。NVIDIA展示,仅11小时内即可生成78万个合成轨迹,相当于6500小时人类演示数据。与真实数据结合后,GR00T N1性能提升40%,有效弥合了仿真与现实的差距。这一蓝图已通过GitHub开放,支持开发者快速构建多样化数据集。
 

据悉,1X、Agility Robotics、Figure AI、Foretellix、Skild AI 和 Uber 是首批采用 Cosmos 的企业,可更快、更大规模地为物理 AI 生成更丰富的训练数据。

 

Newton物理引擎:仿真精度的“物理基石”

NVIDIA与Google DeepMind和Disney Research合作开发的Newton引擎,基于NVIDIA Warp框架,实现了比传统MuJoCo快70倍的仿真速度,支持布料、流体等复杂动力学模拟。其开源特性(Apache 2.0协议)和可微分编程能力,让开发者能通过梯度优化策略,将极端条件下的模型成功率从32%提升至89%。Disney Research率先将其用于BDX娱乐机器人,展现了电影级仿真精度,证明其在实际应用中的价值。

 

开源物理AI数据集:开发者的“数据宝库”

NVIDIA在GTC上发布了全球最大的开源物理AI数据集,通过Hugging Face提供15TB数据,包括32万条机器人训练轨迹和1000个通用场景描述(OpenUSD)资源,覆盖机器人和自动驾驶场景。这一数据集为开发者提供了预训练、测试和验证的资源,显著降低从零开始的成本。加州大学圣地亚哥分校的Henrik Christensen教授表示:“这个数据集的多样性和规模将显著推动机器人研究进展。”

 

结语

NVIDIA在人形机器人领域的布局,并非简单的技术堆叠,而是一个环环相扣、协同进化的完整生态系统。从云端的AI大模型训练、数字孪生的高精度仿真,到端侧的边缘计算部署,再到核心的GR00T N1模型和Newton物理引擎,NVIDIA构建了一个强大的端到端解决方案,有效解决了物理AI开发面临的数据、仿真和控制等关键挑战。通过开放的生态和与产业伙伴的紧密合作,NVIDIA正加速推动人形机器人从实验室走向现实,迈向通用智能体的物理AI新时代。随着技术的不断成熟和生态的持续繁荣,我们有理由相信,人形机器人将在不久的将来成为人类生活中不可或缺的一部分,并在各个领域创造巨大的价值。

0
收藏
0