英伟达机械人跳 APT 舞流利丝滑,科比 C 罗招牌动
呆板人版科比、詹皇、C 罗真的来了!只见「科比」后仰跳投,在赛场上年夜杀四方。「C 罗」跟「詹姆斯」也纷纭展现了本人的招牌庆贺举措。以上这些还只是开胃菜,这款人形呆板人还会侧跳、前跳、前踢、右踢,乃至可能实现深蹲、腿部拉伸等高难度举措。更冷艳的是,它还会跳 APT 舞,十分嗨皮。比起波士顿能源 Altas,现在人形呆板人早已退化到人们不可思议的样子。正如 Figure 开创人所言,人形呆板人 iPhone 时辰行将到来。那么,可能成为「呆板人界的科比」,毕竟是用了什么邪术?来自 CMU 跟英伟达的华人研讨团队重磅提出 ASAP,一个「real2sim2real」模子,能让人形呆板人控制十分流利且动感的满身把持举措。论文地点:https://arxiv.org/abs/2502.01143开源名目:https://github.com/LeCAR-Lab/ASAP它包括了两年夜阶段 —— 预练习跟后练习。在第一个阶段中,经由过程重定向的人体数据,在仿真情况中预练习活动跟踪战略。在第二阶段,将这些战略安排到事实天下,并网络实在天下数据,练习一个 delta 举措模子,来补充能源学差别。而后,ASAP 把这个 delta 举措模子集成到仿真器中,对预练习战略停止微调,让它跟事实天下的能源学更婚配。英伟达高等研讨迷信家 Jim Fan 冲动地表现,咱们经由过程 RL 让人形呆板人胜利模拟 C 罗、詹姆斯跟科比!这些神经收集模子,正在英伟达 GEAR 试验室的实在硬件平台上运转。在网上看到的少数呆板人演示视频都是经由减速处置的,而咱们特地「加快举措速率」,让你能清楚欣赏每个流利的举措细节。咱们提出的 ASAP 模子采取了「实在 → 仿真 → 实在」方式,胜利实现了人形呆板人满身把持所需的超腻滑静态活动。咱们起首在仿真情况对呆板人停止预练习,但面对家喻户晓的仿真与事实差距:人工计划的物理方程难以正确模仿实在天下的能源学特征。咱们的处理计划扼要无效:将预练习战略安排到实体呆板人收罗数据,随后在仿真情况回放举措记载。固然回放进程必定发生偏向,但这些偏差偏偏成为修改物理差别的要害数据源。经由过程额定神经收集进修差别参数,实质上是对传统物理引擎停止「静态校准」,使呆板人能依靠 GPU 的并行盘算才能,在仿真情况中取得近乎实在的年夜范围练习休会。将来属于混杂仿真时期:既继续经典仿真引擎数十年锻炼的精准上风,又融会古代神经收集捕获庞杂事实天下的超常才能,实现两者的协同退化。始终以来,sim2real 是实现空间与具身智能的重要门路之一,被普遍利用在呆板人仿真评价傍边。而 real2sim2real 直接攻破了繁琐的举措微调的困难,弥合 sim2real 的差距,让呆板人可能模拟种种类人的举措。Jim Fan 对此畅想道,2030 年的人形呆板人奥运会必定会是一场盛宴!有网友等待地表现,真想看看它们打拳击的表示。ASAP,呆板人奥运会不远了因为仿真情况跟事实天下的能源学差别,人形呆板人想实现迅速又和谐的满身活动还是宏大的挑衅。现无方法,如体系辨认(SysID)跟域随机化(DR)平日要花大批时光调剂参数,或许天生的战略过于守旧,举措不敷迅速。本文提出了 ASAP(Aligning Simulation and Real Physics)是一个两阶段框架,旨在处理能源学不婚配成绩,实现迅速的人形呆板人满身举措。ASAP 实现了很多从前很难做到的高难度举措,展示出 delta 举措进修在缩小仿真与事实能源学差距方面的潜力。ASAP 为「sim-to-real」供给了一个很有远景的计划,为开辟更机动、更迅速的人形呆板人指明白偏向。ASAP 详细步调如下:活动跟踪预练习与实在轨迹网络:先从真人视频中提取举措偏重定向到呆板人上,预练习多个活动跟踪战略,天生实在天下的活动轨迹。Delta 举措模子练习:基于实在天下轨迹数据,练习 Delta 举措模子,缩小仿真状况与实在天下状况之间的差别。战略微调:Delta 举措模子练习实现后,将其集成到仿真器中,使仿真器能婚配实在天下的物理特征,随后对之前预练习的活动跟踪战略停止微调。实在天下安排:最后,直接在实在情况中安排微调后的战略,此时就不再须要 Delta 举措模子了。两阶段:预练习 + 后练习ASAP 包括两个阶段:预练习阶段跟后练习阶段。在预练习阶段,研讨团队将真人活动视频作为数据起源,在仿真情况中练习举措跟踪战略。先将这些活动数据重定向到人形呆板人上,而后练习一个基于相位前提的活动跟踪战略,让呆板人模拟重定向后的举措。但是,假如将这一战略安排到实在硬件上,因为能源学差别,呆板人的机能会降落。为处理这一成绩,在后练习阶段须要网络实在天下的运转数据,包含本体感知状况,以及由举措捕获体系记载的地位信息。随后,在仿真情况中回放这些数据,能源学差别就会以跟踪偏差的情势表示出来。接着,练习一个 delta 举措模子,经由过程缩小实在天下跟仿真状况的差别,进修怎样弥补这些偏向。这个模子现实上是能源学偏差的修改项。最后,研讨者借助 delta 举措模子对预练习的战略停止微调,使其可能更好地顺应实在天下的物理情况,从而实现更稳固、迅速的活动把持。总的来说,这项研讨的奉献如下:提出 ASAP 框架:应用强化进修跟实在天下的数据来练习 delta 举措模子,无效缩小了仿真与事实之间的差距。胜利在实在情况安排满身把持战略,实现了不少从前人形呆板人难以做到的举措。仿真跟事实情况中的大批试验标明,ASAP 可能无效增加能源学不婚配成绩,让呆板人做出高度迅速的举措,同时明显下降活动跟踪偏差。为了增进差别仿真器之间的腻滑迁徙,研讨者开辟并开源了一个多仿真器练习与评价代码库,以放慢后续研讨。评价评价中,研讨职员针对三种战略迁徙停止了普遍的试验研讨:IsaacGym 到 IsaacSim、IsaacGym 到 Genesis,以及 IsaacGym 到实在天下的 Unitree G1 人形呆板人。接上去,他们一共答复了三个成绩。Q1:ASAP 是否优于其余基线方式,以弥补能源学掉配成绩?表 III 中的定量成果标明,ASAP 在全部重放举措长度上都连续优于 OpenLoop 基线,实现了更低的 Eg-mpjpe 跟 Empjpe 值,这标明与测试情况轨迹的对齐水平更好。固然 SysID 有助于处理短期能源学差距,但因为累积偏差的增添,它在临时场景中表示欠安。DeltaDynamics 在临时场景中比拟 SysID 跟 OpenLoop 有所改良,但存在过拟合成绩,这从下图 5 中随时光缩小的级联偏差能够看出。但是,ASAP 经由过程进修无效弥合能源学差距的残差战略,展现出了优胜的泛化才能。同时,作者在 Genesis 模仿器中也察看到了相似的趋向,ASAP 绝对于基线在全部指标上都获得了明显改良。这些成果夸大了进修增量举措模子,在增加物理差距跟改良开环重放(open-loop replay)机能方面的无效性。Q2:ASAP 是否在战略微调方面,优于 SysID 跟 Delta Dynamics?为懂得决成绩 2,研讨职员评价了差别方式在微调强化进修战略,以进步测试情况机能方面的无效性。如表 IV 所示,ASAP 在两个模仿器(IsaacSim 跟 Genesis)的全部难度级别(简略、中等跟艰苦)中都连续优于 Vanilla、SysID 跟 DeltaDynamics 等基线方式。对简略级别,ASAP 在 IsaacSim(Eg-mpjpe=106 跟 Empjpe=44.3)跟 Genesis(Eg-mpjpe=125 跟 Empjpe=73.5)中都到达了最低的 Eg-mpjpe 跟 Empjpe,同时存在最小的减速度(Eacc)跟速率(Evel)偏差。在更具挑衅性的义务中,如艰苦级别,最新方式的表示仍旧杰出,明显下降了活动跟踪偏差。比方,在 Genesis 中,它实现了 Eg-mpjpe=129 跟 Empjpe=77.0,年夜幅优于 SysID 跟 DeltaDynamics。别的,ASAP 在两个模仿器中一直坚持 100% 的胜利率,而 DeltaDynamics 在更艰苦的情况中的胜利率较低。为了进一步阐明 ASAP 的上风,研讨职员在图 7 中供给了逐渐可视化比拟,对照了 ASAP 与未经微调直接安排的强化进修战略。这些可视化成果标明,ASAP 胜利顺应了新的能源学情况并坚持稳固的跟踪机能,而基线方式则随时光累积偏差,招致跟踪才能降落。这些成果突显了,新方式在处理仿真到事实差距方面的鲁棒性跟顺应性,同时避免过拟合跟应用。研讨成果验证了 ASAP 是一个无效的范式,能够进步闭环机能并确保在庞杂的事实场景中牢靠安排。Q3:ASAP 能否实用于 sim2real 迁徙?针对第三个成绩,研讨职员在实在的 Unitree G1 呆板人上验证了 ASAP 的无效性。因为传感器输入噪声、呆板人建模禁绝确跟履行器差别等要素,仿真到事实的差距比模仿器之间的差别更为明显。为了评价 ASAP 在处理这些差距方面的无效性,他们在两个代表性的活动跟踪义务(踢腿跟「Silencer」)中比拟了 ASAP 与 Vanilla 基线的闭环机能,这些义务中存在显明的仿真到事实差距。为了展现所进修的增量举措模子对散布外活动的泛化才能,作者还对勒布朗・詹姆斯「Silencer」举措停止了战略微调,如图 1 跟图 8 所示。成果标明,ASAP 在散布内跟散布外的人形呆板人活动跟踪义务中都优于基线方式,在全部要害指标(Eg-mpjpe、Empjpe、Eacc 跟 Evel)上都实现了明显的跟踪偏差增加。这些发明突显了 ASAP 在改良迅速人形呆板人活动跟踪的仿真到事实迁徙方面的无效性。再接上去,研讨职员就三个中心成绩来片面剖析 ASAP。起首是,怎样最好地练习 ASAP 的增量举措模子?详细来说,他们研讨了数据集巨细、练习时域跟举措范数权重的影响,评价它们对开环跟闭环机能的影响,如下图 10 所示,给出了全部要素下的试验成果。其次,怎样最好地应用 ASAP 的增量举措模子?如下图 11 所示,强化进修微调在安排进程中实现了最低的跟踪偏差,优于免练习方式。两种无强化进修的方式都存在短视性,而且存在散布外成绩,这限度了它们在事实天下中的实用性。Q6:ASAP 为什么无效以及怎样施展感化?研讨职员验证了 ASAP 优于基于随灵活作噪声的微调,并可视化了 Delta 举措模子在各个枢纽上的均匀输出幅度。调剂噪声强度参数,能下降全局跟踪偏差(MPJPE)。图 13 可视化了在 IsaacSim 练习失掉的 Delta 举措模子的均匀输出,成果提醒了差别枢纽的能源学偏差并不平均。踝枢纽跟膝枢纽的偏差最明显。作者先容Tairan He(何泰然)独特一作 Tairan He 是卡内基梅隆年夜学呆板人研讨所的二年级博士生,由 Guanya Shi(石冠亚)跟 Changliu Liu(刘畅流)。同时,也是 NVIDIA GEAR 小组的成员,该小组由 Jim Fan 跟 Yuke Zhu 引导。此前,他在上海交通年夜学取得盘算机迷信学士学位,导师是 Weinan Zhang(张伟楠)。并曾在微软亚洲研讨院任务过一段时光。他的研讨目的是打造能改良每团体生涯品质的呆板人;重点是怎样为呆板人构建数据飞轮,使其取得媲丽人类的活动才能跟语义懂得才能,以及怎样让呆板人既能保险牢靠,又能机动顺应种种情况,具有通用性跟迅速性来实现各种适用义务;采取的是随盘算才能跟数据范围扩大的呆板进修方式。Jiawei Gao(高嘉伟)独特一作 Jiawei Gao 现在就读于 CMU。他曾取得了清华学士学位,曾与 Gao Huang 教学、Jiangmiao Pang 博士、Guanya Shi 教学配合,参加了强化进修算法及其在呆板人范畴利用的相干名目。他始终在思考人类智能的来源,以及怎样构建可能像人类一样进修跟推理的呆板。为此,他盼望努力于研讨通用决议算法,使呆板可能在庞杂的物理天下中停止交互、进修跟顺应。除了研讨兴致外,Jiawei Gao 也热衷于汗青、哲学跟社会学。团体进修钢琴已有十年,是东方古典音乐的忠诚喜好者,贝多芬跟马勒是我最爱好的作曲家。同时,他也爱好游览跟拍照。Wenli Xiao独特一作 Wenli Xiao 是卡内基梅隆年夜学呆板人研讨所(MSR)的硕士生,由 Guanya Shi 教学跟 John Dolan 教学领导。他现在在 NVIDIA GEAR 试验室担负研讨练习生,与 Jim Fan 博士跟 Yuke Zhu 教学一同研讨人形呆板人基本模子。此前,他在喷鼻港中文年夜学(深圳)取得电子信息工程专业学士学位。Yuanhang Zhang(张远航)独特一作 Yuanhang Zhang 现在是 CMU 呆板人研讨所(CMU RI)的硕士生,现在在 LeCAR Lab 研讨,导师是 Guanya Shi 教学。此前,他曾在上海交通年夜学取得了工学学士学位,时期 Hesheng Wang 教学 Danping Zou 教学领导。本科时期,他担负 SJTU VEX 呆板人俱乐部的编程组担任人,并参加了无人车(UV)跟无人机(UAV)相干的各种比赛。他的研讨兴致包含呆板人学、呆板进修跟最优把持。现在,他自己的研讨偏向是人形呆板人跟空中操控。参考材料:https://x.com/DrJimFan/status/1886824152272920642https://agile.human2humanoid.com/本文来自微信大众号:新智元(ID:AI_era),原题目《英伟达呆板人跳 APT 舞冷艳全网,科比 C 罗完善复刻!CMU 00 后华人独特一作》
上一篇:英伟达 RTX 5090 跟 RTX 5080 旗舰显卡月尾开卖,已有
下一篇:没有了
下一篇:没有了