开云(中国)Kaiyun·官方网站 - 登录入口

开云体育进一步鼓吹具身智能技能的实用化进度-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2025-08-10 10:49    点击次数:65

开云体育进一步鼓吹具身智能技能的实用化进度-开云(中国)Kaiyun·官方网站 - 登录入口

开端:机器之心Pro

AIxiv专栏是机器之心发布学术、技能内容的栏目。曩昔数年,机器之心AIxiv专栏吸收报谈了2000多篇内容,笼罩环球各大高校与企业的顶级实验室,灵验促进了学术疏通与传播。要是您有优秀的职责思要共享,接待投稿或者联系报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近日,上海 AI Lab 具身智能中心谈判团队在机器东谈主限制领域获取了最新冲破,提倡的 HoST(Humanoid Standing-up Control)算法,生效让东谈主形机器东谈主在多种复杂环境中达成了自主站起,并展现出浩荡的抗滋扰才略。

这一更正不仅惩处了机器东谈主从坐姿到站姿的舛误难题,还为将来东谈主形机器东谈主在家庭、医疗、挽回等场景中的粗造利用奠定了基础。

通过强化学习框架和多项技能优化,HoST 算法在仿真和信得过环境中均阐明出色,为东谈主形机器东谈主应酬实质环境中的失衡复原、动态均衡等挑战提供了更正惩处决策,进一步鼓吹具身智能技能的实用化进度。

起猛了,东谈主形机器东谈主竟在上海黄浦江畔幽谷坐起看日出?

也能像牛顿相通坐在「苹果树」旁,起身望望天上掉下了啥。

在负重、强滋扰情况下,也能自由起身。

步田主页:https://taohuang13.github.io/humanoid-standingup.github.io/论文地址:https://arxiv.org/abs/2502.08378

设思东谈主形机器东谈主能否作念到:从沙发上站起,走向桌子,提起一杯咖啡。尽管最近的职责赋予了它们浩荡的通顺和操作才略,关联词沙发上站起这一要领,相对而言努力了谈判。

大无数工伪善设机器东谈主从一个预界说好的直立姿势脱手,实践后续任务。谈判者以为,学会东谈主形机器东谈主站起限制约略应酬上述坐立姿态舛误,或是跌倒后站起等场景,有助于进一步提高东谈主形机器东谈主的落地场景。

和此前依赖于预界说轨迹或是冷落真机硬件终结的限制算法不同,HoST 的谈判团队提倡了一套从零脱手、不依赖预定于轨迹的强化学习框架,约略在仿真环境中学会从多种姿势下生效站起,何况约略径直部署到信得过机器东谈主上。

中枢技能

HoST 算法框架

奖励函数遐想与计策优化

不同于行走与操作,站起这一限制任务动态性更强,对高下半身的动态性要求更高。格外的,关于强化学习算法而言,需要克服随时刻变化的斗争点、多阶段手段学习、精准的体格角动量限制,无疑对奖励函数的遐想与计策优化带来了极大的贫穷。

为此,谈判者们遐想了多种奖励函数,并将其归类到了四种奖励组:任务奖励、作风奖励、管理奖励与后任务奖励。

为了能更好的均衡各个奖励函数,谈判者们紧接着接管了多驳倒家技能,对每一个奖励函数组鉴识进行文告推测,并对每个奖励函数组赋予不同权重,来最终优化限制计策。

探索计策

即使有了合理的奖励函数遐想,谈判者们依旧不雅测到了强化学习在探索上遭受的贫穷。

谈判团队从科学家对婴儿的谈判中发现,外界的匡助有助于婴儿学习很多行为手段。受此启发,谈判者们遐想了基于课程的提拔力探索计策。

在历练初期,基于机器东谈主异常的进取的提拔力,匡助其更容易的站起,探索到高质料的学习样本。跟着机器东谈主缓缓掌抓站起才略,这一提拔力会缓缓减小至零,使得机器东谈主最终学习到无提拔力匡助下的站起限制。这一遐想极大的加速了学习效果。

通顺管理

谈判者们不雅测到机器东谈主容易学到剧烈的站起计策,为了克服这一问题,他们引入了行为缩放所有(行为界限),该缩放所有决定了 PD 限制器中的标的要害角与刻下要害角的最大偏差,从而隐式的管理要害最大的力矩与速率该缩放所有启动被树立为 1。跟着学习的进行,该缩放所有缓缓松开至 0.25。

此外,谈判者们还不雅测到了站起历程中的举止抖动。为了幸免这个问题,他们在值函数网罗和计策网罗优化时接管了平滑管理法式(L2C2)。

真机计策搬动

为了模拟信得过天下中可能见到的启动姿势,谈判者们在仿真历练中遐想了四种地形:幽谷、平台、陡坡和靠墙,以模拟信得过天下中常见到的环境。

另外,为了减小物理仿真与执行中的物理参数互异,谈判者们还接管了域立时化(domain randomization)的技能,在仿真中赐与某些物理参数一些立时噪声,举例质心的偏移、base 重力等。

实验评估

仿真环境站起行为质料

为了更好的评估站起行为,谈判东谈主员最初提倡了四个量化计算:生效能、双脚出动距离、行为平滑度和糟践能量。基于此,他们最初对 HoST 与其消融版块在仿真中进行了相比。终结如下表清醒,多驳倒家、提拔力探索、通顺管理均对计策学习有着显耀的影响。

举例,机器东谈主在枯竭前两者的情况下,无法在大无数地形上生效学到站起手段;枯竭通顺管瓦解使得站起行为不够平滑。这些考据了上述技能遐想的首要性。

信得过环境站起行为质料

接着,谈判者们将限制计策径直部署到机器东谈主 Unitree G1 上,何况在室表里多种场景进行了测试。如下图所示,在多种地形上均达成了生效站起,包括木质平台、草地、平台、陡坡、靠树、石子路等。

其中,在室内场景下,谈判者还对比了平滑管理对真机阐明的影响。如下图所示,平滑管理显耀提高了站起行为的平滑度与其生效能。

鲁棒性测试

在负重、外部冲击力、软质大地远离物以及立时扭矩丢失等复杂外部滋扰条款下开云体育,HoST 如故约略保持领路直立、从跌倒中赶快复原,并看守动态均衡。