U赢电竞官网-东莞变频器新闻 教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集
东莞变频器新闻 教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集
时间:2021-07-04 20:15 点击:175 次

 

虚拟环境(ALE、MuJoCo、OpenAI Gym)极大地促进了在智能体控制和规划方面学习算法的发展和评估,然而现有的虚拟环境清淡只涉及刚体动力学。尽管柔体动力学在众个钻研周围有着普及的行使(例如,医疗护理中模拟虚拟手术、计算机图形学中模拟人形角色、机器人技术中开发仿生制动器、原料科学平分析断裂和扯破),关于构建标准柔体环境和基准的钻研却很少。

与刚体动力学相比,柔体动力学的模拟、控制和分析更添错综复杂。最大的挑衅之一来自其无限的解放度(DoFs)和对答的高维控制方程。柔体动力学的内在复杂性使很众为刚体设计的机器人算法无法直接行使,并按捺了用于评估柔体义务算法的模拟基准的发展。

在一项近期钻研中,MIT 沃森人造智能实验室首席科学家淦创团队与来自MIT, USCD等机构的钻研者共同挑出了一个声援梯度可导的机器人柔体操作平台(PlasticineLab) 来解决这个题目。这篇论文内容在 ICLR 2021 大会上被选为spotlight。

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

论文地址: https://arxiv.org/pdf/2104.03311.pdf

项现在链接: http://plasticinelab.csail.mit.edu/

Code 下载: https://github.com/hzaskywalker/PlasticineLab

该基准可用于运走和评估统统 10 栽柔体操作义务,这些义务包含 50 栽配置,必须议定复杂的操作来实走,包括捏、滚、切、成型和雕刻。其特点在于模拟环境采用可微物理,并且首次为柔体分析挑供梯度新闻,从而能够议定基于梯度的优化进走监督学习。在柔体模型方面,吾们选择了钻研橡皮泥(图 1 左),这是一栽用于雕刻的众功能弹塑性原料,在幼变形下外现为弹性形变,在大变形下外现为塑性形变。与通例弹性柔体相比,橡皮泥具有更添众样和实在的走为,并带来了先前钻研中未追求的挑衅,使其成为测试柔体操作算法的代外性序言(图 1 右)。

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

图 1 左:一个孩子用擀面杖将一块橡皮泥变形成薄饼。右:PlasticineLab 中具有挑衅性的 RollingPin 场景。智能体必要议定来回起伏擀面杖,使橡皮泥变形为现在标形状。

吾们议定 Taichi 实现 PlasticineLab 的梯度声援和弹塑性原料模型,其 CUDA 后端采用 GPU 大周围并走来实时模拟各栽 3D 柔体。随后议定移动最幼二乘原料点法和 von Mises 信服准则对弹塑性原料进走建模,并行使 Taichi 的双尺度逆向模式微分体系来自动计算梯度,包括塑性原料模型带来的具有数值挑衅性的 SVD 梯度。具备完善的梯度后,吾们在 PlasticineLab 中一切柔体操作义务上评估了基于梯度的规划算法,并将其效率与基于深化学习的手段进走了比较。

实验外明,基于梯度的规划算法能够行使物理模型的额外知识在数十次迭代中找到更有价值的解决方案,而基于深化学习的手段即使在 1 万次迭代之后仍能够会战败。但是基于梯度的手段匮乏有余的动力来解决永远规划题目,尤其是在众阶段义务上。

这些发现添深了对基于深化学习和基于梯度的规划算法的理解。此外,它还挑供了一个能够的钻研倾向,即融相符这两栽手段的益处来推进柔体动力学复杂规划义务的发展。这项做事主要有以下几点贡献:

挑出了首个涉及弹性和塑性柔体的技能学习基准。

开发了一个功能齐全的可微物理引擎,它声援弹性和塑性变形、柔刚性原料相互作用,以及可微的定制接触模型。

基准中普及的义务遮盖周围能够对代外性基于深化学习和基于梯度的规划算法进走体系的评估和分析。吾们期待该基准能够激发异日的钻研,将可微物理和深化学习相结相符。

吾们还计划议定更众的关节体系来扩展基准测试,例如虚拟影子手。行为一栽首源于计算物理界的原理性模拟手段,MPM 在细化下可拘谨,并且具有自身的精度上风。建模舛讹在虚拟环境中不走避免,不过,模拟梯度新闻除了行为规划的兴旺监督信号外,还能够请示体系识别。这能够使机器人学钻研人员能够本身「优化」义务,与控制器优化同时进走,从而自动最幼化模拟与实在之间的差距。PlasticineLab 能够隐微降矮异日柔体操纵技能学习钻研的窒碍,并为机器学习社区做出稀奇贡献。

PLASTICINELAB 学习环境

PlasticineLab 包含由可微物理模拟器声援的具有挑衅性的柔体操作义务,其中的一切义务都必要智能体操纵刚体操纵器将一块或众块 3D 橡皮泥变形。底层模拟器批准用户对柔体实走复杂的操作,包括捏、滚、切、成型和雕刻。

义务描述

PlasticineLab 具有 10 栽偏重于柔体操作的义务。每个义务都包含一个或众个柔体和一个操纵器,最后现在标是议定规划操纵器的行动将柔体变形为现在标形状。智能体的设计按照标准的深化学习框架,议定马尔可夫决策过程进走建模。每个义务的设计由其状态和不悦目察、行为外征、现在标定义以及奖励函数来定义。

马尔可夫决策过程

清淡来说,马尔可夫决策过程包含状态空间、行为空间、奖励函数和转换函数。在 PlasticineLab 中,物理模拟器决定了状态之间的转换。智能体的现在标是找到一个随机策略,按照给定状态对行为进走采样,从而最大化预期累积异日回报,其中为扣头因子。

状态

义务的状态包括柔体的精确外征和操纵器的着末实走器。吾们按照先前做事中普及操纵的基于粒子的模拟手段,将柔体物体外示为一个粒子体系,其状态包括粒子的位置、速度以及答变和答力新闻。详细来说,粒子状态被编码为大幼为的矩阵,其中是粒子的数目。矩阵中的每一走都包含来自单个粒子的新闻:两个外示位置和速度的 3D 向量,两个外示形变梯度和仿射速度场的 3D 矩阵,一切新闻堆叠并压平为一个维向量。

行为行动学刚体,操纵器的着末实走器由 7D 向量外示,由 3D 位置和 4D 四元数倾向构成,尽管在某些场景中能够会禁用某些解放度。对于每个义务,该外征会产生一个矩阵来编码操纵器的完善状态,其中为义务中所需的操纵器数目,为3或7,取决于操纵器是否必要旋转。关于柔体和操纵器之间的交互,吾们实现了刚体和柔体之间的单向耦相符,并固定了一切其他物理参数,例如粒子质量和操纵器摩擦力。

不悦目察

固然粒子状态十足外征了柔体动力学,但其高解放度对于任何直接操纵的规划和控制算法都难以处理。所以,吾们下采样个粒子行为标识,并将它们的位置和速度(每个标识为 6D)叠添到大幼为的矩阵中,用作粒子体系的不悦目察。值得仔细的是,联相符义务中的标识在橡皮泥的初首配置中具有固定的相对位置,从而在义务的分歧配置中实现相反的粒子不悦目察。结相符粒子不悦目察和操纵器状态,吾们最后得到的不悦目察向量具有个元素。

行为

在每个时间步长,智能体以行动学的手段更新操纵器的线速度(必要时也包括角速度),得到大幼为的行为,其中为3或6,取决于操纵器是否能否旋转。对于每个义务,吾们挑供全局,行为的下限和上限以安详物理模拟。

现在标和奖励

每个义务都具备一个由质量张量外示的现在标形状,它内心上是将其密度场离散为大幼为的规则网格。在每个时间步长t,吾们计算现在柔体的质量张量。将现在标和现在形状离散为网特殊示,便于吾们议定比较相通位置的密度来定义它们的相通性,避免匹配粒子体系或点云的挑衅性题目。奖励函数的完善定义包括一个相通性度量以及两个关于操纵器高层次行动的正则化器:

其中,为两个形状的质量张量之间的距离,为两个形状质量张量的带符号距离场的点积,鼓励操纵器挨近柔体。对于一切义务,正权重都是常数。过失确保每个环境最初的奖励为非负值。

评估组件

PlasticineLab 共包含 10 栽分歧的义务(图 2)。吾们在这边描述了 4 个具有代外性的义务,其余 6 个义务在附录 B 中有详细表明。

这些义务及其分歧配置下的变体形成了一套评估组件,用于对柔体操作算法的性能进走基准测试。每个义务有 5 栽变体(统统 50 栽配置),议定扰动初首和现在标形状以及操纵器的初首位置生成。

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

图 2 PlasticineLab 的义务和参考解决方案,其中某些义务必要众阶段规划。

Rope 智能体必要议定两个球形操纵器将一根长绳状橡皮泥缠绕在一根刚性柱子上。支撑的位置在分歧的配置中有所分歧。

Writer 智能体必要操纵一支「笔」(议定一个垂直胶囊外示),在立方橡皮泥上绘制现在标涂鸦。对于每栽配置,吾们议定在橡皮泥形式上绘制随机 2D 线条来生成涂鸦。笔尖议定三维行为进走控制。

Chopsticks 智能体必要操纵一双筷子(议定两个平走胶囊外示),挑首地上的长绳状橡皮泥并将其旋转到现在标位置。操纵器具有 7 个解放度:6 个解放度用于移动和旋转筷子,1 个解放度用于控制每根筷子之间的距离。

RollingPin 智能体必要学习用刚性擀面杖压平「比萨面团」(议定立方橡皮泥外示)。吾们议定具有 3 个解放度的胶囊模拟擀面杖:1)擀面杖能够垂直降落以按压面团;2)擀面杖可沿垂直轴旋转以转折其倾向;3)智能体也能够将擀面杖在橡皮泥上起伏以将其压平。

可微弹塑性模拟

该模拟器议定 Taichi 实现并在 CUDA 上运走。不息介质力学议定移动最幼二乘原料点法进走离散化,这是一栽计算机图形学中相比 B 样条原料点法更浅易、更有效的变体。模拟器中同时操纵了拉格朗日粒子和欧拉背景网格。原料的属性包括位置、速度、质量、密度和形变梯度。这些属性存储在与原料一首移动的拉格朗日粒子上,而粒子与刚体的相互作用和碰撞在背景欧拉网格上处理。

在这边吾们凝神于原料模型的(可微分)可塑性扩展,行为橡皮泥的一个定义特征,行使 Taichi 的逆向模式自动微分体系进走大无数梯度评估。

von Mises 信服准则

按照 Gao 等人的做事,吾们操纵浅易的 von Mises 信服准则来模拟塑性。按照 von Mises 信服准则,橡皮泥粒子在其偏答力第二个不变量超过某个阈值时信服(即塑性变形),并且由于原料「遗忘「了其静止状态,所以必要对形变梯度进走投影。此过程在 MPM 文献中清淡称为返回映射。

返回映射及其梯度

按照 Klar 等人和 Gao 等人的做事,吾们将返回映射实现为每个粒子形变梯度奇怪值的 3D 投影过程。这意味着吾们必要对粒子的形变梯度进走奇怪值分解(SVD)过程,钻研者在附录 A 中挑供了该过程的假代码。对于逆向传播,必要评估 SVD 的梯度。Taichi 内部的 SVD 算法具有迭代性,当用蛮力的手段自动微分时,它的数值并担心详。吾们操纵 Townsend 等人挑出的手段来区分 SVD。对于奇怪值不清晰时分母为零的题目,按照 Jiang 等人的手段促使分母的绝对值大于。

可微接触模型及其柔体版本

按照标准的 MPM 实现,操纵库仑摩擦基于网格的接触处理来解决柔体与地板和刚体窒碍物 / 操纵者的碰撞。刚体外示为随时间转折的 SDFs。在经典的 MPM 中,接触处理会导致沿刚柔边界的速度发生强烈的非腻滑转折。为了挑高奖励腻滑度和梯度质量,吾们在逆向传播过程中操纵了柔化接触模型。对于任何网格点,模拟器计算其到刚体的有符号距离。然后吾们计算一个腻滑碰撞强度因子,当逐步衰减到 0 时,该因子呈指数增补。直不悦目来说,当刚体挨近网格点时,碰撞奏效会变得更强。正参数决定了柔化接触模型的锐度。吾们操纵因子线性同化碰撞投影前后的网格点速度,带来边界周围的腻滑过渡区以及更好的接触梯度。

实验

评估指标

最先为每个义务生成 5 个配置,从而生成 50 个分歧的深化学习配置。吾们计算归一化添量 IoU 分数来衡量状态是否达到现在标,并操纵柔 IoU 来评估现在状态和现在标之间的距离。最先挑取网格质量张量,即一切网格的质量。每个非负值外示存储于网格点中的原料数目。令两个状态的 3D 质量张量别离为和。吾们最先将每个张量除以它们的最大幅度以将其值归一化为:

然后,两栽状态的柔化 IoU 议定

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

进走计算。归一化添量 IoU 分数用于衡量在终结时 IoU 比初首状态时增补了众少。对于初首状态,终结时首先状态以及现在标状态,归一化添量 IoU 分数定义为。对于每项义务,吾们在 5 栽配置上评估算法并计算代数平平分数。

评估深化学习

随后是在本文挑出的义务上评估现有深化学习算法的性能。吾们操纵三栽 SOTA 无模型深化学习算法:Soft Actor-Critic(SAC),Twin Delayed DDPG(TD3)和 Policy Proximal Optimization(PPO)。在每个配置上训练每个算法 10000 轮,每轮包含 50 个环境步骤。

图 3 展现了在每个场景上各栽深化学习算法的归一化添量 IoU 分数。大无数深化学习算法能够在 Move 义务上学习到相符理的策略。然而深化学习算法很难实在匹配现在标形状,这会导致最后形状匹配中的一个幼弱点。吾们仔细到智能体在追求过程中频繁开释物体,使得橡皮泥在重力作用下解放落体。然后智能体重新抓取橡皮泥变得具有挑衅性,导致训练担心详和令人不悦意的终局。在 Rope 义务中,智能体能够将绳子推向柱子并获得片面奖励,但最后无法将绳子成功绕在柱子上。TripleMove 义务增补了操纵器和立体橡皮泥的数目,对深化学习算法带来了更大的难得,展现了算法在扩展到高维义务方面的不能。在 Torus 义务中,算法性能好似取决于初首策略。它们未必能够找到一个正当的倾向按压操纵器,但未必由于操纵器从不接触橡皮泥而战败,从而导致隐微的最后得分迥异。PPO 的性能优于其他两个,在 RollingPin 义务中,SAC 和 PPO 智能体都能找到来回压平面团的策略,但 PPO 生成了更实在的形状,从而具有更高的归一化添量 IoU 分数。吾们推想此处的环境更倾向于 PPO 算法,而不倚赖于 MLP 评价网络。这能够是由于 PPO 受好于 on-policy 样本,而 MPL 评价网络能够无法很好地捕捉详细的形状转折。

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

图 3 深化学习手段在 104 个 epoch 内获得的最后归一化添量 IoU 分数,矮于 0 的分数被控制。橙色虚线外示理论上限。

在一些更难的义务中,例如必要智能体仔细处理 3D 旋转的 Chopsticks 义务,以及必要智能体规划复杂轨迹以绘制痕迹的 Writer 义务,被测试的算法很少能够在有限的时间内找到相符理的解决方案。在 Assembly 义务中,一切智能体很容易陷入片面最幼值。它们清淡将球形橡皮泥移动到现在标地附近,但未能将其仰首以得到理想的 IoU。吾们憧憬精心设计的奖励塑造,更好的网络架议和细粒度的参数调整能够对环境有好。总而言之,可塑性以及柔体的高解放度对深化学习算法挑出了新的挑衅。

评估轨迹优化

由于 PlasticineLab 内置可微物理引擎,吾们能够操纵基于梯度的优化为义务规划开环行为序列。在基于梯度的优化中,对于从状态最先的某个配置,初首化一个随机行为序列。模拟器将模拟整个轨迹,在每个时间步长累积奖励,并进走逆向传播以计算一切行为的梯度。然后吾们操纵基于梯度的优化手段来最大化奖励总和。倘若环境的一切新闻已知。这栽手段的现在标不是找到能够在现实世界中实走的控制器。相逆,吾们期待可微物理能够有助于有效找到解决方案,并为其他控制或深化 / 模仿学习算法铺垫基础。

在图 4 中,吾们议定绘制奖励弯线来表明可微物理的优化效率,并比较分歧梯度降落变体的性能。吾们测试 Adam 优化器(Adam)和带动量梯度降落(GD),操纵柔接触模型来计算梯度,将 Adam 优化器与硬接触模型(Adam-H)进走比较。对于每个优化器,吾们适度为每个义务选择 0.1 或 0.01 的学习率来处理分歧义务的分歧奖励水平。值得仔细的是,此处仅操纵柔接触模型来计算梯度并搜索解决方案。

吾们在硬接触环境中评估一切解决方案。在图 4 中,额外绘制了深化学习算法的训练弯线,以表明基于梯度的优化的效率。终局外明,基于优化的手段能够在数十次迭代内找到具有挑衅性义务的解决方案。Adam 在大无数义务中都优于 GD。这能够归因于 Adam 的自体面学习率缩放特性,它更正当高维物理过程的复杂亏损面。在大无数义务中,硬接触模型(Adam-H)的外现不如柔模型(Adam),这验证了柔模型清淡更容易优化的直觉。

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

图 4 在每个义务中奖励及其方差随训练 episode 数目的转折。将奖励控制为大于 0 以便更好的表明。

外 1 列出了一切手段的归一化添量 IoU 分数以及标准方差。模型的通盘知识为可微物理挑供了获得更有价值终局的机会。用 Adam 梯度降落能够在 Rope 义务中找到移动绳子并绕上柱子的手段,在 Assembly 义务中跳过次优解,将球体放在盒子上方,并且在 Chopsticks 义务中能够用筷子夹首绳子。即使对于 Move 义务也能够更好地与现在标形状对齐和更安详的优化过程,获得更好的性能。

对于基于梯度的手段,某些义务照样具有挑衅性。在 TripleMove 义务中,优化器将粒子与近来现在标形状的距离最幼化,这清淡会导致两个或三个橡皮泥荟萃到联相符个现在标位置。对于异国追求能力的基于梯度的手段来说,跳出这栽片面最幼值并不容易。优化器在必要众阶段策略的义务上也会战败,例如 Pinch 和 Writer 义务。在 Pinch 义务中操纵器必要按下物体,松开它们,然后再次按下。然而在操纵器和橡皮泥第一次接触后,球形操纵器任何片面扰动都不会立即增补奖励,优化器最后凝滞。吾们还仔细到基于梯度的手段对初首化专门敏感。实验将行为序列初首化为 0 旁边,这在大无数环境中都具有卓异的性能。

教机器人捏橡皮泥?MIT、IBM, UCSD等说相符发布柔体操作数据集

外 1 每栽手段的平均归一化添量 IoU 分数和标准方差。Adam-H 外示操纵 Adam 优化器对硬接触模型进走优化。基于深化学习的手段操纵 10000 个 episode 进走训练,基于梯度的手段操纵 200 个 episode 进走优化。

湮没钻研题目

该环境为基于学习的柔体操作挑供了雄厚的钻研机遇。实验外明,微分物理学能够使基于梯度的轨迹优化算法以极快的速度解决浅易的规划义务,由于梯度为改进策略挑供了兴旺而清亮的请示。但是,倘若义务涉及操纵器和橡皮泥之间的别离和重新连接,则梯度会消逝。当无法操纵基于片面扰动分析的基于梯度的优化时,吾们能够会考虑那些批准众步追求并累积奖励的手段,例如随机搜索和深化学习。

所以,如何将可微物理与基于采样的手段相结相符来解决柔体操作规划题目,会专门兴味。除了规划题目之外,钻研如何在这栽环境中设计和学习有效的柔体操纵控制器也专门兴味。实验终局外明控制器设计和优化仍有有余的改进空间,能够的倾向包括为深化学习设计更好的奖励函数和钻研正当的 3D 深度神经网络组织以捕获柔体动力学。

第三个兴味的倾向是将 PlasticineLab 中训练有素的策略迁移到现实世界中。固然这个题目在很大水平上未被追求,但吾们坚信吾们的模拟器能够在各栽方面挑供协助:

1. 如 Gaume 等人所示,MPM 仿真终局能够实在匹配现实世界。在异日的做事中,吾们能够会操纵模拟器为复杂义务规一致个高级轨迹,然后结相符矮级控制器来实走规划;

2. 该微分模拟器能够计算物理参数的梯度并优化参数以拟相符数据,这能够有助于缩短 sim2real 差距;

3.PlasticineLab 还能够结相符域随机化和其他 sim2real 手段。能够在该模拟器中自定义物理参数和图像渲染器以实现域随机化。吾们期待该模拟器能够行为一个很好的工具来钻研现实世界的柔体操作题目。

首先,泛化性是一个主要的追求倾向。该钻研的平台声援过程生成,能够生成和模拟分歧物体的各栽配置,评估分歧算法的通用性。PlasticineLab 也为设计雄厚的现在标条件义务挑供了卓异的平台。

【编辑保举】东莞变频器新闻

迅速学习人造智能python深度学习、keras、tensorflow、机器学习 人造智能异日的发展倾向是什么? 人造智能涉及到的周围原形有哪些?它的原理是什么? 人造智能在自动化航运物流中的行使 人是有智能的,为什么物联网必要人造智能?
当前网址:http://www.palestinetimes.net/dongguanbianpinqixinwen/564.html
tag:东莞,变频器,新闻,教,机器人,捏,橡皮泥,MIT,、,
相关新闻