陈根：强化学习，如何增强机器人的鲁棒性？

文/陈根

双足机器人曾是科幻文学和电影的主题。在非理想地形上，早期双足机器人的形象通常是移动缓慢且笨拙的。但是随着科技的发展，它们开始能够进行更快、更有效地移动。现在，有些双足机器人已经可以适应环境和外部刺激。

虽然双足机器人发展迅速，但是其在建模以及稳定性方面依然有很大的进步空间。为此，研究人员尝试通过强化学习来训练双足机器人并获得了成功，这在很大程度地增强了机器人的鲁棒性。

事实上，在传统机器人研究中，往往需要花费很多时间和技巧给机器人建模，尤其对于双足机器人而言，一旦自身性质和周围环境发生改变，如电机坏了、地面摩擦力改变，模型就有可能就会失效。

此外，对于双足式的机器人系统而言，其非线性非常高，并且由于是高自由度的混合系统，每一次踏步都会受到地面冲击力，因此，很难获得精确模型。

要想做一个实时控制算法，就要使用相对完整的动力学模型。但是，即便具备好的模型，部署在非常高自由度的非线性系统上，也很难做到较快的实时计算。因此，使用传统方法时，很多学者都会做出权衡取舍，比如使用简化的模型来做算法控制。

然而，这样做的弊端也很明显：一方面，其无法完整利用动力学模型，从而不能充分发挥机器人系统的灵敏性；另一方面，基于模型的算法，一旦超过其稳定区域，算法很容易就会崩溃。所以，使用传统方法制造出来的机器人在稳定性方面往往有所欠缺。

针对于此，研究人员用强化学习的方法来训练机器人，通过相对完整的机器人动力系统，在仿真环境反复尝试后，机器人获得大量和环境交互的数据，从而学会用稳定步态行走。

研究人员主要使用Python对机器人进行编程，由于是双足机器人，算法控制上会更难。但用强化学习的方法训练，研究出的机器人步态算法相比传统基于模型的算法，性能显著提升，带来的鲁棒性也更强。

该机器人不仅能像人类一样前后左右地走，还能蹲着走，也能承受意料之外的负载，更能从强行推动造成的失稳状态中恢复过来。在测试期间，其右腿的两个电机损坏了，但它仍能调整其步行策略去适应。

鲁棒性增强，这也意味着，相比其他机器人，该机器人拥有更大的应用空间。未来，在发生地震时，其有望能在塌房中做救援工作；或者在快递业务中，可以充当快递员的角色。

目前，相关论文《双足机器人鲁棒参数化运动控制的强化学习》（Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots），已被机器人国际学术顶会 ICRA 收录，将有望促进双足机器人的进一步发展。

免责声明：该自媒体文章由实名作者自行发布（文字、图片、视频等版权内容由作者自行担责），且仅为作者个人观点，不代表秒送号（Miaosong.cn）立场，未经作者书面授权，禁止转载。［投诉 · 举报作者与内容］

陈根：强化学习，如何增强机器人的鲁棒性？

相关阅读

发表回复