如何评估智能体的安全性能？OpenAI发布Safety Gym

2019-11-22 21:13:34 暂无阅读：1421 评论：0

近日，OpenAI发布强化学习环境Safety Gym，用于评价智能体在强化学习训练中对安全约束的执行情况。

尽管数据科学领域的大部分工作都集中在算法的规模和复杂度上，但安全同样是值得研究的问题。尤其在自动驾驶汽车等应用，机器学习系统的错误判断很可能会导致事故发生。

基于此，英特尔的Mobileye和Nvidia提出了通过框架来保证安全和合理的决策制定，这也是OpenAI发布了Safety Gym的原因。

Gym 是 OpenAI 发布的用于开发和比较强化学习算法的工具包。通过Gym可以让 AI 智能体做很多事情，比如行走、跑动，以及进行多种游戏。此前，OpenAI 发布了完整版游戏强化学习研究..——Gym Retro。

此次发布的Safety Gym是用于评价智能体在强化学习训练中对安全约束的执行情况。例如自驾车如何在训练阶段学习如何避免事故发生

OpenAI将Safety Gym描述为用于开发AI的工具套件，这些AI工具在训练时遵守安全约束，并用于比较算法的“安全性”以及避免发生错误的能力。

Safety Gym是为强化学习智能体设计的，或者是通过奖励(或惩罚)逐步刺激目标的人工智能。他们通过尝试和错误来学习，这可能是一个冒险的尝试——有时智能体的错误尝试可能会导致危险的行为。

通常情况下，智能体的行为是由一个函数来描述的，这个函数是为实现特定的目标而量身定制的，而受约束的智能体会找出实现特定结果的折中方案。

OpenAI在博客中解释道：“在正常的[强化学习]中，在训练开始时就会选择好碰撞并将其固定，”。“这里的问题是，如果按次支付的费用足够高，只要能够按时完成其行程，智能体可能不会关心它是否会发生很多碰撞……但是强化学习会受到约束，你可以在训练开始时选择可接受的碰撞率，并适当调整碰撞率，直到智能体达到该要求为止。”

为此，Safety Gym要求AI智能体可以在混乱的环境中导航，以实现目标，点击按钮或推动任务。难度分为两个级别，每次智能体执行不安全的操作时，红色警告灯会闪烁，并且会产生费用。

除了用于运行实验的代码外，Safety Gym还提供了标准的、受约束的强化学习算法。

OpenAI表示，初步结果表明，Safety Gym环境存在一系列的困难。

最简单的Safety Gym环境相对容易解决，并允许快速迭代，而最困难的环境对于当前技术来说具有挑战性。

在未来的工作中，OpenAI将改进当前Safety Gym环境的性能，来检测安全AI训练技术，并将约束强化学习与人类偏好等内隐特征结合起来。Safety Gym还望有助于制定用于衡量人工智能系统安全性的指标。