“捉迷藏”也能学习？OpenAI 用其教会 AI 团队合作

图 1：OpenAI 的 AI 本身学会了若何玩捉迷藏游戏

捉迷藏的游戏自古已有之，它给无数孩子带来了无限的童年情趣。然而，如今这种陈旧游戏又在人工智能（AI）范畴被付与了新生，它不光能够揭示好多关于 AI 若何衡量其所面临的决议问题，甚至显现了 AI 与其影响局限内的其他 AI（或称近邻）互动的体式。

总部位于美国旧金山的 AI 研究公司 OpenAI 的研究人员日前揭橥论文，对捉迷藏游戏在 AI 中施展的主要感化进行了阐述。OpenAI 由特斯拉首席执行官埃隆 · 马斯克 ( Elon Musk ) 等硅谷富翁结合竖立的，并获得了职业社交网站 LinkedIn 结合创始人里德 · 霍夫曼 ( Reid Hoffman ) 等名人的支撑。

在最新揭橥的论文中，研究人员描述了大量由 AI 掌握的代理若何在虚拟情况中捉迷藏的场景，并在此过程中进修行使越来越复杂的方式来隐匿和寻找对方。测试究竟表明，竞争中的双人 AI 代理团队的自我提高速度比任何单个代理都快。论文的配合作者说，这表明正在施展感化的力量能够被行使，并适应其他 AI 范畴，以提高效率。

今天开源的捉迷藏 AI ..情况，到场了无数其他 OpenAI、DeepMind 和谷歌等公司为应对 AI 难题而供应的众源解决方案。客岁 12 月，OpenAI 发布了 CoinRun，旨在测试强化进修代理的适应性。

比来，该机构推出了 Neural MMO，即大型强化进修模拟器，能够在雷同脚色饰演游戏（RPG）的世界中练习 AI 代理。在 6 月份，谷歌旗下 Google Brain 部门开源了 Research Football Environment，这是用于练习 AI 把握足球的 3D 强化进修模拟器。DeepMind 上个月揭开了 OpenSpiel 的面纱，这是个视频游戏 AI ....。

两位配合作者在这篇最新的论文中写道：" 缔造可以解决各类复杂的、与人类相关义务的智强人工代理，一向是 AI 社区中的一个历久挑战。与人类稀奇相关的 AI 代理将是可以感知物理世界中的物体、并与之互动的代理。"

练习和玩耍

捉迷藏代理依靠于强化进修，这是一种行使奖励来鞭策软件政策朝着方针偏向成长的手艺，能够在频频试验中自我进修。近年来，与海量较量成家的强化进修取得了伟大的成功，但也有其局限性。指定奖励函数或收集演示来监视义务或者既耗时又昂贵。最进步的方式要求对专家演示数据进行监视性进修，并使用奖励进一步提高绩效。此外，单个代理在强化义务中进修的花样受到义务描述的限制；一旦代理学会认识决义务，就没有太多改善空间了。

相反，研究人员追求的是一种他们称之为 " 无偏向索求 " 的政策。在这种政策下，代理在他们对游戏世界的懂得中自由进化，以设计出缔造性的制胜策略。这雷同于 DeepMind 科学家客岁倡导的多智能体进修方式，在一项研究中，多个 AI 系统被练习为在游戏《雷神之锤 III 竞技场》 ( Quake III Arena ) 上玩 " 夺旗游戏 " ( Capture The Flag ) 。与这项研究一般，AI 代理事先没有被传授游戏划定，但他们跟着时间的推移学会了根基策略，并最终在花样上跨越了大多数人类玩家。

微软的 Suphx AI、OpenAI 的 OpenAI Five、DeepMind 的 AlphaStar 以及 Facebook 的 Pluribus，离别采用了雷同的策略来把握麻将、《刀塔 2》（Dota 2）、《星际争霸》（StarCraft II）以及德州扑克。

图 2：OpenAI 的 AI 在游戏中横穿地图

在捉迷藏游戏中，几个代理（隐藏者）必需在短时间内避开竞争敌手的视线。在此时代，这些竞争敌手被固定住，而搜刮者被指示亲切存眷隐藏者的动向。 ( 在这里，" 视线 " 是指各个代理眼前的 135 度圆锥形局限。 ) 若是代理冒险脱离游戏区太远，并被迫在随机生成的房间和墙壁中浪荡，并会是以受到责罚。它们能够拾取涣散在情况中的方针 ( 首要是箱子 ) ，这些箱子会无限日地锁定在适当的位置。

代理们在练习过程中发现了多达六种奇特的策略，每一种都能匡助它们进入下一个游戏阶段。起先，隐藏者和搜刮者只是逃跑并互相追逐，但经由大约 2500 万场捉迷藏游戏之后，隐藏者学会了经由将箱子一路移动并靠墙来构建隐藏卵翼所的策略。在进行此外 7500 万场竞赛后，搜刮者学会了移动并行使坡道跳过箱子进入逃亡所的方式。

再进行 1000 万场竞赛后，隐藏者起头将箱子构建的坡道带到游乐区的边缘并将其锁定，以防止搜刮者使用它们。最后，在总共 3.8 亿场竞赛后，搜刮者自学将箱子带到游戏区的边缘，并有效地行使它们冲进隐藏者的逃亡所中，这行使了游戏空间许可他们在不接触地面的情形下可与箱子一路移动的优势。

受过练习的代理学会了协作，例如离别将他们本身的箱子带到一个未建造好的逃亡所所在。此外，他们作为一个团队互相珍爱，试图经由在预备阶段锁定箱子来防御搜刮者的 " 箱子冲浪 "。

图 3：OpenAI 的 AI 代理跟着时间的推移而自我完美

研究人员透露，规模在这方面起到了要害感化。默认模型需要在 34 小时的..中显现 1.23 亿次才能达到将花样提拔到懂得 " 斜坡防御 " 的阶段，而且批量越大，..时间越快。例如，将参数（从汗青练习数据中进修的模型部门）的数量从 50 万增加到 580 万，样本效率就提高了 2.2 倍。

基准稳健性

为了评估代理的稳健性，研究人员设计了一套五项基准智力测试，分为两个范畴：认知和记忆。所有测试都使用与捉迷藏情况沟通的动作空间、视察空间和对象类型：

1）对象计数义务（Object Counting）权衡的是代理是否具有对象持久性的感受，即懂得事物即使在无法察觉情形下仍然存在的能力。

2）锁定和返回义务（Lock and Return），权衡代理在执行新义务时是否能够记住其原始位置。

3）在顺序锁定义务（Sequential Lock）中，四个箱子位于三个没有门但每个房间都有坡道的随机房间中，代理必需按照它们以前没有视察到的特定顺序锁定所有箱子的位置。

4）在蓝图构建义务（Construction From Blueprint）中，代理必需将箱子 ( 开放房间中的八个 ) 放置在多达四个方针位置的顶部。

5）在逃亡所构建义务（Shelter Construction）中，代理必需在圆柱体四周建造由箱子构成的逃亡所。

在五个义务的个中 3 个里，在捉迷藏情况中接管预..的代理进修速度更快，并获得了比两个基线更高的最终回报。他们在锁定和返回义务、顺序锁定义务以及蓝图构建义务义务方面做得稍好些，但在对象计数和逃亡所构建方面示意较差。

图 4：这个代理在使用坡道入侵碉堡

研究人员将利害各半的究竟归罪于既 " 纠缠 " 又难以微调的花样表征。他们写道：" 我们推想，捉迷藏预..优于基线的义务是因为反复使用进修到的特征所致，而在其余义务上优于基线的转移将需要重用进修的花样，而这要难题得多。这种评估指标强调了斥地手艺的需要性，以便将在一个情况中..的策略有效低应用到另一个情况中。"

将来工作

那么，我们能从如许的研究中获得什么？简洁的游戏划定、多代理竞争和大规模的尺度强化进修算法能够刺激代理在没有监视的情形下进修复杂的策略和花样。

研究人员写道：" 这些设置的成功激发了人们的决心，认为这些情况最终能够使代理获得无限数量的花样。这会促使它们形成以人类相关花样为中心的行为，而不是经由其他自我监视的强化进修方式生成的花样。"

这些提高不光仅会鞭策游戏设计进步。研究人员断言，他们的工作是朝着或者发生 " 物理根蒂 " 和 " 人类相关 " 行为的手艺迈出的主要一步，而且或者支撑诊断疾病、展望复杂卵白质构造和分段 CT 扫描的系统。

Alphabet 旗下 AI 公司 DeepMind 结合创始人德米斯 · 哈萨比斯 ( Demis Hassabis ) 曾透露：" 我们的游戏 AI 是我们通向通用人工智能的垫脚石。我们进行自我测试和所有这些游戏测试的原因是，它们是我们所斥地算法的便当试验场。最终，我们正在斥地能够转化到实际世界中的算法，以便处理真正具有挑战性的问题，并匡助这些范畴的专家。"

“捉迷藏”也能学习？OpenAI 用其教会 AI 团队合作

相关文章

热点文章

推荐文章