奖励随机化发现多智能体游戏中多样性战略行为，研究者提全新算法

45分钟前阅读1回复0

管理员
注册排名3
经验值93495
级别管理员
主题18699
回复0

楼主

机器之心专栏

机器之心编纂部

在那篇论文中，研究者提出了一个在 reward-space 停止摸索的新算法 RPG（Reward-Randomized Policy Gradient），而且在存在多个纳什平衡 (Nash Equilibrium, NE) 的挑战性的多智能使命中停止了尝试验证，尝试成果表白，RPG 的表示显著优于典范的 policy/action-space 摸索的算法，而且发现了良多有趣的、人类能够理解的智能体行为战略。除此之外，论文进一步提出了 RPG 算法的扩展：操纵 RR 得到的多样性战略池操练一个新的具备自适应才能的战略。

在法国启蒙思惟家卢梭（Jean-Jacques Rousseau）的《论人类不服等起源》中，提到如许一个猎鹿（StagHunt）故事：一群猎人平静地在陷阱旁期待鹿的呈现，猎到鹿的收益较大，能够让所有猎人都食饱，但是因为鹿非常机警，需要各人都耐烦期待。那个时候一只兔子呈现了，兔子体型较小，一人即可以胜利捕猎，但是响应的收益也很小。

于是每一个猎人有了两个抉择：陆续期待鹿的呈现仍是立即跳起来捕兔？假设猎人抉择立即捕兔，那么他能够捕到兔，得到较小的收益；假设猎人抉择陆续期待鹿，若所有其他猎人也都抉择了陆续期待鹿，那么他们最末能够猎到鹿，得到更大收益，但是一旦有任何一个其他猎人抉择立即捕兔，那么抉择期待鹿的猎人只能受饿（既没有捕兔，也没有时机再猎到鹿）。

图 1：StagHunt 游戏，ab=dc

我们考虑 2 个猎人的情状，然后把各类情状的收益笼统出来，就引出了博弈论中十分典范的 2x2 矩阵游戏 StagHunt。如图 1 所示，每个猎人能够施行两种动做：猎鹿（Stag，缩写为 S）和捕兔（Hare，缩写为 H），假设两个猎人都抉择猎鹿（S，S），能够得到更大收益 a（食饱）；假设两人都抉择捕兔（H，H），得到较小收益 d（需分享兔子）；假设一人猎鹿一人捕兔（S，H），那么捕兔的人得到收益 b（单独食兔），而猎鹿的人得到最小收益 c（受饿）。那些收益情状称心大小关系 a （食饱） b （单独食兔子）=d （两小我分享兔子） c （受饿）。

图 2：PPO 在 StagHunt 游戏中的表示，此中，a=4，b=3，d=1，10 个随机种子

在那个游戏中存在两个纯战略纳什平衡（Nash Equilibrium，NE）：一个是Stag NE，即两个猎人都抉择期待鹿，每一个猎人都能够得到很高的回报，但那是一个风险很高的协做战略。因为一旦此中一个猎人抉择不协做，该猎人自己的收益不会发作猛烈改变 -- 从更大收益 a（食饱）变成收益 b（单独食兔），然而，对另一名猎人来说缺失却是浩荡的 -- 从更大收益 a（食饱）变成最小收益 c（受饿）。而那个缺失（也就是 a-c）越大，意味着猎人抉择协做的风险也就越高。另一个纳什平衡是Hare NE，即两个猎人都抉择捕兔，虽然每个猎人只能得到较低的回报，但那是一个守旧的战略，因为无论对方怎么选，本身城市获得必然的收益 -- 对方选猎鹿，本身获得较大收益 b（单独食兔），对方选捕兔，本身获得较小收益 d（分享兔子）。在那个使命中，现有的强化进修算法会收敛到哪个 NE 呢？做者做了一个尝试，固定 a=4，b=3，d=1，改变 c 的取值，从图 2 能够看出：单独猎鹿的赏罚越大，现有的算法收敛到 Stag NE 的概率会越低，也就是更倾向于抉择守旧的捕兔战略。那与之前的阐发是也是吻合的。

那么，若何才气让强化进修收敛到收益更优的战略呢？为领会决那个问题，来自清华大学、北京大学、UC 伯克利等机构的研究者提出了一个简单有效的手艺，奖励随机化（Reward Randomization，RR）。差别于传统强化进修中的在形态空间（state-space）中停止摸索（exploration）的办法，奖励随机化是一个在奖励空间（reward-space）停止摸索的办法。那项研究已被 ICLR 2021 大会领受为 Poster 论文。

论文地址：

如图 3 所示，在一个奖励设置比力极端的游戏里，强化进修凡是很难摸索到更优战略（左图，灰色区域表达可能收敛到更优解的子空间，因为奖励极端而十分狭小）；但是同样的战略在其他奖励设置的游戏中可能很随便被摸索到（右图）。那就演变出论文的核心看点：通过奖励随机化对原始游戏（StagHunt）的奖励（reward）停止扰动，将问题转化为在扰动后的游戏中觅觅协做战略，然后再回到原始游戏中停止微调（fine-tune），进而找到更优战略。

图 3：奖励随机化的示企图

进一步地，论文将奖励随机化和战略梯度法（Policy Gradient，PG）相连系，提出一个在 reward-space 停止摸索的新算法 RPG（Reward-Randomized Policy Gradient）。尝试成果表白，RPG 的表示显著优于典范的 policy/action-space 摸索的算法，而且做者还操纵 RPG 发现了良多有趣的、人类能够理解的智能体行为战略。

起首，论文在 GridWorld 中停止了尝试，此中有一个使命喊 Monster-Hunt（如图 4 所示），那个使命设定是如许的：图平分别用黄色和蓝色表达两个智能体（Agent），他们能够在 5*5 格子中挪动，红色表达怪兽（Monster），怪兽能够在格子中随机游走，而且怪兽有一个特征是它会朝着离本身比来的智能体挪动。绿色表达食物苹果（Apple），苹果不克不及挪动。假设两个智能体同时碰着了怪兽，那么每个智能体将会获得 + 5 奖励，假设智能体零丁碰着了怪兽，那么他将会遭到 - 2 赏罚，智能体也能够食苹果，每个苹果将会带来 + 2 奖励。显然，在那个使命中存在两个纳什平衡，即两个智能体同时碰着怪兽（高风险，高收益）或者各自往食苹果（低风险，低收益）。

图 4：Monster-Hunt 使命示企图

图 5：在 Monster-Hunt 使命中差别算法的性能比照

图 5 给出了 RPG 与差别算法比照的成果，那些算法包罗原则的战略梯度法、智能体共享奖励的战略梯度法、population-based 算法和一些摸索（exploration）算法，包罗 MAVEN, Count-based 和 Diayn。能够看出 RPG 在那个使命中显著优于 baseline。而且从图中能够重视到，即使 RR 阶段并没有找到更优战略，RPG 仍然能够通过 fine-tune 阶段进一步提拔性能，找到更优战略。那么，RPG 到底发现了哪些战略呢？除了天然的各自零丁食苹果和零丁碰着 Monster，做者还发现了别的两种协做战略：图 6（a）展现的是发现的次优协做战略，游戏起头后，两个智能体味挪动到 5*5 格子的统一个角落，然后合体原地不动，因为怪兽的一个特征是会朝着离本身比来的智能体挪动，因而两个智能体原地不动也会一路碰着怪兽，得到较高的收益，那个协做战略看起来也非常合理，那么还有没有更优的协做战略呢？谜底是有的，图 6（b）展现的是 RPG 发现的更优战略，游戏起头后，两个智能体味起首集合，然后合体一路朝着怪兽挪动，加上怪兽也会朝着智能体挪动，那就大大加快了一路碰着怪兽的速度，因而能够得到更高的收益。图 7 是更优协做战略的演示动图。

图 6：Monster-Hunt 使命中两种差别协做战略

图 7 Monster-Hunt 使命中更优协做战略演示

接下来介绍在论文中初次开源的新情况 Agar.io，那也是该论文的一大奉献。Agar.io 是一个十分时髦的在线多玩家游戏（游戏地址：）。跟着智能体量量的增大，挪动速度也越来越慢，因而捕猎的难度也越来越大，玩家需要协做才气获得更高的收益。然而，当两个玩家间隔较近时，量量较大的玩家极有可能抉择进攻关于量量较小的玩家，从而立即获得奖励，招致协做分裂。因而，关于量量较小的玩家，那种协做战略风险很高。

图7 Agar.io 使命示企图

假设你是玩家，你会抉择什么战略呢？带着那个问题，看一下 RPG 发现的 7 种有趣的、人类能够理解的玩家战略。

（1）Cooperative strategy（协做战略，图 8）：两个玩家协做将食物驱逐至某一区域，然后别离捕食。

图 8 （a）Agar.io 使命中的协做战略（Cooperate）

图 8 （b）协做演示

（2）Aggressive strategy（倾向进攻战略，图 9）：两个玩家当两个玩家间隔较近时，量量较大的玩家抉择捕食量量较小玩家。

图 9 （a）Agar.io 使命中的进攻战略（Attack）

图 9 （b）进攻演示

（3）Non-cooperative strategy（非协做战略，图 10）：两个玩家各自零丁捕食。

图 10 Agar.io 使命中零丁捕食战略（Non-cooperate）

图 11 Agar.io 使命中偶尔进攻战略（Aggressive cooperative）

（4）Aggressive cooperative strategy（偶尔进攻战略，图 11）：两个玩家大部门时间抉择协做，偶尔也会发作进攻行为。

（5）Sacrifice strategy（献祭战略，图 12）：游戏起头后，两个玩家各自捕食，一段时间后，量量较小的玩家会在地图鸿沟期待，将本身献祭给量量较大的玩家，由量量较大的玩家掌握所有量量停止捕食。

图 12 （a）Agar.io 使命中献祭战略（Sacrifice）

图 12 （b）献祭演示

（6）Perpetual strategy（永动机战略，图 13）：游戏起头后，两个玩家各自捕食，一段时间后，量量较大的玩家会在地图鸿沟期待，量量较小的玩家驱逐食物向量量较大玩家挨近，然后捕食，之后量量较大的玩家会十分小心地食掉一部门量量较小的玩家，而量量较小的玩家剩下的部门会陆续出往驱逐食物。一段时间后，两个玩家会交换角色，循环往复，因而称为永动机。

图 13 （a）Agar.io 使命中永动机战略（Perpetual）

图 13 （b）永动机演示

（7）Balance strategy（平衡战略，图 14）：由 RPG fine-tune 之后得到的更优战略现实上是一种在互相献祭，零丁捕食和协做之间的平衡战略，从图 14 能够看出，虽然 RPG 学到的战略协做行为略低，但它的收益更高。

图 14 RPG 学出了平衡战略（Balance）

论文的最初给出了 RPG 算法的扩展：操纵战略随机化得到的多样性战略池操练一个新的具备自适应才能的战略（Adaptive policy），为了验证战略的适应性，做者在 Agar.io 种做了一个很有趣的尝试：在游戏玩到一半时切换敌手玩家的战略，然后与 Oracle 战略停止比照，如图 15 所示。例如，当敌手玩家战略由协做型切换为合作型，Adaptive 战略得到的奖励略低于合作型战略，但显著高于协做型战略；当敌手玩家战略由合作型切换为协做型，Adaptive 战略得到的奖励略低于协做型战略，但显著高于合作型战略。证明操练后的战略确实具有自适应性。

图 15 Agar.io 使命中 Adaptive 战略与 Oracle 战略成果比照，重视，只统计切换战略后的奖励

以上就是论文的次要内容，更多详尽的尝试和阐发能够查看论文原文，论文的源码以及开发的 Agar.io 情况已经开源，代码指路：。

参考链接：

论文介绍主页：

agar.io

回帖 几乎就是游戏界奇观！那假期一路来玩io游戏吧 刀剑神域虚空幻界爬虫类的龙胆麟怎么刷,刀剑神域黑衣剑士解放之石若何获取

奖励随机化发现多智能体游戏中多样性战略行为，研究者提全新算法期待您的回复！

取消

奖励随机化发现多智能体游戏中多样性战略行为，研究者提全新算法

奖励随机化发现多智能体游戏中多样性战略行为，研究者提全新算法 期待您的回复！

奖励随机化发现多智能体游戏中多样性战略行为，研究者提全新算法期待您的回复！