星际争霸II协做匹敌基准超越SOTA,架构处理多智能体强化进修问题

7小时前 (18:06:38)阅读1回复0
xxhh
xxhh
  • 管理员
  • 注册排名4
  • 经验值120070
  • 级别管理员
  • 主题24014
  • 回复0
楼主

机器之心报导

编纂:杜伟、陈萍

那项工做又让我们回到阿谁陈词滥调的问题:Transformer 实的是全能的吗?

多智能体强化进修 (MARL) 是一个具有挑战性的问题,它不只需要识别每个智能体的战略改进标的目的,并且还需要将单个智能体的战略更新结合起来,以进步整体性能。比来,那一问题得到初步处理,有研究人员引进了集中操练分离施行 (CTDE) 的办法,使智能体在操练阶段能够拜候全局信息。然而,那些办法无法涵盖多智能体交互的全数复杂性。

事实上,此中一些办法还被证明是失败的。为领会决那个问题,有人提出多智能体优势合成定理。在此根底上,HATRPO 和 HAPPO 算法被推导出来。然而,那些办法也存在局限性,那些办法仍然依靠于精心设想的更大化目标。

近年来,序列模子(SM)在天然语言处置(NLP)范畴获得了本色性停顿。如 GPT 系列、BERT 在普遍的下流使命上表示超卓,而且在小样本泛化使命上获得了较强的性能。

因为序列模子与语言的序列特征天然契合,因而可用于语言使命,但是序列办法不只限于 NLP 使命,而是一种普遍适用的通用根底模子。例如,在计算机视觉 (CV) 中,能够将图像朋分成子图并将它们按序列摆列,就似乎它们是 NLP 使命中的 token 一样 。近期比力出名的模子 Flamingo、DALL-E 、 GATO 等都有序列办法的影子。

跟着 Transformer 等收集架构的呈现,序列建模手艺也引起了 RL 社区的极大存眷,那促进了一系列基于 Transformer 架构的离线 RL 开发。那些办法在处理一些最根本的 RL 操练问题方面展现出了浩荡的潜力。

虽然那些办法获得了显著的胜利,但没有一种办法被设想用来建模多智能系统统中最困难 (也是 MARL 独有的) 的方面——智能体之间的交互。事实上,假设简单地付与所有智能体一个 Transformer 战略,并对其停止零丁操练,那仍然不克不及包管能进步 MARL 结合性能。因而,固然有大量强大的序列模子可用,但 MARL 并没有实正操纵序列模子性能优势。

若何用序列模子处理 MARL 问题?来自上海交通大学、Digital Brain Lab、牛津大学等的研究者提出一种新型多智能体 Transformer(MAT,Multi-Agent Transformer)架构,该架构能够有效地将协做 MARL 问题转化为序列模子问题,其使命是将智能体的看测序列映射到智能体的更优动做序列。

本文的目标是在 MARL 和 SM 之间成立桥梁,以便为 MARL 释放现代序列模子的建模才能。MAT 的核心是编码器 - 解码器架构,它操纵多智能体优势合成定理,将结合战略搜刮问题转化为序列决策过程,如许多智能体问题就会表示出线性时间复杂度,最重要的是,如许做能够包管 MAT 单调性能提拔。与 Decision Transformer 等先前手艺需要预先搜集的离线数据差别,MAT 以在线战略体例通过来自情况的在线试验和错误停止操练。

论文地址: 在没见过的使命上表示较好,可是说是一个优良的小样本进修者。

布景常识

在本节中,研究者起首介绍了协做 MARL 问题公式和多智能体优势合成定理,那是本文的基石。然后,他们回忆了现有的与 MAT 相关的 MARL 办法,最初引出了 Transformer。

传统多智能体进修范式(左)和多智能体序列决策范式(右)的比照。

问题公式

协做 MARL 问题凡是由离散的部门可看察马尔可夫决策过程(Dec-POMDPs)

来建模。

多智能体优势合成定理

智能体通过 Q_π(o, a)和 V_π(o)来评估动作和看察的值,定义如下。

定理 1(多智能体优势合成):令 i_1:n 为智能体的摆列。如下公式始末成立,无需进一步假设。

重要的是,定理 1 供给了一种用于批示若何抉择渐进式改进动作的曲觉。

现有 MARL 办法

研究者总结了目前两种 SOTA MARL 算法,它们都构建在近端战略优化(Proximal Policy Optimization, PPO)之上。PPO 是一种以简洁性和性能不变性闻名的 RL 办法。

多智能体近端战略优化(MAPPO)是首个将 PPO 利用于 MARL 中的最间接办法。

异构智能体近端战略优化(HAPPO)是目前的 SOTA 算法之一,它能够足够操纵定理 (1) 以实现具有单调提拔包管的多智能体相信域进修。

Transformer 模子

基于定理 (1) 中描述的序列属性以及 HAPPO 背后的原理,如今能够曲看地考虑用 Transformer 模子来实现多智能体相信域进修。通过将一个智能体团队视做一个序列,Transformer 架构容许建模具有可变数量和类型的智能体团队,同时能够制止 MAPPO/HAPPO 的缺点。

多智能体 Transformer

为了实现 MARL 的序列建榜样式,研究者供给的处理计划是多智能体 Transformer(MAT)。利用 Transformer 架构的构想源于如许一个事实,即智能体看察序列 (o^i_1,...,o^i_n) 输进与动做序列(a^ i_1 , . . . , a^i_n)输出之间的映射是类似于机器翻译的序列建模使命。正如定理 (1) 所回避的,动做 a^i_m 依靠于先前所有智能体的决策 a ^i_1:m−1。

因而,如下图(2)所示,MAT 中包罗了一个用于进修结合看察表达的编码器和一个以自回回体例为每个智能体输出动做的解码器。

编码器的参数用φ 表达,它以肆意挨次获取看察序列(o^i_1 , . . . , o^i_n),并将它们传递通过几个计算块。每个块都由一个自重视力机造、一个多层感知机(MLP)和残差毗连构成,以避免随深度增加呈现梯度消逝和收集退化。

解码器的参数用θ表达,它将嵌进的结合动做 a^i_0:m−1 , m = {1, . . . n}(此中 a^i_0 是指示解码起头的肆意符号)传递到解码块序列。至关重要的是,每个解码块都有一个掩码的自重视力机造。为了操练解码器,研究者将如下裁剪 PPO 目标最小化。

MAT 中的详尽数据流如下动图所示。

尝试成果

为了评估 MAT 能否契合预期,研究者在星际争霸 II 多智能体挑战(SMAC)基准(MAPPO 在之上具有优胜性能)和多智能体 MuJoCo 基准上(HAPPO 在之上具有 SOTA 性能)对 MAT 停止了测试。

此外,研究者还在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基准上了对 MAT 停止了扩展测试。前者供给了一系列具有挑战性的双手操做使命,后者供给了一系列足球游戏中的协做场景。

最初,因为 Transformer 模子凡是在小样本使命上表示出强大的泛化性能,因而研究者相信 MAT 在未见过的 MARL 使命上也能具有类似强大的泛化才能。因而,他们在 SMAC 和多智能体 MuJoCo 使命上设想了零样本和小样本尝试。

协做 MARL 基准上的性能

如下表 1 和图 4 所示,关于 SMAC、多智能体 MuJoCo 和 Bi-DexHands 基准来说,MAT 在几乎所有使命上都显著优于 MAPPO 和 HAPPO,表白它在同构和异构智能体使命上强大的构建才能。此外,MAT 还得到了优于 MAT-Dec 的性能,表白了 MAT 设想中解码器架构的重要性。

同样地,研究者在 Google Research Football 基准上也得到了类似的性能成果,如下图 5 所示。

MAT 用于小样本进修

表 2 和表 3 中总结了每种算法的零样本和小样本成果,此中粗体数字表达更佳性能。

研究者还供给了数据不异情状下 MAT 的性能,其与比照组一样从头起头操练。如下表所示,MAT 获得了大大都更好功效,那证明了 MAT 小样本进修的强大泛化性能。

0
回帖

星际争霸II协做匹敌基准超越SOTA,架构处理多智能体强化进修问题 期待您的回复!

取消