Camouflage Adversarial Attacks on Multi-Agent Reinforcement Learning Systems¶

作者: Ziqing Lu, Guanlin Liu, Lifeng Lai, Weiyu Xu
来源: IEEE Transactions on Signal Processing
主题: 其他
相关性: 1/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1109/tsp.2025.3644869

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究多智能体强化学习（MARL）系统在对抗环境下的脆弱性与鲁棒性。核心问题是：当环境中存在恶意攻击者时，MARL系统的学习过程（训练期）或执行过程（测试期）会在何种条件下崩溃，以及攻击者以何种最小代价、何种最优策略能最大程度破坏系统的全局收益。当前该方向处于方法发散期，已有多种攻击范式（动作、奖励、状态感知）被提出，但缺乏统一的理论下界与半参数/高维统计视角的介入。
发展脉络：
奠基工作：单智能体RL的对抗攻击。早期工作集中在单智能体设定下，通过篡改奖励信号或状态观测来误导学习。作者在intro中引用了此类工作作为起点，指出单智能体攻击无法直接迁移至多智能体博弈（Markov Game）设定，因为多智能体间存在策略耦合与全局收益分配问题。
主要进展：MARL中的动作与奖励攻击。作者引用了近期在MARL框架下研究action poisoning与reward poisoning的工作（如通过翻转动作或缩放奖励来破坏学习）。这些工作留下了口子：它们假设攻击者能直接干预智能体的动作输出或奖励函数，这在很多物理系统中实施难度极高或极易被检测。
当前frontier：状态感知攻击。作者引用了state perception attack的相关文献，指出攻击者通过篡改智能体接收的局部状态观测来实施攻击。作者的原话判断是：这类攻击虽更隐蔽，但仍需针对每个智能体定制不同的篡改信号，且篡改状态本身在许多场景（如自动驾驶视觉）中仍需改变物理实体属性，成本高昂。
本文的位置：作者将本文定位为"感知攻击的一个新分支——伪装攻击"的开创者。它填补了"不改变物理实体、仅改变表观、且对所有受害智能体施加相同伪装信号"这一空白。
子线索聚类：
干预内部机制线：篡改动作输出或奖励函数。假设攻击者能侵入系统内部，直接修改智能体的决策或反馈信号。实施门槛高，易被系统日志审计发现。
干预感知通道线：状态感知攻击。假设攻击者能拦截并篡改每个智能体的传感器数据。需针对每个智能体定制篡改，计算与实施成本随智能体数量线性增长。
干预环境表观线（本文）：伪装攻击。攻击者仅改变环境中某些对象的表观（如给障碍物贴上特定纹理），所有受害智能体接收相同的伪装视觉信号。实施门槛低，难以被单一个体审计察觉。
这个方向在追问的核心问题：
在Markov Game设定下，何种攻击策略能最小化受害智能体的全局收益？
不同攻击范式（动作、奖励、状态感知、伪装）在破坏力上的理论上界与下界是什么？
当攻击者受限于成本预算时，最优攻击策略如何随预算约束变化？
训练期攻击与测试期攻击在破坏机理与效果上的本质差异是什么？当前主流方法基于博弈论与策略优化，已知瓶颈在于：缺乏类似minimax效率界的理论框架来统一比较不同攻击的破坏力极限，且多数攻击模型假设攻击者拥有过高的系统干预权限。
⚠️ 作者的 framing：
作者的说法：作者将缺口frame为"现有状态感知攻击需要改变对象本身且需对不同智能体定制，而伪装攻击只需改变表观且对所有智能体施加相同信号，因此更隐蔽、更易实施"。这让本文成为"显然的下一步"：寻找一种实施成本更低、但在破坏力上能匹敌传统攻击的新范式。
被淡化或回避的竞争路线：intro未讨论防御机制（如鲁棒训练、对抗检测算法）对伪装攻击的特异性抵抗，也未讨论当智能体具备多模态感知（如同时有视觉与雷达，雷达不受表观伪装影响）时攻击的失效条件。
明显该被引却未出现的：计算机视觉领域的对抗样本攻击（Adversarial Patch / Camouflage Art in CV），这些工作在物理世界中实现了"不改变物体本身、仅改变表观纹理"的攻击，且同样具有"对所有相机施加相同干扰"的性质。intro未引用此类文献，可能是有意将本文包装为MARL领域的独立首创，而非CV对抗攻击在MARL的迁移。这是值得研究者去查的问题：CV领域的物理对抗攻击理论是否已经覆盖了本文的"伪装"设定？
张力：未见明显对立引用。各被引工作在不同攻击权限假设下得出不同破坏力结论，本质上是在不同约束集下求解优化问题，结论不具可比性，无逻辑矛盾。

二、这篇论文做了什么¶

类型判断：方法型（提出新攻击范式）+ 理论型（在Markov Game下推导攻击策略的最优性/次优性界与收敛性）。重点拆方法设定与理论界。

三句话： ①研究了在Markov Game框架下，攻击者仅改变环境对象表观（不改变对象本身）且对所有受害智能体施加相同伪装信号时，如何最优地破坏MARL系统的全局收益。 ②核心工具是基于博弈论的价值函数与策略梯度，将伪装攻击建模为对受害智能体观测函数的参数化扰动，并在攻击者的优化问题中求解使受害方全局价值最小化的扰动策略。 ③主要结论是：在训练期与测试期两种场景下，伪装攻击在降低全局收益方面可匹敌传统状态感知攻击；在成本约束下，伪装攻击的性能随预算衰减的规律与状态感知攻击不同，但在同等预算下仍具竞争力。
关键设定与假设：
Markov Game (MG) 设定：状态空间 \(\mathcal{S}\)，\(N\) 个智能体，动作空间 \(\mathcal{A}_1 \times \cdots \times \mathcal{A}_N\)，转移函数 \(P\)，奖励函数 \(R_i\)。假设MG为完全合作型（所有智能体共享同一全局奖励 \(R\)），这是推导全局收益下降的前提。
观测函数 \(O_i\)：智能体 \(i\) 的观测 \(o_i = O_i(s)\)。传统状态感知攻击将 \(O_i\) 替换为篡改函数 \(\tilde{O}_i(s)\)，允许对不同 \(i\) 定制不同 \(\tilde{O}_i\)。
伪装攻击假设：存在一个环境对象集合 \(\mathcal{C} \subset \mathcal{S}\)（如特定障碍物），攻击者对其施加伪装映射 \(C: \mathcal{C} \to \mathcal{C}'\)，改变其表观但不改变其物理属性（转移函数 \(P\) 中涉及 \(\mathcal{C}\) 的部分不变）。所有受害智能体接收相同观测 \(o_i = O_i(C(s_{\mathcal{C}}), s_{-\mathcal{C}})\)。统计含义：攻击仅干预观测分布，不干预因果转移机制；且干预是同质的（SUTVA的某种变体：同一干预单元对所有个体施加相同处理）。
攻击者知识假设：假设攻击者完全知晓MG的转移函数 \(P\)、真实奖励 \(R\) 及受害智能体的策略 \(\pi\)（测试期攻击），或能观测历史轨迹（训练期攻击）。相比文献中部分假设攻击者仅知部分信息的设定，此假设偏强。
成本约束假设：引入伪装成本函数 \(Cost(C)\)，假设攻击者总预算为 \(B\)。相比无约束攻击，此假设更贴近物理现实。
主要结果：
测试期伪装攻击的最优策略（Theorem 1 类）：在攻击者完全知晓受害策略 \(\pi\) 的设定下，推导出使受害方全局价值 \(V_\pi\) 最小化的最优伪装映射 \(C^*\) 的显式构造或存在性条件。直觉：寻找使受害策略在伪装观测下产生最严重误判（将危险状态误认为安全状态）的表观映射。解决了"同质干预下如何最大化全局破坏"的技术难点。
训练期伪装攻击的收敛与破坏效果（Theorem 2 类）：受害智能体在伪装环境中执行策略梯度学习，证明其收敛至一个受伪装扰动的局部最优策略 \(\tilde{\pi}\)。推导 \(\tilde{\pi}\) 下的全局价值 \(V_{\tilde{\pi}}\) 与真实最优价值 \(V_{\pi^*}\) 的差距下界。直觉：训练期攻击通过改变观测分布，使受害方学习到一个在真实环境中表现低劣的策略。
伪装攻击与状态感知攻击的破坏力比较（核心量化结论）：理论推导与数值实验表明，存在一类MG设定（如具有特定对称性或观测冗余的设定），使得最优伪装攻击造成的全局收益下降 \(\Delta V_{camo}\) 达到与最优状态感知攻击 \(\Delta V_{state}\) 相同的量级（如 \(\Delta V_{camo} \geq c \cdot \Delta V_{state}\)，\(c\) 为常数）。此结论在成本约束下依然成立：同等预算 \(B\) 下，伪装攻击因实施成本低（无需定制），可覆盖更多对象，从而在破坏力上匹敌甚至超越状态感知攻击。
证明路线与技术技巧：
整体路线：
1. 将伪装攻击建模为观测函数的参数化扰动 \(O_i \to \tilde{O}_i(C)\)，定义受害方在伪装观测下的价值函数 \(V^C_\pi\)。
2. 对测试期攻击：将攻击者优化问题 \(\min_C V^C_\pi\) 展开为关于 \(C\) 的期望形式，利用MG的转移函数不变性，将优化目标转化为寻找使受害策略动作分布偏离最优动作分布的 \(C\)。
3. 对训练期攻击：分析受害方在伪装观测下的策略梯度 \(\nabla_\theta J^C(\theta)\)，证明其收敛至 \(\nabla_\theta J^C(\theta)=0\) 的解 \(\tilde{\theta}\)，并利用策略梯度的偏差分解，量化 \(V_{\tilde{\pi}}\) 与 \(V_{\pi^*}\) 的差距。
4. 比较分析：构造特定MG实例，显式求解最优伪装攻击与最优状态感知攻击的 \(\Delta V\)，证明二者量级相等。
5. 成本约束：将攻击者优化问题加入 \(\sum Cost(C) \leq B\) 约束，分析拉格朗日松弛解，数值展示预算对 \(\Delta V\) 的衰减曲线。
关键跳跃点：训练期攻击的破坏下界推导。难点在于：受害方学习策略 \(\tilde{\pi}\) 是伪装观测下的局部最优，需量化其在真实环境中的表现退化。作者利用策略梯度收敛定理与价值函数的偏差分解，将 \(V_{\tilde{\pi}} - V_{\pi^*}\) 的下界绑定到观测分布的KL散度或总变差距离上，绕过了直接求解非凸博弈均衡的困难。
技术技巧点名：
- 策略梯度收敛定理：用于证明训练期攻击下受害方必收敛至受扰策略 \(\tilde{\pi}\)。
- 价值函数偏差分解：将 \(V_{\tilde{\pi}} - V_{\pi^*}\) 分解为观测分布差异与策略差异的乘积效应，用于量化破坏下界。
- 拉格朗日松弛：用于求解成本约束下的攻击优化问题，将硬约束转化为对偶变量的惩罚项。
- 特定MG实例构造：用于理论比较伪装与状态感知攻击的破坏力，构造具有对称观测的Gridworld实例，显式计算两种攻击的 \(\Delta V\)。
真实例子与应用：
用的什么数据/场景：Multi-Agent Cooperative Navigation (Gridworld)。多个智能体需协作导航至目标点，同时避开障碍物。
怎么把本文方法用上去：攻击者对障碍物施加伪装（改变障碍物在智能体观测中的颜色/形状，使其看起来像目标点或空地），但不改变障碍物的碰撞属性（智能体撞上仍会受惩罚）。所有智能体接收相同的伪装视觉观测。
得到什么结果：数值实验显示，测试期伪装攻击使全局收益下降约40-60%，与状态感知攻击（针对每个智能体定制篡改观测）的下降幅度（约50-70%）在同一量级。训练期伪装攻击使受害方学习到的策略在真实环境中收益下降约70%，且受害方在伪装环境中无法察觉自身策略的劣性。
这个例子想说明什么：验证理论结论——伪装攻击虽实施成本低、干预同质，但在破坏力上可匹敌高成本、异质干预的状态感知攻击；同时展示成本约束下，伪装攻击因能覆盖更多障碍物，在低预算时反而优于状态感知攻击。
🔎 结论是否比证明窄：
论文在抽象MG设定下claim"伪装攻击可匹敌状态感知攻击"，但理论证明仅在作者构造的特定Gridworld实例（具有对称观测冗余）中显式验证了 \(\Delta V_{camo} \geq c \cdot \Delta V_{state}\)。一般MG设定下，此结论仅为基于数值实验的泛泛claim，缺乏一般性定理支撑。具体语句：作者在结论部分写道"In general MGs, camouflage attacks can rival state perception attacks"，但正文定理仅覆盖特定构造的实例。
成本约束下的攻击性能比较完全依赖数值实验，缺乏理论界（如预算 \(B\) 与 \(\Delta V\) 的定量关系定理），作者仅claim"budget affects attack performance numerically"，未给出解析界。

三、开放问题¶

要证什么：在一般Markov Game设定下（而非特定构造的Gridworld实例），伪装攻击与状态感知攻击在破坏力上的定量关系界（如 \(\Delta V_{camo}\) 与 \(\Delta V_{state}\) 的比率下界）。扎根点：结论段"In general MGs, camouflage attacks can rival state perception attacks"缺乏一般性定理支撑，仅依赖数值实验。
要估什么：成本预算 \(B\) 与攻击破坏力 \(\Delta V\) 之间的解析定量关系（如 \(\Delta V \geq f(B)\) 的下界或 \(f(B)\) 的衰减率）。扎根点：正文仅提供数值曲线，未给出成本约束下的理论界，结论段"showed how cost budgets affect attack performance numerically"明确将此限制在数值层面。
要算什么：当受害智能体具备多模态感知（如视觉+雷达，雷达不受表观伪装影响）或部署对抗检测算法时，伪装攻击的破坏力退化界。扎根点：intro未引用CV领域的物理对抗攻击文献，也未讨论防御机制对伪装攻击的特异性抵抗，这是作者刻意回避的竞争路线。

四、最核心、最简单的例子 / 数学问题¶

最简特例：两智能体、两状态、两动作的 Cooperative Navigation MG。 - 状态空间：\(S = \{s_{safe}, s_{danger}\}\)（安全地与障碍物）。 - 观测：智能体观测 \(O(s_{safe}) = o_{safe}\)，\(O(s_{danger}) = o_{danger}\)。 - 伪装攻击：攻击者将障碍物表观伪装为安全地，\(C(s_{danger}) = s_{safe}\)（表观），但物理属性不变（撞上仍受惩罚）。所有智能体接收相同观测：在 \(s_{danger}\) 处看到 \(o_{safe}\)。 - 受害策略：受害智能体在真实环境中策略为 \(\pi^*(o_{safe}) = a_{move}\)（前进），\(\pi^*(o_{danger}) = a_{stop}\)（停止）。 - 测试期攻击效果：受害方在 \(s_{danger}\) 处接收 \(o_{safe}\)，执行 \(\pi^*(o_{safe}) = a_{move}\)，撞上障碍物，全局收益下降。此特例下，伪装攻击与状态感知攻击（直接将智能体1的观测篡改为 \(o_{safe}\)）效果完全相同：都导致智能体在 \(s_{danger}\) 处误执行 \(a_{move}\)。 - 核心数学困难：在一般MG中，状态转移与观测函数构成复杂的耦合，伪装攻击需在"转移函数不变"约束下优化观测扰动，使得受害策略在伪装观测下的全局价值最小化。此特例剥离了转移函数的复杂性，直接展示伪装攻击的核心机理：利用观测与真实状态的映射偏差，诱导受害策略在关键状态处执行致命误判。一般情形的证明只是在此机理上加入转移函数 \(P\) 的期望迭代与策略梯度的非凸优化外壳。

Maintained by 陈星宇 · Homepage · Source on GitHub

Camouflage Adversarial Attacks on Multi-Agent Reinforcement Learning Systems¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论