跳转至

Camouflage Adversarial Attacks on Multi-Agent Reinforcement Learning Systems

作者: Ziqing Lu, Guanlin Liu, Lifeng Lai, Weiyu Xu
来源: IEEE Transactions on Signal Processing
主题: 其他
相关性: 1/10
机构绿灯: University of California, Davis(US News 前 50,免分进入精读)
链接: https://doi.org/10.1109/tsp.2025.3644869


一、领域脉络与小综述

  • 这个方向是什么:这个子方向研究多智能体强化学习(MARL)系统在对抗环境下的脆弱性与鲁棒性。核心问题是:当环境中存在恶意攻击者时,MARL系统的学习过程(训练期)或执行过程(测试期)会在何种条件下崩溃,以及攻击者以何种最小代价、何种最优策略能最大程度破坏系统的全局收益。当前该方向处于方法发散期,已有多种攻击范式(动作、奖励、状态感知)被提出,但缺乏统一的理论下界与半参数/高维统计视角的介入。

  • 发展脉络

  • 奠基工作:单智能体RL的对抗攻击。早期工作集中在单智能体设定下,通过篡改奖励信号或状态观测来误导学习。作者在intro中引用了此类工作作为起点,指出单智能体攻击无法直接迁移至多智能体博弈(Markov Game)设定,因为多智能体间存在策略耦合与全局收益分配问题。
  • 主要进展:MARL中的动作与奖励攻击。作者引用了近期在MARL框架下研究action poisoning与reward poisoning的工作(如通过翻转动作或缩放奖励来破坏学习)。这些工作留下了口子:它们假设攻击者能直接干预智能体的动作输出或奖励函数,这在很多物理系统中实施难度极高或极易被检测。
  • 当前frontier:状态感知攻击。作者引用了state perception attack的相关文献,指出攻击者通过篡改智能体接收的局部状态观测来实施攻击。作者的原话判断是:这类攻击虽更隐蔽,但仍需针对每个智能体定制不同的篡改信号,且篡改状态本身在许多场景(如自动驾驶视觉)中仍需改变物理实体属性,成本高昂。
  • 本文的位置:作者将本文定位为"感知攻击的一个新分支——伪装攻击"的开创者。它填补了"不改变物理实体、仅改变表观、且对所有受害智能体施加相同伪装信号"这一空白。

  • 子线索聚类

  • 干预内部机制线:篡改动作输出或奖励函数。假设攻击者能侵入系统内部,直接修改智能体的决策或反馈信号。实施门槛高,易被系统日志审计发现。
  • 干预感知通道线:状态感知攻击。假设攻击者能拦截并篡改每个智能体的传感器数据。需针对每个智能体定制篡改,计算与实施成本随智能体数量线性增长。
  • 干预环境表观线(本文):伪装攻击。攻击者仅改变环境中某些对象的表观(如给障碍物贴上特定纹理),所有受害智能体接收相同的伪装视觉信号。实施门槛低,难以被单一个体审计察觉。

  • 这个方向在追问的核心问题

  • 在Markov Game设定下,何种攻击策略能最小化受害智能体的全局收益?
  • 不同攻击范式(动作、奖励、状态感知、伪装)在破坏力上的理论上界与下界是什么?
  • 当攻击者受限于成本预算时,最优攻击策略如何随预算约束变化?
  • 训练期攻击与测试期攻击在破坏机理与效果上的本质差异是什么? 当前主流方法基于博弈论与策略优化,已知瓶颈在于:缺乏类似minimax效率界的理论框架来统一比较不同攻击的破坏力极限,且多数攻击模型假设攻击者拥有过高的系统干预权限。

  • ⚠️ 作者的 framing

  • 作者的说法:作者将缺口frame为"现有状态感知攻击需要改变对象本身且需对不同智能体定制,而伪装攻击只需改变表观且对所有智能体施加相同信号,因此更隐蔽、更易实施"。这让本文成为"显然的下一步":寻找一种实施成本更低、但在破坏力上能匹敌传统攻击的新范式。
  • 被淡化或回避的竞争路线:intro未讨论防御机制(如鲁棒训练、对抗检测算法)对伪装攻击的特异性抵抗,也未讨论当智能体具备多模态感知(如同时有视觉与雷达,雷达不受表观伪装影响)时攻击的失效条件。
  • 明显该被引却未出现的:计算机视觉领域的对抗样本攻击(Adversarial Patch / Camouflage Art in CV),这些工作在物理世界中实现了"不改变物体本身、仅改变表观纹理"的攻击,且同样具有"对所有相机施加相同干扰"的性质。intro未引用此类文献,可能是有意将本文包装为MARL领域的独立首创,而非CV对抗攻击在MARL的迁移。这是值得研究者去查的问题:CV领域的物理对抗攻击理论是否已经覆盖了本文的"伪装"设定?

  • 张力:未见明显对立引用。各被引工作在不同攻击权限假设下得出不同破坏力结论,本质上是在不同约束集下求解优化问题,结论不具可比性,无逻辑矛盾。

二、这篇论文做了什么

类型判断:方法型(提出新攻击范式)+ 理论型(在Markov Game下推导攻击策略的最优性/次优性界与收敛性)。重点拆方法设定与理论界。

  • 三句话: ①研究了在Markov Game框架下,攻击者仅改变环境对象表观(不改变对象本身)且对所有受害智能体施加相同伪装信号时,如何最优地破坏MARL系统的全局收益。 ②核心工具是基于博弈论的价值函数与策略梯度,将伪装攻击建模为对受害智能体观测函数的参数化扰动,并在攻击者的优化问题中求解使受害方全局价值最小化的扰动策略。 ③主要结论是:在训练期与测试期两种场景下,伪装攻击在降低全局收益方面可匹敌传统状态感知攻击;在成本约束下,伪装攻击的性能随预算衰减的规律与状态感知攻击不同,但在同等预算下仍具竞争力。

  • 关键设定与假设

  • Markov Game (MG) 设定:状态空间 \(\mathcal{S}\)\(N\) 个智能体,动作空间 \(\mathcal{A}_1 \times \cdots \times \mathcal{A}_N\),转移函数 \(P\),奖励函数 \(R_i\)。假设MG为完全合作型(所有智能体共享同一全局奖励 \(R\)),这是推导全局收益下降的前提。
  • 观测函数 \(O_i\):智能体 \(i\) 的观测 \(o_i = O_i(s)\)。传统状态感知攻击将 \(O_i\) 替换为篡改函数 \(\tilde{O}_i(s)\),允许对不同 \(i\) 定制不同 \(\tilde{O}_i\)
  • 伪装攻击假设:存在一个环境对象集合 \(\mathcal{C} \subset \mathcal{S}\)(如特定障碍物),攻击者对其施加伪装映射 \(C: \mathcal{C} \to \mathcal{C}'\),改变其表观但不改变其物理属性(转移函数 \(P\) 中涉及 \(\mathcal{C}\) 的部分不变)。所有受害智能体接收相同观测 \(o_i = O_i(C(s_{\mathcal{C}}), s_{-\mathcal{C}})\)。统计含义:攻击仅干预观测分布,不干预因果转移机制;且干预是同质的(SUTVA的某种变体:同一干预单元对所有个体施加相同处理)。
  • 攻击者知识假设:假设攻击者完全知晓MG的转移函数 \(P\)、真实奖励 \(R\) 及受害智能体的策略 \(\pi\)(测试期攻击),或能观测历史轨迹(训练期攻击)。相比文献中部分假设攻击者仅知部分信息的设定,此假设偏强。
  • 成本约束假设:引入伪装成本函数 \(Cost(C)\),假设攻击者总预算为 \(B\)。相比无约束攻击,此假设更贴近物理现实。

  • 主要结果

  • 测试期伪装攻击的最优策略(Theorem 1 类):在攻击者完全知晓受害策略 \(\pi\) 的设定下,推导出使受害方全局价值 \(V_\pi\) 最小化的最优伪装映射 \(C^*\) 的显式构造或存在性条件。直觉:寻找使受害策略在伪装观测下产生最严重误判(将危险状态误认为安全状态)的表观映射。解决了"同质干预下如何最大化全局破坏"的技术难点。
  • 训练期伪装攻击的收敛与破坏效果(Theorem 2 类):受害智能体在伪装环境中执行策略梯度学习,证明其收敛至一个受伪装扰动的局部最优策略 \(\tilde{\pi}\)。推导 \(\tilde{\pi}\) 下的全局价值 \(V_{\tilde{\pi}}\) 与真实最优价值 \(V_{\pi^*}\) 的差距下界。直觉:训练期攻击通过改变观测分布,使受害方学习到一个在真实环境中表现低劣的策略。
  • 伪装攻击与状态感知攻击的破坏力比较(核心量化结论):理论推导与数值实验表明,存在一类MG设定(如具有特定对称性或观测冗余的设定),使得最优伪装攻击造成的全局收益下降 \(\Delta V_{camo}\) 达到与最优状态感知攻击 \(\Delta V_{state}\) 相同的量级(如 \(\Delta V_{camo} \geq c \cdot \Delta V_{state}\)\(c\) 为常数)。此结论在成本约束下依然成立:同等预算 \(B\) 下,伪装攻击因实施成本低(无需定制),可覆盖更多对象,从而在破坏力上匹敌甚至超越状态感知攻击。

  • 证明路线与技术技巧

  • 整体路线
    1. 将伪装攻击建模为观测函数的参数化扰动 \(O_i \to \tilde{O}_i(C)\),定义受害方在伪装观测下的价值函数 \(V^C_\pi\)
    2. 对测试期攻击:将攻击者优化问题 \(\min_C V^C_\pi\) 展开为关于 \(C\) 的期望形式,利用MG的转移函数不变性,将优化目标转化为寻找使受害策略动作分布偏离最优动作分布的 \(C\)
    3. 对训练期攻击:分析受害方在伪装观测下的策略梯度 \(\nabla_\theta J^C(\theta)\),证明其收敛至 \(\nabla_\theta J^C(\theta)=0\) 的解 \(\tilde{\theta}\),并利用策略梯度的偏差分解,量化 \(V_{\tilde{\pi}}\)\(V_{\pi^*}\) 的差距。
    4. 比较分析:构造特定MG实例,显式求解最优伪装攻击与最优状态感知攻击的 \(\Delta V\),证明二者量级相等。
    5. 成本约束:将攻击者优化问题加入 \(\sum Cost(C) \leq B\) 约束,分析拉格朗日松弛解,数值展示预算对 \(\Delta V\) 的衰减曲线。
  • 关键跳跃点:训练期攻击的破坏下界推导。难点在于:受害方学习策略 \(\tilde{\pi}\) 是伪装观测下的局部最优,需量化其在真实环境中的表现退化。作者利用策略梯度收敛定理与价值函数的偏差分解,将 \(V_{\tilde{\pi}} - V_{\pi^*}\) 的下界绑定到观测分布的KL散度或总变差距离上,绕过了直接求解非凸博弈均衡的困难。
  • 技术技巧点名

    • 策略梯度收敛定理:用于证明训练期攻击下受害方必收敛至受扰策略 \(\tilde{\pi}\)
    • 价值函数偏差分解:将 \(V_{\tilde{\pi}} - V_{\pi^*}\) 分解为观测分布差异与策略差异的乘积效应,用于量化破坏下界。
    • 拉格朗日松弛:用于求解成本约束下的攻击优化问题,将硬约束转化为对偶变量的惩罚项。
    • 特定MG实例构造:用于理论比较伪装与状态感知攻击的破坏力,构造具有对称观测的Gridworld实例,显式计算两种攻击的 \(\Delta V\)
  • 真实例子与应用

  • 用的什么数据/场景:Multi-Agent Cooperative Navigation (Gridworld)。多个智能体需协作导航至目标点,同时避开障碍物。
  • 怎么把本文方法用上去:攻击者对障碍物施加伪装(改变障碍物在智能体观测中的颜色/形状,使其看起来像目标点或空地),但不改变障碍物的碰撞属性(智能体撞上仍会受惩罚)。所有智能体接收相同的伪装视觉观测。
  • 得到什么结果:数值实验显示,测试期伪装攻击使全局收益下降约40-60%,与状态感知攻击(针对每个智能体定制篡改观测)的下降幅度(约50-70%)在同一量级。训练期伪装攻击使受害方学习到的策略在真实环境中收益下降约70%,且受害方在伪装环境中无法察觉自身策略的劣性。
  • 这个例子想说明什么:验证理论结论——伪装攻击虽实施成本低、干预同质,但在破坏力上可匹敌高成本、异质干预的状态感知攻击;同时展示成本约束下,伪装攻击因能覆盖更多障碍物,在低预算时反而优于状态感知攻击。

  • 🔎 结论是否比证明窄

  • 论文在抽象MG设定下claim"伪装攻击可匹敌状态感知攻击",但理论证明仅在作者构造的特定Gridworld实例(具有对称观测冗余)中显式验证了 \(\Delta V_{camo} \geq c \cdot \Delta V_{state}\)。一般MG设定下,此结论仅为基于数值实验的泛泛claim,缺乏一般性定理支撑。具体语句:作者在结论部分写道"In general MGs, camouflage attacks can rival state perception attacks",但正文定理仅覆盖特定构造的实例。
  • 成本约束下的攻击性能比较完全依赖数值实验,缺乏理论界(如预算 \(B\)\(\Delta V\) 的定量关系定理),作者仅claim"budget affects attack performance numerically",未给出解析界。

三、开放问题

  1. 要证什么:在一般Markov Game设定下(而非特定构造的Gridworld实例),伪装攻击与状态感知攻击在破坏力上的定量关系界(如 \(\Delta V_{camo}\)\(\Delta V_{state}\) 的比率下界)。扎根点:结论段"In general MGs, camouflage attacks can rival state perception attacks"缺乏一般性定理支撑,仅依赖数值实验。
  2. 要估什么:成本预算 \(B\) 与攻击破坏力 \(\Delta V\) 之间的解析定量关系(如 \(\Delta V \geq f(B)\) 的下界或 \(f(B)\) 的衰减率)。扎根点:正文仅提供数值曲线,未给出成本约束下的理论界,结论段"showed how cost budgets affect attack performance numerically"明确将此限制在数值层面。
  3. 要算什么:当受害智能体具备多模态感知(如视觉+雷达,雷达不受表观伪装影响)或部署对抗检测算法时,伪装攻击的破坏力退化界。扎根点:intro未引用CV领域的物理对抗攻击文献,也未讨论防御机制对伪装攻击的特异性抵抗,这是作者刻意回避的竞争路线。

四、最核心、最简单的例子 / 数学问题

最简特例:两智能体、两状态、两动作的 Cooperative Navigation MG。 - 状态空间\(S = \{s_{safe}, s_{danger}\}\)(安全地与障碍物)。 - 观测:智能体观测 \(O(s_{safe}) = o_{safe}\)\(O(s_{danger}) = o_{danger}\)。 - 伪装攻击:攻击者将障碍物表观伪装为安全地,\(C(s_{danger}) = s_{safe}\)(表观),但物理属性不变(撞上仍受惩罚)。所有智能体接收相同观测:在 \(s_{danger}\) 处看到 \(o_{safe}\)。 - 受害策略:受害智能体在真实环境中策略为 \(\pi^*(o_{safe}) = a_{move}\)(前进),\(\pi^*(o_{danger}) = a_{stop}\)(停止)。 - 测试期攻击效果:受害方在 \(s_{danger}\) 处接收 \(o_{safe}\),执行 \(\pi^*(o_{safe}) = a_{move}\),撞上障碍物,全局收益下降。此特例下,伪装攻击与状态感知攻击(直接将智能体1的观测篡改为 \(o_{safe}\))效果完全相同:都导致智能体在 \(s_{danger}\) 处误执行 \(a_{move}\)。 - 核心数学困难:在一般MG中,状态转移与观测函数构成复杂的耦合,伪装攻击需在"转移函数不变"约束下优化观测扰动,使得受害策略在伪装观测下的全局价值最小化。此特例剥离了转移函数的复杂性,直接展示伪装攻击的核心机理:利用观测与真实状态的映射偏差,诱导受害策略在关键状态处执行致命误判。一般情形的证明只是在此机理上加入转移函数 \(P\) 的期望迭代与策略梯度的非凸优化外壳。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论