Local Sensitivity Under Transport Restrictions¶

作者: Hongseok Namkoong
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.04276

一、领域脉络与小综述¶

这个方向是什么：这个子方向处于因果推断、半参数效率理论与分布鲁棒优化（DRO）的交汇处，核心统计问题是：如何量化模型假设（先验限制 / inductive bias）对目标估计量的“保护价值”？ 传统的半参数效率理论通过“限制扰动方向（条件矩约束）→ 降低有效方差”来定价假设；但当假设不改变方差时（如已知倾向得分不降低 ATE 的有效方差），理论判定该假设“价值为零”，而实践中该假设却显著稳定了估计。本方向引入 Otto–Wasserstein 几何，将分布扰动从“密度重加权（score）”切换为“概率质量的空间位移”，用估计量对位移的一阶响应（局部敏感度）来重新定价假设——假设限制了允许的位移方向，敏感度的下降量即为该假设的价值。当前该方向处于概念框架刚成型、正向具体因果推断设定渗透的阶段。

发展脉络： - 奠基工作（半参数效率与扰动定价）：Hahn (1998) [16] 证明已知倾向得分不改变 ATE 的半参数有效方差；Robins et al. (1994) [31] 建立了 doubly-robust influence function 的正交结构；Chamberlain (1987) [7] 用条件矩约束刻画了限制扰动对有效方差的降低。这些工作确立了“方差定价”范式，但也留下了“方差不变 ≠ 价值为零”的缺口。 - 实践反例与经验瓶颈：Kang and Schafer (2007) [19] 在模拟中展示，轻微错配的倾向得分会剧烈 destabilize IPW/AIPW 估计量，与 Hahn 的理论预言相悖；Crump et al. (2009) [8] 提出基于重叠度水平（\(E[1/\pi_0]\)）的诊断，但只看了零阶水平，未看斜率。 - DRO 与 Wasserstein 敏感度（主要进展）：Blanchet & Murthy (2019) [5], Bartl et al. (2021) [2], Gao & Kleywegt (2023) [11] 在无限制扰动下计算了 Wasserstein DRO 的一阶系数，即 \(\sqrt{E\|\nabla\psi\|^2}\)；这些工作把 \(\nabla\psi\) 推到了前台，但未将其作为“编码假设”的工具。 - 本文的位置：本文将 [5, 2, 11] 的无限制敏感度推广到受限扰动类 \(T\)，用投影 \(\Pi_T \nabla\psi\) 定价 inductive bias，并具体化到因果推断的两个核心设定（已知倾向得分、未观测混淆），填补了 Hahn [16] 与 Kang & Schafer [19] 之间的解释鸿沟。

子线索聚类： 1. 半参数效率与正交性线索：[16, 31, 7, 4, 42, 27, 41]。核心是“用 score 扰动密度 → 用有效方差定价”。本文作者认为这条线索对“假设价值”的度量是不完备的（方差不变时失灵）。 2. Wasserstein DRO 与分布鲁棒线索：[5, 2, 11, 26, 44, 9, 3]。核心是“用位移扰动质量 → 用最坏情况目标值定价”。本文取其一阶系数，但将最坏情况从“全空间”收缩为“受限速度场 \(T\)”。 3. 因果推断全局敏感度线索：[32, 33, 40]。核心是“混淆重加权密度 → 部分识别区间”。本文作者认为重加权难以编码“混淆不能沿某方向大幅移动”的几何信念，位移预算更自然。

这个方向在追问的核心问题： 1. 当半参数有效方差对某假设不变时，该假设的统计价值究竟在哪、如何量化？ 2. 估计量对模型错配的脆弱性，究竟是由 nuisance 的“水平”（如重叠度低）决定，还是由“斜率”（如倾向得分变化陡峭）决定？ 3. 如何将先验信念（如“混淆对结局的影响是平滑的”、“倾向得分是已知的”）编码为对分布扰动的几何限制，并闭式计算其对敏感度的降低？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“经典效率理论只看方差（零阶），忽略了空间梯度（一阶斜率）； Wasserstein 敏感度能看斜率，但以往 DRO 文献未用其编码 inductive bias；本文通过限制速度场 \(T\)，填补了这一空白，并解释了 Hahn [16] 的谜题”。 - 被淡化 / 回避的路线：作者未讨论高阶敏感度（二阶 U-统计量 / HOIF），而 HOIF 正是另一条解释“方差不变但高阶偏差 / 稳定性变差”的路线（Robins et al. 2008 系列）；也未讨论部分识别下的全局敏感度与局部敏感度在有限扰动半径下的衔接（何时一阶近似失效）。 - 明显该引但未出现的文献：Robins et al. (2008) 关于 HOIF 与高阶偏差的工作；最近将 Wasserstein DRO 应用于因果推断部分识别的文献（如 Duchi et al. 2023 的工作）；半参数理论中关于“nuisance 估计误差对估计量偏差的非线性影响”的文献（如 Chernozhukov et al. 2018 DML 中 \(\|\hat\pi - \pi_0\|\) 的二阶余项分析）。这些缺失指向了“一阶局部近似是否足够”的张力。

张力：未见明显对立引用。但存在隐性张力：Hahn [16] 说“已知 \(\pi_0\) 无方差价值”，Kang & Schafer [19] 说“已知 \(\pi_0\) 有实践稳定价值”——本文用新度量（局部敏感度）调和了二者，但未与“HOIF 度量高阶偏差”的路线对话，这两条路线在“定价假设价值”上可能给出不同量化结论。

二、这篇论文做了什么¶

类型：理论型（定义、命题、闭式计算、几何解释）。

三句话： ① 研究了半参数估计量对分布扰动的局部敏感度如何通过限制扰动方向（编码先验假设）来降低，从而量化假设的统计价值。 ② 核心工具是 Otto–Wasserstein 几何下的连续性方程与分部积分，将估计量的一阶变化配对为 \(E[\nabla\psi \cdot v]\)，受限敏感度即为 \(\nabla\psi\) 在速度类 \(T\) 上的投影 dual norm。 ③ 主要结论：已知倾向得分虽不改变有效方差，但通过限制速度场切于 \(\pi_0\) 水平集，消去了敏感度中的 propensity-slope 项 \(E[\sigma_1^2 \|\nabla\pi_0\|^2 / \pi_0^3]\)，严格降低了局部敏感度；最坏未观测混淆沿 \(1/\pi_0\) 方向加载，损伤集中在重叠度最薄处。

关键设定与假设： - 观测与目标：\(O = (X, A, Y)\)，\(A \in \{0,1\}\) 为选择指示，\(Y = A Y(1)\)，目标 \(\theta_0 = E[Y(1)]\)（选择偏差下的均值，ATE 有对称类比）。识别条件：无混淆 \(Y(1) \perp A | X\)，重叠度 \(\pi_0(x) \geq \eta > 0\)。 - Assumption A（正则性）：\(O = (A, Z)\)，\(A\) 离散、\(Z\) 连续；在每个离散层 \(\{A=a\}\) 内，连续坐标有 \(C^1\) 正密度（开支撑），\(\psi\) 为 \(C^1\) 且 \(\nabla\psi \in L^2(P_0)\)；速度场 \(v\) 只位移连续坐标，\(C^1\)，诱导平方可积 score，边界处质量趋于零。 - 统计含义：排除了纯离散坐标的位移（离散变量无 Wasserstein 速度）；要求 nuisance 函数 \(\mu_1, \pi_0\) 在连续坐标上可微（这是敏感度含 \(\nabla\mu_1, \nabla\pi_0\) 的前提）；边界条件保证分部积分无边界项。 - 与已有文献对比：比经典半参数理论（只要求 \(\psi \in L^2\)）更强，新增了 \(\nabla\psi \in L^2\) 的空间可微性要求；比 DRO 文献 [5, 11]（通常要求 \(\psi\) Lipschitz）在此处具体化为 \(C^1\)。 - 速度场与扰动：\(P_t = (\text{Id} + tv)_\# P_0\)（pushforward），\(t \to 0\) 时为 Otto–Wasserstein 切向量。 - 局部敏感度定义 (Definition 1)：\(S(\theta; T) = \sup_{v \in T, \|v\|_T \leq 1} E[\nabla\psi \cdot v] = \|\nabla\psi\|_{T^*}\)（dual norm）。 - 统计含义：单位位移预算下估计量的最大一阶变化；\(T\) 编码了“模型者认为哪些方向的空间位移是合理的”。

主要结果： 1. Proposition 1（Transport derivative）：\(\frac{d}{dt}\theta(P_t)\big|_{t=0} = E_{P_0}[\nabla\psi(O) \cdot v(O)]\)。 - 直觉：连续性方程给出 score \(g_v = -\nabla \cdot (pv)/p\)，分部积分把 \(\langle \psi, g_v \rangle\) 转为 \(\langle \nabla\psi, v \rangle\)；估计量对质量位移的响应由 influence function 的空间梯度决定，而非其平均水平。 - 技术难点：边界项消失（Assumption A 保证 \(pv \to 0\)）；分部积分将“密度重加权”视角转为“质量位移”视角。 2. Proposition 2（Inductive bias as velocity restriction）：若 \(T\) 为闭凸锥（带 \(L^2\) 范数），\(S(\theta; T) = \|\Pi_T \nabla\psi\|_{L^2}\)，gap \(\|\Pi_{T^\circ} \nabla\psi\|^2\) 为假设价值。 - 直觉：Moreau 分解将 \(\nabla\psi\) 拆为锥内投影与极锥投影；限制位移方向 = 投影梯度 = 削减敏感度。 - 必要条件：\(T\) 必须是闭凸锥（或子空间），否则 dual norm 无闭式投影表示；加权范数（椭球预算）退化为 rescaling \(\sqrt{E[\nabla\psi^\top W^{-1} \nabla\psi]}\)，不适用投影公式。 3. 核心应用结果：已知倾向得分降低敏感度 (Eq. 12-13)： - 无限制敏感度：\(E\|\nabla\psi\|^2 = E[(1/\pi_0 - 1)\|\nabla\mu_1\|^2] + E[\sigma_1^2 \|\nabla\pi_0\|^2 / \pi_0^3] + E[1/\pi_0]\)。 - 已知 \(\pi_0\) 的速度类：\(T_{\text{known-}\pi} = \{v : v_x \cdot \nabla\pi_0 = 0 \text{ a.s.}\}\)（切于水平集）。 - 投影后敏感度：\(S^2(\theta; T_{\text{known-}\pi}) = E[(1/\pi_0 - 1)\|\Pi_{\nabla\pi_0^\perp} \nabla\mu_1\|^2] + E[1/\pi_0]\)。 - 价值 gap：\(S^2(\theta; T) - S^2(\theta; T_{\text{known-}\pi}) = E[(1/\pi_0 - 1)\|\Pi_{\nabla\pi_0} \nabla\mu_1\|^2] + E[\sigma_1^2 \|\nabla\pi_0\|^2 / \pi_0^3] > 0\)（除非 \(\sigma_1^2=0\) 且 \(\nabla\mu_1 \perp \nabla\pi_0\)）。 - 直觉：已知 \(\pi_0\) 消去了 propensity-slope 项（\(\|\nabla\pi_0\|^2 / \pi_0^3\)），并削减了 regression-slope 项中与 \(\nabla\pi_0\) 共线的部分；有效方差只看 \(\text{Var}(\mu_1)\) 和 \(E[\sigma_1^2/\pi_0]\)（零阶），完全无视 \(\nabla\pi_0\) 和 \(\nabla\mu_1\)（一阶斜率）。 4. 未观测混淆的敏感度 (Eq. 16-18)： - 混淆速度类：\(T_{\text{conf}} = \{(0, v_y) : \text{supp} v_y \subseteq \{a=1\}, E[A v_y^2] \leq 1\}\)。 - 最坏混淆：\(v_y^* \propto 1/\pi_0(x)\)，\(S(\theta; T_{\text{conf}}) = \sqrt{E[1/\pi_0]}\)。 - 直觉：混淆损伤集中在 \(1/\pi_0\) 最大处（重叠度最薄处）；均匀混淆的损伤仅为 \(1/\sqrt{P(A=1)}\)，最坏与均匀之比为 \(\sqrt{E[1/\pi_0] E[\pi_0]} \geq 1\)（重叠度异质性越大，放大越强）。 - 加入平滑先验（\(v_y\) 沿 \(x_e\) 方向常数）：投影 \(1/\pi_0\) 到该子空间，敏感度降为 \(\|\Pi_{V_e}(1/\pi_0)\|_{L^2(P_0^{(1)})}\)。

证明路线与技术技巧： - 整体路线： 1. 定义 pushforward 扰动 \(P_t = (\text{Id} + tv)_\# P_0\)，写出连续性方程 \(\partial_t p + \nabla \cdot (pv) = 0\)，导出 score \(g_v = -\nabla \cdot (pv)/p\)。 2. 用 pathwise differentiability \(\langle \psi, g_v \rangle\) 与分部积分，转为 \(\langle \nabla\psi, v \rangle\)（Proposition 1）。 3. 定义局部敏感度为 \(\sup_{v \in T, \|v\| \leq 1} \langle \nabla\psi, v \rangle = \|\nabla\psi\|_{T^*}\)（Definition 1）。 4. 对闭凸锥 \(T\)，用 Moreau 分解将 dual norm 闭式化为 \(\|\Pi_T \nabla\psi\|\)（Proposition 2）。 5. 具体化到因果推断：写出 AIPW 的 \(\nabla\psi\)（Eq. 10），分别构造已知 \(\pi_0\) 的切空间 \(T_{\text{known-}\pi}\) 与混淆支撑空间 \(T_{\text{conf}}\)，计算投影与 gap（Eq. 12-13, 16-18）。 - 关键跳跃点： - 从 score 到空间梯度的转换：核心是分部积分 \(\int \psi (-\nabla \cdot (pv)) d\mu = \int \nabla\psi \cdot (pv) d\mu\)。这一步把“密度重加权视角”翻转为“质量位移视角”，是全文的枢纽；边界项消失依赖 Assumption A 的 \(pv \to 0\)。 - 已知 \(\pi_0\) 的切空间刻画：\(\pi_0(x + tv_x) = \pi_0(x) + t v_x \cdot \nabla\pi_0 + o(t)\)，保持 \(\pi_0\) 点位不变要求 \(v_x \cdot \nabla\pi_0 = 0\)（切于水平集）。这是点态约束，不是全局正交 \(E[v_x \cdot \nabla\pi_0] = 0\)；后者允许一区升另一区降，前者不允许任何局部改变——这解释了为何已知 \(\pi_0\) 的价值在点态约束下严格为正。 - 技术技巧点名： - Otto–Wasserstein 切向量与连续性方程（[28, 43]）：用于把 pushforward 扰动参数化为速度场 \(v\)，并导出 score \(g_v\)。 - 分部积分 / 散度定理：把 \(\langle \psi, g_v \rangle\) 转为 \(\langle \nabla\psi, v \rangle\)，消除边界项。 - Moreau 分解（凸分析）：对闭凸锥 \(\nabla\psi = \Pi_T \nabla\psi + \Pi_{T^\circ} \nabla\psi\)，将 dual norm 闭式化为投影范数，量化 gap。 - 条件期望消去倾向得分（Eq. 15）：\(E[A v_y / \pi_0 | X] = E[v_y | X, A=1]\)，在混淆敏感度中消去了 \(\pi_0\) 的分母，使最坏混淆正比于 \(1/\pi_0\)。

真实例子与应用： - 模拟图示（Figure 1-2）： - 场景：\(X \sim \text{Unif}[0,1]\)，构造两组 \(\pi_0\) 与 \(\mu_1\)。 - Figure 1（Same level, different slope）：两组 \(\pi_0\) 均满足 \(E[1/\pi_0] = 2.00\)（重叠度水平相同），一组为宽凹陷（\(\nabla\pi_0\) 小），一组为尖凹陷（\(\nabla\pi_0\) 大）；propensity-slope 项 \(E[\|\nabla\pi_0\|^2 / \pi_0^3]\) 从 0.47 跳至 455（近千倍差异）。两组 \(\mu_1\) 均满足 \(\text{Var}(\mu_1) = 1\)（有效方差贡献相同），一组为线性（\(\nabla\mu_1\) 小），一组为 \(\sin(9\pi x)\)（\(\nabla\mu_1\) 大）；梯度能量 \(E\|\nabla\mu_1\|^2\) 从 12 跳至 808（近七十倍差异）。 - Figure 2（Worst confounder loads on thin overlap）：画出 \(v_y^* \propto 1/\pi_0(x)\) 与 \(\pi_0(x)\) 的对比，直观展示最坏混淆在重叠度最薄处加载。 - 想说明什么：验证“敏感度由斜率决定、而非水平”的理论预言；展示已知 \(\pi_0\) 消去 propensity-slope 项的量化效果；展示最坏混淆的几何形态。 - 本文无真实数据实证例子，所有图示均为构造模拟。

🔎 结论是否比证明窄： - Proposition 2 的闭式投影公式严格要求 \(T\) 为闭凸锥且范数为 \(L^2(P_0)\) 原生范数；作者在正文提到“加权范数（椭球预算）退化为 rescaling，不适用投影公式”，但未给出椭球预算下的闭式敏感度计算（只给了 \(\sqrt{E[\nabla\psi^\top W^{-1} \nabla\psi]}\) 的形式，未证明其是否为某类投影的 dual norm）。这是一个证明未覆盖但被泛泛 claim 为“自然推广”的地方。 - Eq. 13 的 gap 严格为正，条件是“\(\sigma_1^2 \neq 0\) 或 \(\nabla\mu_1\) 不正交于 \(\nabla\pi_0\) 在 \(\nabla\pi_0 \neq 0\) 的集上”；作者 claim 这解释了 Hahn [16] 的谜题，但严格来说只证明了“局部敏感度下降”，未证明“有限样本 / 有限扰动半径下的估计量稳定性下降”（一阶局部近似在有限半径下的精度未讨论）。

三、开放问题（点到为止，扎根具体语句）¶

一阶局部近似在何种扰动半径下失效？ 本文所有量化均为一阶（\(t \to 0\)），未讨论二阶余项或有限半径 \(\delta\) 下 Wasserstein DRO 展开的 \(o(\delta)\) 项何时主导。扎根点：Eq. 7 提到“when a functional Taylor expansion holds uniformly over the ball”，但未给出 \(\delta\) 的上界条件；Discussion 提到“we only look at a derivative”。
高阶 U-统计量 / HOIF 与局部敏感度的关系？ 本文用一阶 \(\nabla\psi\) 定价假设，但 HOIF 理论用二阶余项定价 nuisance 估计误差的偏差；二者在“已知 \(\pi_0\) 的价值”上是否给出一致结论？扎根点：Intro 提到“classical apparatus falls short in several respects”，但未引用 HOIF 文献；这是被回避的竞争路线。
椭球预算（加权范数）下的闭式敏感度与投影结构？ Proposition 2 只覆盖闭凸锥 + \(L^2\) 原生范数；正文提到加权范数 \(E[v^\top W v] \leq 1\) 的敏感度为 \(\sqrt{E[\nabla\psi^\top W^{-1} \nabla\psi]}\)，但未证明这是否对应某类投影、gap 如何闭式计算。扎根点：2.2 节“A weighted budget … falls outside Proposition 2; its sensitivity comes from rescaling the metric rather than projecting”。
纯离散坐标的扰动如何编码？ 本文明确限制“速度场只位移连续坐标”；对纯离散处理 \(A\) 或离散协变量，Wasserstein 位移无法直接定义。扎根点：Discussion “displacement of probability mass can only happen through continuous coordinates, a purely discrete observation carries no velocity”。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

四、最核心、最简单的例子 / 数学问题¶

最简特例：一维连续协变量 \(X \in \mathbb{R}\)，二值处理 \(A \in \{0,1\}\)，连续结局 \(Y\)，目标 \(\theta_0 = E[Y(1)]\)。

在这个特例下，所有向量退化为标量，投影退化为减去沿某方向的分量：

Influence function 的空间梯度：
\(\partial_y \psi = A / \pi_0(X)\)。
\(\partial_x \psi = \nabla\mu_1(X) (1 - A/\pi_0(X)) - A(Y - \mu_1(X)) \nabla\pi_0(X) / \pi_0(X)^2\)。
无限制敏感度：\(E[\partial_x \psi^2] + E[\partial_y \psi^2] = E[(1/\pi_0 - 1)(\nabla\mu_1)^2] + E[\sigma_1^2 (\nabla\pi_0)^2 / \pi_0^3] + E[1/\pi_0]\)。
已知 \(\pi_0\) 的切空间：
保持 \(\pi_0(X)\) 点位不变 \(\Rightarrow v_x(X) \nabla\pi_0(X) = 0\)。
在一维中，\(\nabla\pi_0(X)\) 是标量；若 \(\nabla\pi_0(X) \neq 0\)，则 \(v_x(X) = 0\)（唯一切向量是零）；若 \(\nabla\pi_0(X) = 0\)，则 \(v_x(X)\) 自由。
投影 \(\partial_x \psi\) 到切空间：在 \(\nabla\pi_0 \neq 0\) 处，\(\Pi_{\nabla\pi_0^\perp} \nabla\mu_1 = 0\)（一维中正交于非零标量只能是零）；在 \(\nabla\pi_0 = 0\) 处，\(\Pi_{\nabla\pi_0^\perp} \nabla\mu_1 = \nabla\mu_1\)。
已知 \(\pi_0\) 的敏感度：\(E[(1/\pi_0 - 1)(\Pi_{\nabla\pi_0^\perp} \nabla\mu_1)^2] + E[1/\pi_0]\)。
Gap：\(E[(1/\pi_0 - 1)(\nabla\mu_1)^2 \cdot \mathbb{I}[\nabla\pi_0 \neq 0]] + E[\sigma_1^2 (\nabla\pi_0)^2 / \pi_0^3]\)。
直觉：在一维中，已知 \(\pi_0\) 几乎完全锁死了协变量位移（\(v_x\) 在 \(\nabla\pi_0 \neq 0\) 处必须为零），从而消去了这些处的所有协变量敏感度；这比高维中“只消去沿 \(\nabla\pi_0\) 方向的分量”更极端，直观展示了“已知 \(\pi_0\) 的价值随其变化率增大而增大”。
最坏未观测混淆：
速度 \(v_y\) 仅在 \(A=1\) 处非零，预算 \(E[A v_y^2] \leq 1\)。
一阶变化 \(E[A v_y / \pi_0(X)] = E[v_y | X, A=1]\)（条件期望消去 \(\pi_0\)）。
最坏 \(v_y^* \propto 1/\pi_0(X)\)，敏感度 \(\sqrt{E[1/\pi_0]}\)。
直觉：在一维中，\(1/\pi_0(X)\) 是标量函数，最坏混淆就是在重叠度最薄（\(\pi_0\) 最小）处最大化位移，几何图像极清晰。

这个特例支撑了全文的数学内核：分部积分把 \(\langle \psi, g_v \rangle\) 翻转为 \(\langle \nabla\psi, v \rangle\)；切空间约束把 \(\nabla\psi\) 投影到 \(\nabla\pi_0\) 的正交补；gap 闭式为被投影消去的分量能量。高维一般情形只是把标量换为向量、把点态正交补换为超平面正交补，证明结构完全相同。

Maintained by 陈星宇 · Homepage · Source on GitHub

Local Sensitivity Under Transport Restrictions¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题（点到为止，扎根具体语句）¶

四、最核心、最简单的例子 / 数学问题¶

评论