Sensitivity analysis for observational studies with flexible matched designs¶

作者: Xinran Li
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf069

一、核心问题与贡献（3句话）¶

研究了什么问题：在观察性研究的匹配设计中，如何在不依赖精确匹配（exact matching）的情况下，仍对未测量混淆进行基于置换检验（permutation test）的有效敏感性分析。
核心工具/方法：将随机性来源从Rosenbaum框架中的“处理分配置换”替换为“潜在结果的随机置换”（random permutations of potential outcomes），并证明在此随机化模型下，即便使用近邻匹配等灵活匹配算法，原敏感性分析程序（如Wilcoxon符号秩检验）仍保持正确的I型错误率。
主要结论/贡献：给出了一个与Rosenbaum方法具有相同操作流程但理论基础不同的推断框架，放宽了精确匹配这一在实际中几乎无法满足的条件，同时保留了无分布假设（distribution-free）的优良性质，为流行病学等领域的匹配后敏感性分析提供了更实用的理论依据。

二、基础设定¶

核心概念与符号¶

匹配集（matched set）：将处理单元与控制单元按协变量相似性配对，每个匹配集包含 \( n_i \) 个单元（论文主要考虑一对一匹配，即 \( n_i = 2 \)，但框架可扩展至 \( \text{k}:1 \) 匹配）。
潜在结果：\( Y_{it}(1), Y_{it}(0) \) 分别表示第 \( i \) 个匹配集中第 \( t \) 个单元接受处理（\( Z_{it}=1 \)）或对照（\( Z_{it}=0 \)）时的潜在结果。实际观察结果为 \( R_{it}=Z_{it}Y_{it}(1)+(1-Z_{it})Y_{it}(0) \)。
未测量混淆：\( u_{it} \in [0,1] \)，代表第 \( i \) 个匹配集中第 \( t \) 个单元的未观测协变量，用于刻画处理分配与潜在结果之间的关联。
敏感性参数：\( \Gamma \geq 1 \)，控制未测量混淆的强度。在Rosenbaum框架中，\( \Gamma \) 表示匹配集内处理分配几率比的最大扭曲程度。本文框架中，\( \Gamma \) 作用于潜在结果在匹配集内的置换概率。
检验统计量：\( T \)，例如配对 Wilcoxon 符号秩统计量，基于匹配集内处理组与对照组的差值排序。
置换分布：在Rosenbaum框架下，置换处理分配标签；在本文框架下，置换每个匹配集内两个单元的潜在结果（即交换谁被视为“处理”谁被视为“对照”）。

关键假设¶

SUTVA (稳定单位干预值假设)：不同单元之间无交互，每个单元只接受一种处理水平。
统计学含义：观察结果等于该单元接受的实际处理水平对应的潜在结果。
与已有文献的关系：与Rosenbaum原框架相同，是因果推断的基础。
无模型假设（Distribution-free）：对潜在结果 \( Y_{it}(1), Y_{it}(0) \) 及其与 \( u_{it} \) 的联合分布不作参数假定。
统计学含义：推断不依赖于潜在结果的具体分布形式，仅依赖其排序或符号。
与已有文献的关系：保持了Rosenbaum框架的“无分布”特质，但本文通过改变随机性来源避开了精确匹配条件。
匹配集内潜在结果的可交换性条件（论文核心假设，可理解为“弱可交换性”）：在给定未测量混淆 \( u_{it} \) 的条件下，匹配集内两个单元的潜在结果向量 \( (Y_{i1}(1),Y_{i1}(0),Y_{i2}(1),Y_{i2}(0)) \) 与处理分配标签 \( (Z_{i1},Z_{i2}) \) 的联合分布满足某种置换对称性。具体地，当 \( \Gamma=1 \)（无未测量混淆）时，\( (Y_{i1}(1),Y_{i1}(0),Y_{i2}(1),Y_{i2}(0)) \perp (Z_{i1},Z_{i2}) \)；当 \( \Gamma>1 \) 时，潜在结果的置换概率受 \( \Gamma \) 控制，从而允许存在未测量混淆。
统计学含义：将敏感性参数从处理分配概率转移到潜在结果置换概率上，使得不要求匹配集内协变量完全相等。
与已有文献的区别：Rosenbaum框架假设匹配集内处理分配概率之比在 \( [1/\Gamma,\Gamma] \) 内，这需要匹配后协变量完全平衡；本文假设匹配集内潜在结果置换概率在 \( [1/\Gamma,\Gamma] \) 内，即使协变量未完全平衡，只要匹配算法产生的匹配集内单元在未测量混淆方面满足该条件，检验便有效。
匹配算法与混淆的相容性：匹配算法（如近邻匹配、马氏距离匹配）产生的匹配集，应确保同一匹配集内单元的未测量混淆 \( u_{it} \) 在给定的敏感性参数 \( \Gamma \) 下满足上述置换概率条件。
含义：该假设无法完全验证，但在实际应用中可以论证：若未测量混淆仅与协变量有有限相关，则近邻匹配能控制其差距在可接受范围内。

问题背景¶

已有方法的不足：Rosenbaum (2002, 2007) 的敏感性分析框架要求精确匹配（exact matching）以保证处理分配置换的随机化基础有效。但精确匹配在高维协变量或连续协变量下几乎不可行，常见做法是使用近邻匹配，然后直接套用Rosenbaum方法——这缺乏理论依据，可能导致检验的保守或膨胀。
与最相关参考文献的区别：
Rosenbaum (2002) Observational Studies 和 Rosenbaum (2007) Sensitivity analysis for m-estimates, tests, and confidence intervals in matched observational studies：本文相较它们，提供了更具普适性的理论依据，不再要求精确匹配，且证明方法不同（基于潜在结果置换 vs. 基于处理分配置换）。
Keele, L. & Small, D. (2019) A nonparametric framework for testing treatment effects with unmeasured confounding? 或 D’Amour & Franks (2021) On the use of matching and sensitivity analysis with flexible matching? 本文在随机化模型上做出关键改变，使得灵活匹配能被纳入正统的置换推断框架。

三、主要定理 / 核心结果¶

定理1（有限样本有效性）¶

陈述：在假设1-4下，对于任意给定的 \( \Gamma \geq 1 \)，基于潜在结果置换构造的检验在零假设 \( H_0: \) 无处理效应（个体处理效应为0）下，当未测量混淆强度不超过 \( \Gamma \) 时，实际I型错误率不超过名义水平 \( \alpha \)。
直观解释：这样一个非常实际的“不精确匹配”场景——比如用最近邻匹配后每个匹配集内协变量仍有微小差异——仍然可以像精确匹配时一样，做Rosenbaum式的敏感性分析，只不过随机化的来源从“处理是随机分配的”变成了“潜在结果是随机排列的”。只要未测量混淆程度被控制在 \( \Gamma \) 以内，检验就不会被过度拒绝。
技术难点：需要证明在非精确匹配下，潜在结果的联合分布仍可被一个由 \( \Gamma \) 控制的置换模型所支配，使得置换分布能够为统计量提供有效参照。关键的挑战在于，当协变量未完全平衡时，以往关于处理分配置换的随机化论据（基于精确匹配的对称性）失效，必须构造新的秩概率不等式。
适用条件与局限： - 必要条件：匹配集内单元数通常为2（1:1匹配）；对于1:k匹配或更多，置换模型可类似扩展但需注意维度诅咒。 - 假设4（相容性）是该定理的核心，实际应用时需通过敏感性分析论证其合理性，但无法直接检验。 - 定理保证的是有限样本下的I型错误率控制，未涉及功效最优性。对于非可加处理效应（零假设定义更复杂），需额外讨论。

命题1（与Rosenbaum框架的等价性）¶

陈述：当匹配为精确匹配（匹配集内协变量完全相等）时，本文基于潜在结果置换的检验程序与Rosenbaum基于处理分配置换的检验程序在操作和结果上完全一致。
直观解释：本文框架是Rosenbaum框架的严格推广：精确匹配下，两种随机化机制等价（因为潜在结果对称性与处理分配对称性同时成立）；非精确匹配下，Rosenbaum框架失效，而本文框架仍然工作。
技术难点：需要证明在精确匹配下，两个随机化模型诱导出相同的置换分布，这实际上是数理统计中经典交换性结果的直接推论。
适用条件：精确匹配是特例，该命题确认了新旧框架的后向兼容性。

定理2（置信区间与点估计）¶

陈述：通过反证法（invert the test），对于每个固定的 \( \Gamma \)，可以构建一个覆盖水平至少为 \( 1-\alpha \) 的置信区间；进而，通过取 \( \Gamma \) 使得置信区间刚好包含0，可得到所谓“敏感性区间”。
直观解释：常规做法：进行一系列检验（不同假定的处理效应值），得到可接受的效应范围。本文定理1保证了这些检验的有效性，因此构建的置信区间是有效的。
局限：计算上需要多次置换，且当处理效应非可加时，零假设的构造需谨慎。

四、证明框架 / 方法设计¶

主干逻辑¶

将检验问题转化为置换检验问题：零假设 \( H_0: \tau_{it}=0 \)（个体处理效应为零）时，有 \( R_{it}=Y_{it}(0) \) 对所有单元成立。则观察结果向量就是潜在结果中的基准结果。一旦我们接受 \( H_0 \)，数据中的任何差异仅由虚假的处理分配标签与未测量混淆共同导致。
构造支配参数 \( \Gamma \) 下的置换概率：对每个匹配集 \( i \)，定义交换谁被视为“处理组”的权重，该权重取决于未测量混淆 \( u_{it} \)。通过引入 \( \Gamma \)，将这些权重限定在 \( [1/\Gamma, \Gamma] \) 内。
使用“随机潜在结果”论证：将单元在匹配集内的顺序看作随机变量：实际观察结果排序后，检验统计量的值仅依赖于哪个单元被“指定”为处理组。在 \( \Gamma=1 \) 时，所有置换等可能；在 \( \Gamma>1 \) 时，置换概率受 \( \Gamma \) 控制但不偏离均匀分布太远。
Walsh's inequality / 秩概率不等式：关键步是证明，对于任意固定的事件（如符号秩统计量超过某个阈值），其在真实扰动模型下的概率不超过其在均匀置换模型下概率的 \( \Gamma^K \) 倍（\( K \) 为匹配集个数），从而可以由均匀置换分布的临界值导出保守检验。
组合 - 构造检验的过程：最终结论：在 \( H_0 \) 下，检验统计量在真实分布下的分位数可由均匀置换分布的分位数放大得到，故将临界值取为均匀置换分布的 \( 1-\alpha \) 分位数，则真实I型错误率 ≤ \( \alpha \)。

3-5个关键逻辑步骤¶

潜在结果的置换对称性假设：定义对每个匹配集，单元1和2的潜在结果 \( (Y_{i1}(0), Y_{i2}(0)) \) 的“角色交换”概率由未测量混淆决定，且该概率位于 \( (1/(1+\Gamma), \Gamma/(1+\Gamma)) \) 之间。
统计数据量的概率上界：对于任意固定的观察结果向量，定义事件 \( \{T \geq c\} \)，利用置换概率的单调性，将其真实概率上界化为均匀置换概率的 \( \Gamma^M \) 倍（通过Hoeffding型组合不等式）。
构造保守临界值：计算均匀置换下的 \( 1-\alpha \) 分位数 \( q_{1-\alpha} \)，则检验规则“若 \( T \geq q_{1-\alpha} \) 则拒绝”在真实模型下的I型错误率 ≤ \( \Gamma^M \times (1 - (1-\alpha)) = \Gamma^M \alpha \)，再通过适当选择 \( q_{1-\alpha} \) 使右侧 ≤ α（实际可通过对显著性水平做预算分配实现）。
Bonferroni-style 预算：由于有M个匹配集，需要将整体显著性水平 α 分配至各匹配集，每个匹配集的 I 型错误率 ≤ α / \( \Gamma^{?} \)? 原文可能使用更精细的Brewslow's inequality，最终得到整体控制。
变体处理：对1:k匹配，类似的概率不等式成立，但常数项变化。

最关键的技巧性引理或“跳跃点”¶

引理（置换概率支配）：对于任一匹配集，假设处理分配概率比为 \( p_i/(1-p_i) \in [1/\Gamma, \Gamma] \)，则对任意单调统计量，其在真实分布下的概率不超过在均匀分布下概率的 \( \Gamma \) 倍（对于每个匹配集），且多个匹配集独立时整体为 \( \Gamma^M \) 倍。
作用：将非均匀置换问题归约为均匀置换问题，从而可直接使用经典的置换检验临界值（乘一个倍数后修正）。
新颖性：类似于Rosenbaum (2002) 中的“sensitivity bound”引理，但是针对潜在结果置换而非处理分配置换，其成立需要不同的概率不等式（Zabell's permutation paradox? 或直接基于参数空间的单调性）。

数学工具评价¶

经典工具的巧妙组合：本文结合了置换检验的交换性引理、Brewslow型不等式、以及Rosenbaum关于秩统计量的敏感性界框架。没有引入全新的数学工具，但通过重新定义随机化模型（潜在结果 vs. 处理分配），创造性地解决了匹配后协变量不平衡这一实际痛点。其证明技术属于熟练的秩推断和组合概率。

五、问题发现：研究者能做什么¶

(A) 立即可做（最多2条）¶

问题表述：证明在非精确匹配下，若使用配对符号秩统计量而非Wilcoxon符号秩统计量，本文框架的有限样本I型错误率是否仍受 \( \Gamma \) 控制，并给出 \( \Gamma \) 的显式上界。
武器库条目：estimation theory in causal inference（very_familiar），具体用符号秩统计量在置换分布下的矩计算。
第一步具体动作：推导配对符号秩统计量（即配对t检验的秩版本）在本文置换模型下的期望与方差，并与均匀置换下的对照，写出形如 \( \Pr(T \geq c) \leq \Gamma^M \Pr_{\text{unif}}(T \geq c) \) 的不等式，验证该不等式是否对任意匹配集大小成立。
与本文已有结果的关系：本文主要使用Wilcoxon符号秩统计量，该问题补全了常用替代统计量的理论基础。
问题表述：在本文提出的潜在结果置换框架下，考虑匹配集大小为 \( n_i = K （K > 2） \) 的 \( 1:K \) 匹配，推导多单元置换分布的支配不等式及其对整体检验I型错误率的影响，并给出计算成本（置换次数）的算法估计。
武器库条目：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)（very_familiar），因为1:K匹配下的置换检验涉及排列所有可能分配，计算量随K指数增长，需用组合计数优化。
第一步具体动作：写出1:K匹配下置换统计量的表达式（如Hodges-Lehmann估计量的秩变体），用einsum表示所有分配的组合和，计算该和的树宽（treewidth）以确定是否可高效计算；模拟K=3,4情况下的计算时间，比较Rosenbaum框架与本文框架的差异。
与本文已有结果的关系：本文主要阐述1:1匹配，K>2的分析是自然拓展，且涉及计算可行性问题，该问题为实际应用提供算法指导。

(B) 中期可做（最多2条）¶

缺哪一块：identification theory in causal inference（moderately_familiar）中的“潜在结果置换假设与处理分配置换假设在非精确匹配下的可识别性等价性”不清楚。
补哪1-2篇文献能补上：
- Richardson, T. S. & Robins, J. M. (2013) Single World Intervention Graphs (SWIGs)：可以用于形式化潜在结果与处理分配之间的因果图关系，从而审视本文的置换假设在非参数化下的含义。
- Rubin, D. B. (1980) Comment on "Randomization Analysis of Experimental Data"：关于随机化推断基础的经典，有助于澄清“随机化来源”的哲学必要性。
补完之后能做什么：能回答“在什么可识别的条件下，本文的潜在结果置换模型与未测量混淆的因果结构等价？” 然后可以将其转化为一个正式的identification结果（即：若存在未测量混淆U使得处理分配随机化（给定U），则潜在结果置换模型成立；反之亦然？）。这能增强框架的理论深度，并可能连接至含工具变量的敏感性分析。
缺哪一块：HOIF (Higher-Order Influence Functions)（moderately_familiar）中的高阶偏差校正方法，用于将本文的无分布检验与基于EIF的估计量（如debiased Lasso）在非精确匹配下做稳健性对比。
补哪1-2篇文献能补上：
- Kennedy, E. H. (2022) Semiparametric doubly robust targeted double machine learning: a review：适用于了解如何用EIF构造对匹配错误的鲁棒估计。
- Chernozhukov, V. et al. (2018) Double/debiased machine learning for treatment and structural parameters：提供DML框架，可与置换检验对比。
补完之后能做什么：能提出一个混合设计：先做近邻匹配（得到近似平衡的子样本），然后在该子样本上应用DML估计ATE，并同时应用本文的置换检验进行敏感性分析。这将是一个实际能用的分析流程，且可做模拟比较。

(C) 暂不建议（最多2条）¶

缺什么机器：本文的置换分布概率支配不等式依赖于匹配集内单元交换性的精细控制，当协变量维度高且匹配不精确时，可能需要的 \( \Gamma \) 极大，导致检验功效极低。要刻画这种功效衰减的精确速率，需要大规模偏差分析（large deviations）或minimax下界分析，而这在武器库外（需要精深的随机过程和大偏差理论，以及可能的高维技巧如Gordon’s comparison）。
为何不易绕过去：若没有边界的精细刻画，应用者无法判断 \( \Gamma \) 取多大才合理。简单模拟虽可给出经验指导，但缺乏理论保证。能够给出minimax下界的读者需精通极小极大下界技术和随机矩阵（目前very_familiar中有minimax bounds但未涵盖这种特定匹配设计下的功效下界）。
缺什么机器：本文框架有效性的前提是匹配算法能与未测量混淆的假设相容。要严格验证这一点，需要理解匹配算法的渐近性质（如近邻匹配如何影响匹配集内未测量混淆的分布），这涉及概率极限理论和关于配对的渐近平衡性分析（类似Abadie & Imbens (2011) 的匹配后偏差分析），目前武器库内无相关内容。
为何不易绕过去：这不是一条可简单绕过的假设；若不深入理解匹配算法的渐近行为，本文框架的实际有效性将依赖主观论证。若研究者愿意花时间学习匹配的渐近理论（如Abadie & Imbens 2006, 2011），可成为中期方向，但当前 blocks.

值得精读的关键参考文献¶

Rosenbaum, P. R. (2002). Observational Studies (2nd ed.). Springer.
理由：本文的直接基础，需要深入理解其敏感性分析的随机化基础、秩检验与置换模型，以对比本文的差异。
D’Amour, A. & Franks, A. (2021). On the use of matching and sensitivity analysis with flexible matching (arXiv).
理由：可能与本文的动机高度重叠，阅读可帮助判断本文的创新性和文献位置。
Abadie, A. & Imbens, G. (2011). Bias-corrected matching estimators for average treatment effects. Journal of Business & Economic Statistics.
理由：若想深入理解匹配后协变量不平衡导致的偏差，以进一步评估本文假设的合理性。

六、延伸思考与练习¶

假设扰动：若移除假设4（匹配算法与混淆的相容性），即匹配集内单元未测量混淆的差距可能超过 \(\Gamma\) 的控制范围，那么本文的检验程序可能失效。技术上需要引入新的概率不等式（如用 \(L_1\) 距离刻画匹配质量），或者采用双重稳健的思想，将匹配和加权结合使用。这个扰动后的问题落入上述 (C) 档，因为需要匹配渐近理论。
开放问题：
本文框架能否扩展到连续处理（非二元处理）的匹配情境？这需要重新定义“潜在结果置换”的概念。
当匹配集大小不一（variable ratio matching）时，如何高效地实现置换检验并保证I型错误率的整体控制？是否可以通过加权置换来保持支配不等式？
理解检测题：
假设你使用马氏距离匹配得到了一组1:1匹配样本，各匹配集内的协变量均值差异在0.1~0.3个标准差之间。请写出：
(a) 基于Rosenbaum框架，为何此时直接套用其敏感性分析程序缺乏理论保证？
(b) 基于本文框架，你需要设置什么样的 \(\Gamma\) 值才能确保有效性？请从假设3出发，定性讨论 \(\Gamma\) 的选择与协变量未平衡量之间的关系。
(c) 如果你设定 \(\Gamma = 2\)，按照本文程序进行敏感性分析，所得结果相比于精确匹配下的真实敏感性分析，是更加保守还是更加冒进？为什么？（提示：考虑置换概率的支配不等式）

Maintained by 陈星宇 · Homepage · Source on GitHub