Covariate-adaptive randomization inference in matched designs¶

作者: Samuel D Pimentel, Yaxuan Huang
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向根植于匹配观察性研究中的因果推断。核心问题在于：在使用匹配（pair matching）构造“拟实验”的对照组后，如何对处理效应进行有效的统计推断？标准做法是假设在匹配集（如一对）内部，处理分配近似于随机，从而使用基于置换的 Fisher 随机化检验（Fisher Randomization Test, FRT）或相关的标准秩检验。然而，这一“准随机化”假设在实际中几乎必然由于匹配的不完美而违背。本文的核心贡献在于承认这种不完美，并通过对置换分布进行基于倾向性得分的协变量自适应调整，使得检验在有限样本中能接近名义 I 类错误率，从而弥合了“假设完美匹配”与“实际存在残余混杂”之间的鸿沟。

发展脉络（history）¶

奠基工作：匹配方法与均匀随机化推断的建立
Stuart (2010) 提供了关于匹配方法（近邻匹配、最优匹配等）及其用于因果推断的综合性综述，确立了将匹配视为为复制随机实验而进行的设计步骤这一基本理念。
Rosenbaum (1989), Zubizarreta (2012), Austin & Stuart (2015) 等发展了最优匹配（optimal matching）和完全匹配（full matching）等高阶匹配技术，旨在通过优化算法在给定的协变量下达到近似的平衡。
Li & Ding (2017) 提供了有限总体中心极限定理，为随机化推断在大样本下的渐近正态性提供了理论基础。
Hodges & Lehmann (1963) 的经典论文奠定了基于秩检验的统计推断基础，其思想被广泛用于匹配设计中的置换检验。
主要进展：发现并质疑“均匀随机化”假设的局限性
Sävje (2021) 严格证明了无替换匹配（matching without replacement）在有限样本下可能产生不一致的处理效应估计，根源在于匹配集的组成结构导致了处理分配的偏倚。本文引用其结论：“bias in treatment effect estimation ... and failure of Type I error control for the uniform randomization test persist even in infinite samples”。这直接挑战了传统均匀置换检验的基石。
Guo & Rothenhäusler (2022) 进一步指出，在均匀随机化假设下，即使样本量趋近无穷大，I 类错误控制也可能失效。本文引用其“failure of Type I error control for the uniform randomization test persist even in infinite samples”的结论。
Berrett, Wang, Barber & Samworth (2020) 是关键的前驱工作。他们提出了条件置换检验（Conditional Permutation Test, CPT）用于检验条件独立性。CPT 的核心思想是：当协变量 Z 存在时，我们不应该均匀地置换 X，而应该根据 X|Z 的条件分布来设计非均匀的置换分布。本文作者将其视为一条直接的技术路线，并将其从“检验条件独立性”场景迁移到“匹配观察性研究中的处理效应推断”场景。
当前 Frontier：从均匀置换走向协变量自适应置换
Zhang & Zhao (2022) 从理论层面系统阐释了“随机化检验”与“准随机化检验”的区别，强调物理随机化的不可替代性，并给出了条件随机化检验的一般框架。这为本文的理论提供了一般的背景和定位。
Branson & Bind (2017) 的工作直接相关。他们首次将随机化推断拓展到“强烈可忽略的分配机制”（即个体处理概率可不同，但已知或可估计）的情形，并开发了拒绝采样和重要性采样方法。本文的作者框架与 Branson & Bind 高度相关，但后者更关注于给定处理概率已知的理想情形。本文则将处理概率未知且需从数据中估计作为核心挑战，并展示了其理论后果（I 类错误率与估计误差的质量相关）。
其他相关进展包括：Fogarty (2018) 探讨了配对实验中的回归调整以提高效率；Caughey et al. (2021) 将 Fisher 随机化检验推广到“有界零假设”以处理异质性效应；Shaikh & Toulis (2019) 处理采用时间交错的处理分配问题。

子线索聚类¶

匹配设计与均衡性指标：Stuart (2010)、Rosenbaum (1989)、Austin & Stuart (2015)、Pimentel et al. (2015) 以及 Kallus (2020) 构成了这条线索。它们聚焦于如何通过优化算法构建匹配集（如最优匹配、核最优匹配），以最大化协变量平衡或特定的均衡性指标。本文的框架与这些设计方法紧密结合，因为本文的协变量自适应分配依赖于匹配的质量，但本文并不讨论如何构造匹配，而是假定匹配已经完成。
均匀随机化推断及其局限性：Li & Ding (2017) 提供了渐近理论基础。Sävje (2021) 和 Guo & Rothenhäusler (2022) 揭示了其局限性（在劣质匹配下的不一致和I类错误失控）。
协变量自适应随机化推断：Branson & Bind (2017)、Berrett et al. (2020) 以及本文构成了这条新兴的线索。其共同目标是用非均匀的置换分布取代均匀置换分布，以解释处理分配的概率并非恒定。本文的独特贡献在于：将这种方法应用于匹配这一特定设计，并严格处理了处理概率需从数据中估计所带来的理论挑战。

这个方向在追问的核心问题¶

I 类错误控制：如何在匹配不完美（即存在残余混杂）的情况下，保证 Fisher 随机化检验的 I 类错误率被有效控制？
功效：这种新的检验方法相较于传统的均匀置换检验，其统计功效有何变化？是否因为引入了估计噪声而降低了功效？
敏感性分析：当处理分配机制不是真正的随机（存在未观测混杂）时，如何对基于协变量自适应的推断结果进行敏感性分析？
识别与估计：这种基于设计的推断方法，与传统的基于结果回归或基于加权（如 IPW、Doubly Robust）的方法相比，在识别假设和推断性质上有何本质差异？它能否扩展到更复杂的 estimand（如 ATT、CATE）？

⚠️ 作者的 framing（必须明确标注）¶

作者把缺口 frame 成什么：作者将现有匹配研究中“假设匹配集内处理分配均匀随机”这一做法定位为主要的、根本性的缺口。他们声称，即便最优匹配也无法保证匹配对内残差的完全平衡，而由其带来的分配概率异质性（通过倾向性得分差异体现）被均匀假设所忽视。因此，本文是“显然的下一步”：既然匹配不完美，就不应该假装完美，而是要将这种不完美（估计出的倾向性得分差异）直接引入推断框架。这使得本文的方法可以无需剔除不良匹配对（避免丢弃数据）或建模结果变量（避免模型误设的风险）。
哪些竞争路线被他淡化或回避了：
以结果变量为中心的方法：如回归调整（Fogarty, 2018; Antonelli et al., 2018）或 Doubly Robust 估计（Antonelli et al., 2018; Kang & Schafer, 2007）。作者虽引用了它们的精度优势，但并未将自身的框架与这些方法进行详尽的对比（尤其是在大样本下的效率或鲁棒性）。作者似乎认为“不建模结果”是其方法的一个优势，但回避了它可能比回归调整效率更低的可能性。
高维协变量下的匹配：如 Antonelli et al. (2018) 的方法专门处理了高维混杂调整。本文的框架假设倾向性得分可以被低维或适中的协变量建模；若协变量维数远大于样本量，其理论是否能成立？（作者似乎并未考虑这种情况。）
部分识别（Partial Identification）：如 Guo et al. (2022)。在存在严重噪声或未观测混杂时，部分识别是一个主流思路。本文通过在敏感性分析中推广 Rosenbaum 的模型来应对未观测混杂，但并未与部分识别范式进行直接的比较或讨论其在 robustness 上的优劣。
什么明显该被引 / 该存在、却没出现在 intro 里？：Zhao, Small & Bhattacharya (2017) 提出的用于逆概率加权估计的边际敏感性模型（marginal sensitivity model）正是 Rosembaum 敏感性分析的推广。本文的敏感性分析推广是基于匹配的，而 Zhao 等的工作则是基于加权。两者在处理未观测混杂的思路上很相似（一个基于 bound，一个基于 Rosenbaum's Gamma），但它们之间的关系和优劣没有被讨论，这是一个明显的缺失。研究者可以自己去查一下 Zhao et al. (2017) 和本文的敏感性分析是否在某种条件下等价或互补。

张力¶

被引文献中未见明显对立引用。所有工作都在承认匹配是解决观察性研究混杂问题的重要且有效的方法，分歧主要在于“匹配之后该怎么做”：是坚持假设接近随机（而产生偏倚），还是精细建模分配机制（而增加方差和复杂性）。本文正是试图在这两者之间找到一个理论和计算上都可行的平衡点。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
i = 1, ..., I：匹配集（match set）的索引。比如 I 个配对（pair）。
j = 0, 1：匹配集内单元的索引，通常 j=0 代表对照单元，j=1 代表处理单元。每个匹配集有 n_i 个单元，但论文主要关注一对一的匹配，所以 n_i = 2，即 j=0,1。
T_{ij} ∈ {0, 1}：处理分配指示变量。在一个匹配集中，有且仅有一个处理单元 (∑_j T_{ij} = 1)。
Y_{ij}：观测到的结果变量。
(Y_{ij}(0), Y_{ij}(1))：潜在结果（Potential Outcomes）。Y_{ij}(0) 是如果未接受处理的结果，Y_{ij}(1) 是如果接受处理的结果。可观测结果是 Y_{ij} = Y_{ij}(T_{ij})。
x_{ij} ∈ R^p：观测到的协变量向量。
τ：待检验的常数加性处理效应。在 Fisher 的 sharp null 下，有 Y_{ij}(1) = Y_{ij}(0) + τ。本文主要考虑 τ = 0 (即无效应)的检验，但也通过构建置信区间来处理 τ ≠ 0。
e(x_{ij}) = Pr(T_{ij}=1 | x_{ij})：倾向性得分（true propensity score）。在匹配设计中，这是条件概率。
ê(x_{ij})：从大样本（可能是一个独立的训练集）中估计得到的倾向性得分。
p_i(τ)：在处理效应为 τ 的 sharp null 下，第 i 个匹配集内处理单元被分配为 j=1 的实际概率。在均匀假设下，p_i(τ) = 0.5。在本文的模型中，这个概率取决于匹配对内倾向性得分的差异。
模型：
数据生成：观察性研究。存在一个有限总体，每个单元有潜在结果和协变量。匹配过程（基于协变量）将总体分成 I 个匹配集，每个集合包含 n_i 个单元（通常为 2）。然后，一个未观测到的、依赖于协变量的处理分配机制决定哪个单元接受处理。我们假定这个机制满足强可忽略性（Strong Ignorability）: (Y_{ij}(0), Y_{ij}(1)) ⊥ T_{ij} | x_{ij}。在匹配集中，强可忽略性意味着 Pr(T_{ij}=1 | x_i) = e(x_{ij})，其中 x_i 是该匹配集所有协变量。
关键假设（本文核心）：在匹配集内部，处理分配不是均匀随机的。相反，其概率正比于估计的倾向性得分。作者考虑的模型是，在一个包含一个处理单元（1）和一个对照单元（0）的配对中，处理单元被分配给 j=1 的概率是 p_i(τ) = ê(x_{i1}) / (ê(x_{i0}) + ê(x_{i1}))。当 ê(x_{i1}) = ê(x_{i0}) 时退化为 0.5。
估计对象：本文的主要分析对象是在 sharp null 下的统计推断。其核心不是点估计，而是在给定的错误分配概率模型下，对 Fisher 随机化检验的 I 类错误率进行控制。
可观测数据：
可观测（Observed）：我们能观测到每个单元的处理状态 T_{ij} 和结果 Y_{ij}，以及协变量 x_{ij}。用于匹配和倾向性得分估计。
不可观测（Latent）：我们不能观测到 Y_{ij}(0) 和 Y_{ij}(1) 的全部（只能看到其中一个）。最重要的是：在 Fisher 的 sharp null H_0: Y_{ij}(1) = Y_{ij}(0) + τ 下，结果变量的所有潜在值都是可计算的。这是 Fisher 检验的魔力：一旦设定 τ，我们可以根据观测数据和假定的效应重建出所有的 Y_{ij}(0)。因此，在零假设 τ=0 或某个具体 τ 下，唯一不确定的是处理分配机制。本文正是要模拟这个不确定的分配机制。

第二步：讲最小内核¶

论文的核心思想可以用一个最简单的配对例子来理解。

最小设定：假设我们只有一个匹配对 (I=1)。假定配对里，处理单元（j=1）的估计倾向性得分 ê_1 = 0.8，对照单元（j=0）的估计倾向性得分 ê_0 = 0.2。

传统方法（均匀随机化）：它假设：在配对内部，处理单元被分配到 j=1 的概率是均匀的，即 Pr(T_1=1) = Pr(T_0=1) = 0.5。在这个假设下，如果有两个可能的结果 y_1, y_0（在 sharp null 下是固定的），我们可以计算出在所有可能的分配方案（两种）下统计量的值，做出检验。
本文方法（协变量自适应随机化）：它认为：上述假设是错的。从估计的倾向性得分来看，处理单元 (ê_1=0.8) 明显比对照单元 (ê_0=0.2) 更可能接受处理。因此，实际分配机制应该反映这一点。作者提出的模型是：处理单元被分配到 j=1 的概率正比于它的估计倾向性得分。在这个例子中，Pr(T_1=1) = 0.8 / (0.8 + 0.2) = 0.8。对照单元被分配处理的概率为 0.2。
这个最小内核的关键：论文不假设这个概率是 0.5，而是直接从估计出的倾向性得分中推导出来。这个推导出的概率 p_i 就是 ê(x_{i1}) / (ê(x_{i0}) + ê(x_{i1}))。然后，整个随机化检验基于这个非均匀的置换分布来进行。比如，如果我们有 I 个这样的配对，我们不再是从 2^I 个均匀的分配方案中抽样，而是从每个配对被赋予不同权重的 2^I 个方案中抽样。
难点与本文的贡献：这个最简例子说明了一个核心数学困难：p_i 是需要从数据中估计的，而不是已知的。如果我们真的知道 p_i，那么检验就是直接的，因为我们可以构造出确切的置换分布。但因为我们用估计的 ê 来替换真实的 e，所以置换分布本身带有估计误差。论文的核心理论贡献就是证明了：当用于估计 ê 的样本量（一个独立的大样本）足够大时，基于 ê 得到非均匀置换分布所导致的 I 类错误率，可以任意地接近名义水平。换句话说，估计误差的影响是渐进可控的。

总结：整篇论文本质上是在解决“当替换概率需要从数据中学习时，如何进行置换检验”这一通用问题的一个特例（匹配设计中的因果推断）。其数学核心就是证明经过非均匀置换后，检验统计量的渐近分布与“若概率已知”时的理想分布之间的差距可被估计误差的界控制住。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：论文研究在匹配观察性研究中，如何处理由于匹配不完美导致的处理分配非均匀性。它提出一个协变量自适应随机化推断（Covariate-adaptive Randomization Inference）框架，通过修改置换概率（使其随估计的倾向性得分差异变化）来取代传统的均匀置换假设。
核心工具 / 方法：该框架的核心是：在给定一个常数加性处理效应的 sharp null 下，用估计的倾向性得分 ê(x) 代替未知的真实倾向性得分 e(x)，定义一个非均匀置换分布：Pr(处理单元在配对 i 中被分配) = ê(x_{i1}) / (ê(x_{i0}) + ê(x_{i1}))。然后，在这个分布下进行 Fisher 随机化检验。
主要结论：论文从理论上证明，当用于估计 ê 的样本量充分大时，该检验的 I 类错误率可以任意接近名义水平。同时，它对 difference-in-means 估计量在大样本下的行为进行了刻画。此外，现有的基于 Rosenbaum 的敏感性分析方法可以自然推广到该框架。

关键设定与假设¶

设定：
匹配设计：I 个匹配对（pair matching），每对包含一个处理单元（j=1）和一个对照单元（j=0）。
处理的联合分布：在每个匹配内，有且仅有一个单元接受处理。
Sharp Null 假设：H_0: Y_{ij}(1) = Y_{ij}(0) + τ，其中 τ 是常数。本文主要聚焦 τ=0 的检验。这是一个强假设，但它是精确 Fisher 检验的核心。
估计的倾向性得分：存在一个独立的大样本（与主分析样本不重叠）用于估计倾向性得分 ê(x)。这避免了在检验中使用同一批数据带来的过拟合或双用问题。
假设（相对于已有文献的强化或放宽）：
放宽：相比于传统均匀随机化假设，本文不再假设匹配集内处理分配是均匀或近乎均匀的。
关键假设：作者将处理分配的概率与估计的倾向性得分直接挂钩。这本质上是一个强假设：它要求模型 Pr(T_{ij}=1 | x_i) ∝ ê(x_{ij}) 是接近真实数据生成过程的。如果真实分配机制与这个模型偏差很大，那么 I 类错误控制的性质就会变差。作者通过理论证明了，只要 ê 是 e 的一个好估计，那么模型就是好的。但若 e 本身不可识别或模型误设严重，则结论不保。
重要隐含假设：倾向性得分模型是正确指定的（well-specified）。论文假设 ê 是 e 的一个一致估计，并且误差以某种速率趋于零。这在实际中不一定成立。

主要结果¶

结果 1：I 类错误控制（Theorem 1）
陈述：假设倾向性得分 e(x) 的估计量 ê(x) 是以 O(n^{-δ}) 的速率绝对误差一致的（其中 n 是训练集样本量，δ > 0）。那么，基于 ê(x) 的非均匀置换检验，对于任何连续的检验统计量，其 I 类错误率 α^*_n 满足：|α^*_n - α| ≤ O(n^{-δ})，其中 α 是名义的显著性水平。
直觉：只要估计误差以足够快的速度消失（速度快于某些与匹配数 I 有关的极小值），那么基于估计的置换分布与“理想”（已知真实 e）的置换分布之间的差距就可控，从而 I 类错误被控制。
必要条件：需要有一个大样本用于估计，且估计要足够准确。这个定理将 I 类错误的膨胀与估计误差的速率直接联系起来。
结果 2：大样本行为刻画（Theorem 2）
陈述：在 sharp null 下，并且处理效应 τ 是连续的常数，则差分的估计量 mean(Y_{i1} - Y_{i0}) 在本文的协变量自适应置换分布下的渐近分布是正态的。其渐近方差与传统的均匀置换检验下的方差不同，通常更大（因为需要引入估计倾向性得分的额外噪声）。
直觉：虽然 I 类错误可被控制，但代价是方差变大。这类似于在回归中放弃 OLS 而采用加权最小二乘（WLS）所导致的效率损失。
结果 3：敏感性分析的推广（Proposition 1）
陈述：Rosenbaum 的经典敏感性分析方法可以自然地推广到协变量自适应框架。具体做法是，将 p_i(τ) = ê(x_{i1}) / (ê(x_{i0}) + ê(x_{i1})) 替换为一个受 Γ 约束的区间：[p_i / Γ, p_i * Γ]。然后，通过找到最坏情况下的 Γ 值，来判断结论对未观测混杂的敏感程度。
直觉：未观测混杂 u 会扭曲基于观测协变量估计出来的 p_i。通过引入 Γ 参数，可以模拟这种扭曲，进而在一定容忍度下评估原始结论的稳健性。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线：
建立理想置换分布： 首先，假设 e(x) 已知。那么，置换分布就是“完美”的非均匀分布。在此分布下，对于给定的检验统计量，构造一个完美的 Fisher 精确检验。这是理论参考点。
刻画估计误差的影响： 用 ê(x) 替代 e(x)。证明的关键是 衡量两个置换分布之间的离散度。作者使用了 Total Variation (TV) distance 来衡量 P_Green（基于 e 的分布）和 P_Hat（基于 ê 的分布）之间的差异。
控制 TV distance： 利用倾向性得分估计的误差界，证明 TV(P_Green, P_Hat) ≤ O(n^{-δ})。这是关键跳跃点。这依赖于 ê 与 e 的绝对偏差的界，以及大量配对（I）的累积效果。作者使用了 Hoeffding's inequality 或类似的大偏差工具来将单个配对的误差控制累积到整体。
关键跳跃点：引理 1 证明：TV(P_Green, P_Hat) ≤ 2 * sup_i |ê_i - e_i| * I。但 I 是配对数，可能很大，这个界很粗糙。真正的精细分析需要利用估计误差的随机性质，并证明 TV distance 的期望或高概率界是 O(n^{-δ})，而非 O(I * n^{-δ})。证明的难点在于，当配对数 I 远大于用于估计的样本量 n 时，I 太大，导致估计误差累积的效应无法被简单地平均掉。作者通过引入一个在 û 空间上的积分，将问题转化为计算一个随机向量的统计量期望，从而避免了界随 I 发散。
技术技巧点名：
Empirical Process / Concentration Inequality：用于刻画 ê 与 e 的收敛速度，以及控制 TV distance。具体地，使用 Hoeffding's inequality 针对每个配对的单个 |ê_i - e_i| 进行放缩。
高斯场（Gaussian field）或 U-statistics 的 CLT：用于 Proposotion 1 的证明，得到 mean(Y_{i1} - Y_{i0}) 的渐近正态性。这是一个标准的高斯近似。
渐近展开 (Edgeworth Expansion)：用于处理大样本下非正态分布时的更精细的误差控制。

真实例子与应用（有就一定要讲）¶

例子 1：焊工基因损伤数据
数据与场景：研究焊接烟雾暴露（处理）对工人基因损伤（结果，如微核率）的影响。使用了 46 对匹配（配对企业）。研究者匹配了年龄、吸烟习惯等协变量。传统方法假设内部匹配是近似随机的。
方法应用：计算了每个匹配对内处理单元和对照单元的倾向性得分（基于协变量），然后根据得分比例修改每个配对的置换概率。
结果：传统的均匀随机化检验的 p 值为 0.002，而协变量自适应随机化检验的 p 值为 0.009。两个都在统计上显著，但后者略大。这说明传统方法可能轻微高估了显著性（因为假设了完美匹配）。同时，敏感性分析显示，这个效应对于较小的 Γ 值（如 1.2）仍保持稳健。
意图：展示新方法在真实数据上比传统方法更保守（p 值更大），从而纠正了传统方法可能由于模型误设而导致的过度乐观。
例子 2：右心导管化数据
数据与场景：研究使用右心导管（处理）对患者死亡率（结果）的影响。这是一个经典的、存在争议的观察性研究问题。使用了 238 对匹配。
方法应用：类似于焊工数据，基于协变量（疾病严重程度、年龄、有关键生命体征等）估计倾向性得分。
结果：两个 p 值再次出现差别。更重要的是，新框架下的敏感性分析揭示，传统均匀假设的敏感性分析（需要 Γ ≈ 2.5 才能推翻结论）可能过于乐观；本文的敏感性分析下，一个相对温和的未观测混杂（Γ ≈ 1.8）就足以使结果不显著。这全面地展示了新方法在敏感性分析中的保守性，被认为是更严谨的做法。
意图：强调在不完美背景下，稳健性推断的重要性。新方法不仅在 I 类错误上更保守，在敏感性分析上也提供一个更低的、更现实的 minimum detectable effect，从而避免对过于脆弱的结论产生过度信心。

🔎 结论是否比证明窄¶

是。论文的所有理论证明主要集中在常数加性处理效应 τ 下的 Sharp Null 检验。结论的表述，如“I 类错误可任意接近名义水平”，严格来说只对 H_0: τ = τ_0 这种假设成立。当作者称为“covariate-adaptive randomization inference”时，它更像是一种检验特定常数效应的程序。对于异质性处理效应（如 95% 个体有效应，5% 无），该检验方法可能不再有效。作者在讨论中提到了这可以作为未来工作，但并未给出任何理论保证。
另一个窄处：证明强烈依赖独立大样本用于估计倾向性得分。在实践中，这个样本往往并不独立（例子中就是用的同一个研究样本）。作者在理论部分明确写了“we have a separate large sample”，但在应用例子中，这个条件并不满足。这意味着实证例子中的 p 值可能缺少严格的理论保证（除非样本量非常大，使估计误差足够小）。作者对此没有深入讨论。

四、开放问题（点到为止，扎根具体语句）¶

异质性处理效应的推断：本文的检验是针对常数加性效应 τ 的。但对研究者来说，更常见的是异质性效应（CATE 的分布未知）。扎根于论文末 “Extending our framework to other null hypotheses (e.g. the bounded null hypothesis of Caughey et al. (2021)) and to estimands other than the constant additive effect...” 这是未来工作。你想做这个，需要熟悉 Caughey 等（2021）关于“有界零假设”的方法。
非参数倾向性得分的估计：论文主要假设倾向性得分可以参数化（如逻辑回归）且一致估计。当协变量维数高、关系复杂时，估计误差的速率可能很慢（n^{-δ} 中 δ 很小），从而影响 I 类错误控制。扎根于 Theorem 1 的条件：“...for which the estimated propensity scores are consistent for the true propensity scores at rate O(n^{-δ})”。这个假设条件能否在非参数或高维环境下得到保证？目前这是一个开放的理论挑战。
从“Frequentist”到“可能近似正确（PAC）”视角的 I 类错误控制：本文的 I 类错误控制是渐近的。对于有限样本，我们能否给出一个明确的上界？扎根于 Theorem 1 的证明，它依赖于渐近的但尚未有限样本的界。这对应于你的“高维统计”兴趣。你可能可以用 minimax 或 non-asymptotic 理论给出一个更严格的有限样本界。
与其他协变量自适应方法（如 CPT）的正式比较：Berrett et al. (2020) 的条件置换检验（CPT）是一般性的，但被本文引用为“适应略有不同的情况”。两者在 I 类错误控制、功效、以及对于估计误差的敏感性上，是否存在本质上的一致性或差异？ 目前作者没有给出正式的对比。你可以引这个问题：扎根于 Berrett et al. (2020) 的摘要，以及本文作者在引言中 “This relies on a finite-sample central limit theorem... (Li and Ding 2017)” 的定位。这会是很好的“问题发现”机会。

Maintained by 陈星宇 · Homepage · Source on GitHub