Bridging the gap between design and analysis: randomization inference and sensitivity analysis for matched observational studies with treatment doses¶

作者: Jeffrey Zhang, Siyu Heng
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1.1 这个方向是什么¶

这个子方向解决的根本问题是：在观察性研究中，通过匹配设计调整可观测混杂后，如何对剂量型处理（连续或有序，非二元）进行严谨的随机化推断（即假设检验）和敏感性分析（即评估结果对未测混杂的敏感度）。当前成熟度存在明显的不对称：对于二元处理（如治疗/对照）的匹配设计，随机化推断和敏感性分析已相当成熟（有大量现成方法和软件包）；但对剂量型处理，除了少数特殊设计（如配对），大部分方法都不覆盖，尤其是Neyman 型弱零假设（关于样本平均处理效应类似物）和非二元结果的 Fisher 精确零假设。本文旨在填补这个空白。

1.2 发展脉络¶

从奠基到前沿，被引工作串成一条主线：

奠基阶段（1980s–2000s）：Rosenbaum 提出并完善了匹配观察性研究的随机化推断与敏感性分析框架。Rosenbaum (1987, 1989) 等奠基工作确立了“以匹配设计为基，通过置换检验进行推断”的核心范式，并定义了 Rubin 敏感性分析模型（即偏差函数 \(\Gamma\)），为后续所有敏感性分析工作打下了基础。这个时期的框架主要针对二元处理（治疗/对照）和配对设计。
主要进展 I：二元处理的匹配设计全面化。Fogarty (2018) 改进了精细分层实验的方差估计，使得 Neyman 型弱零假设检验在二元处理的平衡情况下效率更高。Fogarty (2019) 系统性地解决了二元处理匹配设计中 Neyman 弱零假设的敏感性分析问题，指出了在效应异质性下为保证检验有效性需要付出的保守性代价。Karoly 等（例如，同样是 Fogarty 及其合作者的工作），完善了整类设计在二元处理情形下的方法论体系。
主要进展 II：剂量型匹配设计的算法与推断探索。Zhang, Mackay & Baiocchi (2020) 提出了针对连续剂量的最优子分类算法（双标准、多项式时间），并指出结合子分类与回归调整可以减少模型依赖性。Zhang, Heng, Mackay & Ye (2020) 在偏好-工具变量设计中使用非二分匹配构造鼓励试验，并将随机化推断扩展到平均集群效应比（a type of Neyman-type 弱零问题，但针对的是比率）。Zhang, Small & Heng (2024) 针对连续处理和二元结果，在配对设计下给出了第一个有效的敏感性分析框架，但仅限于配对和二元结果。Chattopadhyay, Imai & Zubizarreta (2023) 将设计为基础的推断推广到更一般的随机干预设定，但主要处理的是网络实验而非剂量型观察性研究。
当前前沿 → 本文的位置：已有工作要么限于二元处理（Fogarty 2019, 2023），要么限于特殊的设计（对剂量，Zhang et al. 2024 仅限配对和二元结果；Muñoz & van der Laan 2012 使用基于模型而非匹配的框架也处理了随机干预）。本文是第一个在一般匹配设计（如1:k匹配、全匹配）下，同时覆盖 Fisher 精确零假设（非二元结果）和 Neyman 型弱零假设（剂量处理的样本平均效应类似物）的随机化推断和敏感性分析框架，并且它不限于二元结果。

1.3 子线索聚类¶

被引文献大致落在三条子线索上：

设计阶段：匹配与非平衡算法。这簇工作关注如何构造好的匹配样本，以最小化设计偏差。代表为 Zhang et al. (2020)、《Statistical matching and subclassification with a continuous dose》等，以及 Yu et al. (2023) 关于近-远匹配在大数据集中的高效算法。本文不直接提供新匹配算法，而是假设存在一个已做好的匹配设计，然后进行下游推断。
推断阶段：随机化检验与 Neyman 型弱零。这簇工作关注匹配后如何利用随机化分布检验假设。Fogarty (2017, 2019, 2023) 属于这簇，核心贡献是处理二元处理在复杂匹配设计（而非简单配对）下的弱零问题。本文将其扩展到剂量。
敏感性分析阶段：针对未测混杂的界限评估。Rosenbaum (2018) 对任意分层的敏感性分析给出了通用计算方法，但涉及可分离近似。Zhang et al. (2024) 首次将敏感性分析扩展到配对设计下的剂量和二元结果。本文进一步将其扩展到一般匹配，且结果非二元。

1.4 核心问题与瓶颈¶

这个方向在追问的核心问题有 2-3 个：

效应异质性下的弱零检验如何保持有效性？ 当允许单位水平处理效应（无论是二元还是剂量）存在差异时，基于置换的 Neyman 型检验通常会变得太过保守（如果还使用在常数效应下设计的方差估计器）。Fogarty (2019) 示范了此问题在二元处理情况下的表现。在剂量处理下，这个问题更复杂，因为处理效应是多维的比较。
非二元结果的 Fisher 精确零假设的敏感性分析如何实现？ 当结果不是二元的（如连续或有序），传统置换检验方法生效，但 Rosenbaum 的界限方法要么不可行，要么需要困难的优化。Rosenbaum (2018) 为一般分层（非配对）提供了解决方案，但此问题在剂量处理的匹配设计中仍是未解决的。
一般匹配设计（如全匹配、1:k匹配）下，剂量处理的随机化分布怎么计算？ 在配对设计中，配对内顺序是明确的（高剂量 vs. 低剂量），随机化是二项式的简单的。在一般匹配设计中，每个匹配组有多个具有不同剂量的个体，随机化分布变得复杂，需要匹配组内剂量的排序结构。该结构在配对设计中消失了，在一般设计中需要系统地处理。

瓶颈：如何将匹配组间的“剂量秩”结构（即 \(q_i\) 参数，如给每个匹配组中的个体按其剂量排序）与 Rosenbaum 的偏差函数平滑结合，既得到稳健的敏感性界限，又不会使偏差函数的可能性空间丢失太多可能性（否则界会变得太宽，失去用处）。

1.5 作者的 framing（⚠️ 标明为作者说法）¶

作者将自己的缺口定位为：

"对于许多常见的匹配设计（如1:k匹配、全匹配等），在包含处理剂量的情形下，仍缺乏以下方法： (1) 关于 Fisher 零假设，当结果非二元时无有效敏感性分析; (2) 关于 Neyman 零假设（样本平均效应类似物），根本没有随机化推断或敏感性分析方法。[原文：Introduction, p. 第1–2段]"

因此，他们这篇文章成了“显然的下一步”：把 Fisher 的精确零假设的敏感性分析从二元的剂量、配对的设计搬到一般的剂量和一般的结果；同时，第一次引入剂量处理的Neyman 弱零假设（他们定义为“修正样本平均剂量效应”，即剂量-秩效应的Sample Average Treatment effect on the Ordered dose set, 以下简称 SATO）的检验。

被淡化的竞争路线：作者以匹配设计为基础，使用了“设计-检验”分离的框架，基于 Rosenbaum 的置换+偏差函数。与此相反，另一条路线是用半参数效率理论（如 TMLE, A-IPTW，见 Muñoz & van der Laan 2012 或 van der Laan 的系列工作）来估计剂量响应函数，再通过波动函数（如模型 misspecification 设置）来进行敏感性分析。后者不需要匹配，因此不受“匹配组内结构”的限制，可处理任意剂量（通过 IPTW 或 DR），但是它基于的混杂调整是模型驱动的，而不是设计的。作者回避了对这条路线进行系统性比较。

什么明显应存在但没出现在引言里：关于“基于方差调整的设计下推断不变性”方面，Cryder et al. (2022) 等研究了在随机化破译困难的设计（如分层）时利用重抽样提高计算效率的方法。针对“更紧的”Neyman 型置信区间的文献（如基于渐近的多步过程）也未引用。这也许意味着作者聚焦于有限样本、精确的随机化推断，未考虑去靠渐近精度来提升检验力。

1.6 张力¶

被引工作之间未见明显对立引用。不同学者（如 Fogarty 和 Rosenbaum 的追随者）对 Neyman 弱零假设的实现路径有不同偏重，但都接受保守型是必要的。Zhang et al. (2024) 与本文来自同一实验室的队伍，前后连续扩展，属于方法的阶梯式推进，而非对立。

二、最核心、最简单的例子 / 数学问题¶

2.1 符号、模型与可观测数据¶

在展开技术之前，把本文记号交代清楚（后文会逐次展开）：

记号	含义	类型
\(N\)	总样本量	样本量
\(M\)	匹配组的数量	维度指标
\(S_m\)	第 \(m\) 个匹配组，包含 \(n_m\) 个个体（\(m=1,\dots, M\)；\(\sum_{m=1}^M n_m = N\)）	组结构
\(i\)	个体下标，一般情况下指第 \(m\) 组中的第 \(k\) 个个体	随机变量 / 个体
\(Z_{mk}\)	第 \(m\) 组中第 \(k\) 个个体的处理剂量（连续或有序）	随机变量（可观测）
\(Y_{mk}\)	观测到的结果变量（二元、有序或连续）	随机变量（可观测）
\(q_{1,mk}\)	剂量秩：每个个体在组内按剂量排序得到的秩（如组内最小剂量 = 秩 1）	可计算的确定性/随机函数
\(q_{2,mk}\)	结果秩：同理，在组内按结果排序得到的秩	同上
\(Y_{mk}(z)\)	潜在结果：如果将剂量 \(z\) 施加给个体 \((m,k)\)。不可观测	潜在/反事实量
\(B\)	偏差函数 \(\Gamma\geq 1\)。在敏感性分析中，一对个体在匹配组内的“处理分配概率之比”被带到 \([\frac{1}{\Gamma}, \Gamma]\)	参数（敏感性分析的调节参数）
\(\beta\)	模式参数（如在比例效应模型中）：用于将剂量秩与结果秩关联的效应量（用于构造检验统计量权重）	参数（可估计或假设）
\(\overline{\tau}\)	样本平均剂量-秩效应（Sample Average Treatment effect on the ordered set）：在匹配组内，将较高秩剂的组员与较低秩剂的组员比较，取所有比较（乘以相应权重）的平均值。是 Neyman 弱零假设对应后的 estimand。	有限总体参数（estimand）
Fisher 精确零假设 \((H_F)\)	对每个个体，处理剂量与潜在结果完全独立；即，在固定所有个体潜在结果的情况下，处理变量的随机化分布没有任何影响。数学上：\(Y_{mk}(z) = Y_{mk}(0)\) 对任意 \(z\) 和所有 \((m,k)\) 成立，或等价地，观测结果仅是潜在结果的跳到被观察剂量。	零假设
Neyman 弱零假设 \((H_W)\)	\(\overline{\tau} = 0\)——对应剂量秩的平均处置效应为零。注意它允许有些个体有效应、有些无。	零假设

可观测 vs 不可观测：

可观测：每个个体 \((m,k)\) 能够观测到的变量的组合 (Z_{mk}, Y_{mk}, 匹配组的协变向量 X_{mk}（匹配基于此）)。匹配后，所有组的协变量分布已经平衡，所以 X 不再出现在推断阶段（被设计所吸收）。

不可观测 / 潜在：潜在结果 \(Y_{mk}(z)\)；所有其他剂量下的结果，以及可能导致偏倚的未测混杂。此外，如果考虑匹配构造步骤，理想的匹配应该是“完全抛弃错配”——假设我们的匹配是完全准确的（即没有错配），但这个假设在真实数据中通常不被验证，造成了设计中的隐藏偏差。

模型（数据生成机制）：没有写出全套的生成模型（因为这是“设计-基础”的），但内核是匹配后的处理分配模型：

在没有未测混杂时（\(H_F\) 为真），处理分配在匹配组内是条件随机的（给定匹配组的协变量分布，每个个体按其恒定概率在组内分配到一个处理值）。实际中，只有正态理论中假设概率已知。

在敏感性分析（引入偏差因子 \(\Gamma\)）中，该随机化模式被参数化上限（用 \(\Gamma\) 进行）。

2.2 最小内核：最简单的特例¶

取 \(n_m = 2\)（即每个匹配组恰好含 2 个个体，配对设计），结果变量是连续的，处理剂量连续但已在组内排序（即每对中的一个是“高剂量”组，一个是“低剂量”组），无效应异质性（这里简化，不是一般设定）。用于说明核心思想的各细节褪去后的最小内核问题如下。

记号简化为：对每对 \(m\)，有高剂量个体（\(Z_{m1} > Z_{m2}\)）和低剂量个体。令 \(D_m = 1\) 表示高剂量方（在配对内被分配了高剂量）的差；配对内的处理效应比较是点差 \(D_m = Y_{m,\text{高}} - Y_{m,\text{低}}\)。

Fisher 精确零假设例子：如果 \(H_F\) 成立，那么在每对中，两个结果之差 \(D_m\) 的分布是完全由潜在结果固定（常数）的；分配过程是“哪一边成高剂量”是随机的（1/2 概率）。因此，平均 \(\overline{D} = \frac{1}{M} \sum_m D_m\) 的随机化方差已知等于 \(\frac{1}{M^2} \sum_{m}^M \left(D_m - \overline{D}\right)^2\)。检验统计量：\(\frac{\overline{D}}{\text{Var}_{\text{perm}}(\overline{D})^{1/2}}\) 是标准化差值。在 \(H_F\) 下，它趋近于标准正态分布，所以拒绝/接受是直接的。
Neyman 弱零假设例子：这里允许每个个体的效应不同。仍假设配对。但我们现在关心样本平均剂量效应（SATO）\(\overline{\tau}\)——也就是，取每个配对中的高-低差，再平均：\(\overline{\tau} = \frac{1}{M} \sum_m \tau_m\)。对每个对，我们有 \(D_m\) 是有偏的估计量（因为每对的两个个体其实仅测量了一个各自的潜在结果，而另一方的结果可能是反事实的）。实际上，在常数效应假设外，方差计算需要在每对内部进行波动性估计。根据 Neyman 经典的方差估计，最保守的上界为：\(\text{Var}(\overline{D}) \le \frac{1}{M} \sum_m (D_m - \overline{D})^2\)。弱零检验就基于这个上界进行。
把这个最小例子与本文的联系：上述配对设计是本文的一般化目标的退化情形。当每个匹配组大小 \(n_m=2\)，且随机化分布临时变成二项式（每对中的个人分配只有两个可能）时：
对 Fisher 零假设：配对下，对所有结果类型的置换检验和敏感性分析早已存在（Rosenbaum 2002）。本文贡献在于将此推广到 \(n_m>2\) 情形（一般匹配设计）。
对 Neyman 零假设：配对下，Fogarty (2019) 已经给出了敏感性分析框架。本文将其推广到一般匹配设计，且针对的 estimand 是剂量秩差而非二元。

2.4 核心思路（最小破解法）¶

回到 \(n_m=2\)。机密在于：差异变量 \(D_m\) 在组内构成了对称的“随机化分布”。在一般匹配（\(n_m > 2\)）下，这个结构复杂了：不能找单一对比对（因为组内有多个不同的剂量），因此需要对每一组内剂量秩（\(q_{1,mk}\)）与结果秩（\(q_{2,mk}\)）计算某种积分或双秩关联量，作为汇总的检验统计量。本文的统一思路是：

把每个匹配组内的处理“分配”看成是对组内剂量顺序的随机置换——组内剂量向量 \((Z_{m1}, \dots, Z_{m n_m})\) 被分配到一个固定顺序（对应着组内位置），但因为缺乏真正的随机化，我们构造“想象的随机化”时，只需假设给定潜在结果条件下剂量秩的置换等可能（若 \(H_F\) 为真）。
对于 Fisher 零假设，检验量选用 双秩相关系数（\(q_1\)（秩剂量）和 \(q_2\)（秩结果）之间的某种关联度量 e.g., Spearman's rho 或其加权版本），并在给定组内顺序下计算随机化 p 值。
对于 Neyman 弱零假设，使用“剂量秩差”作为均值，需要在组内通过“两种可能剂量秩分配”（而非全数量）来计算 Neyman 的方差界限，最终得到类似二项式的结论：\(\overline{\tau}\) 的估计量为 \(\frac{1}{M}\) 用每个组内的秩差均值，方差则被估计为组间差异的某一经验方差，乘以一个因子（考虑了各组大小不等）。

现在的文章正是建立了这一整套框架，扩展了配对到一般匹配，覆盖两种零假设并且引入敏感性分析来控制未测混杂。

三、这篇论文做了什么（≥45% 篇幅）¶

3.1 三句话¶

针对配对的剂量观察性研究的一般匹配设计（如1:k匹配、全匹配），本文提出了覆盖 Fisher 精确零假设（对任意非二元结果）和 Neyman 弱零假设（涉及样本平均剂量-秩效应）的新的随机化推断与敏感性分析方法。
核心工具是“剂量秩函数”与“结果秩函数”的双秩统计量（Double Rank Test, DRT），配合组内置换检验实现对Fisher零假设的精确测试；Neyman 弱零假设的检验则采用一种 Neyman 保守方差估计器（基于组间秩差方差的协变量调整改进），并移植到偏差函数模型以实现敏感性分析。
通过模拟和关于血铅/骨密度的真实数据分析，验证了方法在有限样本下有良好类型 I 误差控制（对 Fisher）和合理检验力（对弱零假设）；所有方法打包在 R 包 doseSens 中。

3.2 关键设定与假设¶

在第二节最小内核记号基础上，补全完整设定：

符号追加：
\(R_{mk}^{(dose)}\) 或 \(R_{mk}^{(Y)}\)：在整体样本中（可以跨匹配组）的秩，但本文很多地方放弃了这点，坚持组内秩。
\(\Gamma\)：偏差参数。在敏感分析中，组内任意两个体被分配到各自观察到的剂量值的概率之比的上界是 \(\Gamma\)。
假设（重点）：
SUTVA：隐式成立（个体间不互相干扰，处理版本唯一）。
无未测混杂假设（用于设计阶段的推断）：在每一匹配组内，给定组价协变量，剂量分配是随机的（这实际上是匹配设计的成功结果）；这个假设在操作中可以省略，由“将匹配构造理解为调整了观测协变量”做辩护。
匹配的完整性：假设匹配过程已成功保证每一组内观测协变量分布完全平衡（无残余混淆）。（这在论文里是假设，但实践上常违反。论文第四节用RSV指标警告了这个局限）。
对于 Neyman 弱零效应的证明 使用“恒定秩效应近似”：相关的估计量（试验功能）对效应异质性是自适应的，但界是在最坏情况下被证明。
差异来源：相较于 Fogarty (2019) 的二元处理设定，本文的 \(D_m\)（秩-差）不是简单配对内减，而是匹配组内秩和与另一秩和的差；相关性来源在于剂量秩本身也算随机变量（不仅仅是处理分配对二元处理才有的特征）。

3.3 主要结果（理论型拓展核心）¶

本文共有两套主要结果，以定理和其体现来陈述。

定理 1（Fisher 精确零假设 + 双秩检验的敏感性分析）：

陈述：设结果与剂量的组内双秩相关为 \(S_{\text{DRT}}\)。在 \(H_F\) 下，该统计量的 p 值可以通过对该匹配组所有 MRP 随机排列进行计算（精确随机化分布）。若存在偏差因子 \(\Gamma\)，则该组内产生的分布是以 \(\Gamma\) 为参数的偏离简单均匀二项式的分布族；最坏情况下的 p 值上限（上尾）可以通过在每个组内对置换概率的极值组合来计算。
技术难度：组数较大时精确计算复杂，本文证明了一个保守边界：以计算可行的方式，对每个组用放大/缩小置换概率，然后在组间通过某些不等式（Fogarty 2018 型的分离/可分离近似技巧）得到紧的上界。
直觉：将落差分配问题——在每组内循环——转换成 Rothbaum 型的ρ分布族的概率往返，采用单步泰勒展开 (tightable separable approx) 式，给出的界限类似以下形式：
\[\text{p-value}_{\text{upper}} \le \sum_{m} c_m^{(t)} \cdot \text{some quantity}\]
因此确保了接近精确限界的可行性。

定理 3（Neyman 弱零假设 + SATO 的方差与敏感性分析）：

陈述：设样本平均秩处理效应估计量 \(\hat{\bar{\tau}}\) 由组内秩差（剂量-秩较高 vs. 较低的加权和）得到。在 \(H_W\)（所有取的差条件期望为零）和对照偏差 \(\Gamma=1\)（无未测混杂）的情况下，方差 Var(\(\hat{\bar{\tau}}\)) 由 Neyman 式的最差方差界为
\[\text{Var}(\hat{\bar{\tau}}) \le \frac{1}{M(M-1)} \sum_{m} n_m^2(\bar{D}_m - \bar{\bar{D}})^2 / \text{weights}_m,\]
其中这个界是保守的，且在一般的效应异质性下取其期望等于真实Var（乘以保守因子）。
重要性：本文提供了第一个能够检验 SATO 的框架，这个 estimand 是剂量研究的天然的样本平均效应——Neyman 弱零问题的首要候选。

3.4 证明路线与技术技巧¶

整体路线（适用于 Fisher 零假设的句例）：

构造检验统计量（组合）：使用两组秩 \(\mathbf{r}^{(dose)}, \mathbf{r}^{(Y)}\)，内在定义每个匹配组内的内积：\(T_m = \sum_{k=1}^{n_m} a_{mk} b_{m, i(k)}\)（其中 \(a\) 为剂量秩的函数，\(b\) 为结果秩的函数）。最终检验 DRT 统计量 = \(\sum_{m} T_m\)。
建立随机化分布：在 \(H_F\) 下，每一组内的剂量秩 \(R_{mk}^{(dose)}\) 可以被随机重新置换，且结果秩是固定的（或者两者互等等价）。因此对整个样本，随机化分布就是“将每个组的剂量秩排列从所有可能排列中等概率抽样”。分布的 第二（或更高）矩 可以由“Gamma 为 1的置换分布”计算。
敏感性分析扩展（核心跳跃）：当引入 \(\Gamma\) 后，置换不再是均匀的。论文观测到，最大化 p 值上限的置换分布是在每个组的排序上独立实施“最不利”的偏置因子（把最高可能性的分配集中到高秩高结果的一方）。因为Doses秩适的结果秩函数是“正关联”）通过一个“鞍点/带状近似”来确认：最坏情况是每个组内部把概率都分配给一个极端模式（该模式在所有组中都相同），这可以将组合概率通过p-不等式链变成乘积形式，有效用于计算。一个关键引理（Lemma 2）：每个组的“最大 p 值运算”只依赖该组的 Rejection-of-assortment 门槛，并且随着组数目增加，总的偏离是可分的；因此“最坏 p-value”可以用相应量逐次计算。
技术名单：
- 置换分布（Permutation Distribution / Randomization Testing）：核心推理框架。
- Rosenbaum 偏差模型 及 单步泰勒加强：用于从均匀置换向偏心置换“迁移”，得到数值上直接用组的数量可计算的界。
- 可分离近似（Separable Approximation）：Rosenbaum (2018) 中发展的主要技术，允许将 \(M\) 个组上的联合分布分解为组别正常的单组处理的乘积。
- Kolmogorov-type 组合优化：最小化 p 值时，每个组内的结构是决策变量（分配骰子的概率），在Gamma下可以转为线性规划（LP）解决。

3.5 真实例子与应用¶

使用的数据：美国国家健康与营养调查（NHANES）2011-2018年数据，有 3,234 名 20-35 岁女性。科学问题：血铅水平（连续暴露）对腰椎骨密度的影响（连续结果）。匹配：使用“剂量匹配”技术（根据 Zhang et al. 2020）对众多协变量（年龄、体重、身高、种族、收入贫困比、吸烟状态、体力活动水平、白蛋白/尿素氮等）进行非二分匹配，构造 1:1 配对（组大小 \(n_m=2\)）以及 1:3 匹配（每组4人）设计。每对匹配组内的剂量是在组内经充分分离的低与高。

实现的应用效果：在无未测混杂（\(\Gamma=1\)）下，双秩检验显著拒绝了 Fisher 零假设（p<0.001，表示血铅对骨密度有因果影响）；在\(\Gamma\)增加到 2.5 之后，检验仍保持在 p<0.05，说明结果对潜在未测混杂稳健。Neyman 弱零检验(SATO)也给出显著结果（p<0.001），且与 Fisher 检验保持一致，但解释了效应异质性的可能性。1:3匹配的一部分结果显示出稍微大的保守性，符合理论预期。

例子想说明的核心：证明了方法在实际剂量数据上的有限样本有效性和可操作性；同时双秩检验给出了对某一效应的统计确认，而且敏感性分析带宽足够宽（抵抗Γ=2.5的偏置）增强了结论的可靠性。

3.6 🔎 结论是否比证明窄¶

全文使用了“在匹配组设计下，导出双秩检验性质的推导以Exact randomization 为基础；但对Neyman弱零假设，方差估计是保守的（理论部分显示出‘至少保守如此’），同时模拟中显示在简单实际情形下保持良好size。因此，结论中‘方法适用于一般结果类型’确实得到了证明（Fisher 精准部分），但对弱零假设的精确p值不是精确，只是渐近可靠的。
结论比证明窄的一个特例：论文声称其对于 Neyman 弱零假设的敏感性分析在所有Gamma下都有效，但严格证明只给出了在 “组内联合偏差函数恒定性” （即每个组/share same Gamma structure，不考虑组间不同的Gamma）下的保守性。如果 Gamma 在不同组间变化，文中未证明同样结论。虽然作者建议可以用保守性替换，但不是定理。

四、开放问题¶

（限于 3-4 条，扎根具体语句）

从保守的 Neyman 弱零检验向精确/更紧方差推进。本文对 SATO 估计的方差是 Neyman 式的，但结论是“保守的”，且要求在某些方差分量上进行协变量调整。如果能结合 高效影响函数（Efficient Influence Function） 和交叉拟合技术来微调方差估计，很可能得到更紧的界（减少不必要的保守性），扩大实际检验力。扎根：本文在第 4 节模拟中承认，保守方差在某些场景（组内效应异质性强时）导致检验力下降，且提出了“协变量调整”略可减轻；但未尝试半参数效率。这类问题与研究者对EIF的熟悉度直接匹配。
在基于张量网络的随机化分布高效计算。当匹配组大小大（\(n_m\) 大）且组数多(M大)时，对所有组组合进行精确置换分布的计算量极高（随\(n_m!\)增加）。处理这种“组内置换”中的高维分类，形成了等效于计算一个高维张量的某种收缩。这种及可在研究者张量成本框架下进行映射：每个组的置换等价于一个大小为 1（从全部随机化分布中随机分配的编码）的表示，然后联合所有组产生一个巨大的 N!排列分布的滤波。研究者已有的树宽/张量收缩（einsum 复杂度）工具可能可以刻画这种特定排列约束的总计算代价，从而识别“加速近似”的可行算法，或证明精确算法的时间指数困难。
为连续剂量匹配设计开发Sharper的Neyman类界。目前的Neyman分布方差界建立在假设剂量-秩差为“小波近似”的框架（基于有限置换的假设），其调和函数利用了Fogarty (2018)等。但剂量处理下，组内的秩差与组间秩差高度相关，这可能放大了方差界的保守性。探索一个与子组形成无关的界（如利用bootstrap、反弹/double-bootstrap）可以移除保守性。扎根句：论文的“方差估计”节提到“由于每个组大小不同，我们使用\(n_m^2\)作为权重…期望方差被放大了”，且末尾的讨论提出了“在组内结构更细的时候有可能改进保守性”。

Maintained by 陈星宇 · Homepage · Source on GitHub