Nonparametric tests of treatment effect homogeneity for policy-makers¶

讲者: Oliver Dukes
讨论人: Edward Kennedy
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-10-15
主题: 因果推断
视频: https://youtu.be/wNAUHprgX2E · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2410.00985 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这个报告属于 因果推断中治疗效应异质性（treatment effect heterogeneity）的非参数检验 这一子方向。该方向的核心追问是：政策制定者能否信赖观测到的 CATE 变化，还是那只是噪音？ ——即如何区分“真实异质性”与“有限样本的偶然波动”。

奠基与主流路线¶

有限子组异质性检验（奠基）
Gail & Simon (1985)：针对定性异质性（治疗效果方向相反）的经典检验，基于两个子组的效应估计及其标准误。
Piantadosi & Gail (1993)：类似思想的区间检验（range test）。
但这些方法只适用于离散的、少量子组（如由二值协变量定义的几个子组）。
连续协变量（无穷多子组）下的异质性检验
定量异质性：Crump et al. (2008), Ding et al. (2019), Sánchez-Becerra (2022) 等提出检验 H₀: τ(x)=τ̄ a.e. (τ̄ 是 ATE)。
CATE 非负/非正检验：Chang et al. (2015), Hsu (2017), Shi et al. (2019), Johnson et al. (2023) 等，检验 H₀: τ(x)≥0 ∀x 或 τ(x)≤0 ∀x。
这些工作往往依赖特定的光滑性假设、或者样本分割。
政策学习与最优治疗规则（平行方向）
如 Qian & Murphy (2011), Zhao et al. (2012), Kitagawa & Tetenov (2018), Athey & Wager (2021)，关注如何基于 CATE 导出最优的个体化治疗规则，而非直接检验异质性是否存在。

本报告的站位¶

它提供了一个统一的非参数检验框架，同时覆盖定量和定性两种异质性。
核心创新：将检验问题重新表达为一个加权处理效应的 supremum，从而避免直接处理 CATE 的积分绝对值（它在原假设下处于参数空间边界、渐近分布复杂）。
该 supremum 统计量可以通过半参数效率理论和经验过程理论处理：对每个权重 ω，q_ω = ∫(τ(x)−τ̄)ω(x)dF(x) 是一个光滑的加权处理效应，可用 influence function 估计并具有渐近正态性；对 ω 族取 sup 则给出一个可处理的检验统计量（Donsker 类 + 乘子 Bootstrap）。
与政策学习的连接：检验有功率恰好当存在一个动态治疗规则（ω 是治疗分配概率的决定函数）其种群层面 impact 显著偏离忽略协变量的静态规则（如“全治”或“全不治”）。也就是说，该检验不是回答“异质性是否存在”的纯数学问题，而是异质性是否足以改变人口层面的治疗政策这一实用问题。

关键引用（转写+幻灯片）：
- “our contribution: nonparametric inference for qualitative and quantitative heterogeneity with infinitely many subgroups” [幻灯片 p.14]。
- 与现有方法的区别：Crump, Ding, Sánchez-Becerra 等只处理定量；Chang, Hsu, Shi 等只处理符号检验；本工作统一并且明确连接政策影响。
- 合作者：Mats J. Stensrud (EPFL), Riccardo Brioschi (EPFL), Aaron Hudson (Fred Hutch)。讲者 Oliver Dukes (Ghent University)。
- 对应论文：arXiv:2410.00985（讲者称“上周刚挂上 arXiv”）[转写 0:01:58]。

二、最小内核 / 一个最简例子¶

先固定符号：

可观测数据 \(O = (X, A, Y)\)，i.i.d.
\(Y\)：数值结果（连续或离散）。
\(A\)：二值处理（0/1）。
\(X\)：协变量，可能连续，维度 \(d\)。
潜在结果：\(Y(1), Y(0)\)，满足一致性、正性、条件可交换性。
目标 estimand：
\(\tau(x) = \mathbb{E}[Y(1)-Y(0) \mid X=x]\)（CATE）。
\(\bar\tau = \mathbb{E}[\tau(X)]\)（ATE）。
识别：\(\tau(x) = \mathbb{E}[Y \mid A=1, X=x] - \mathbb{E}[Y \mid A=0, X=x]\)；\(\bar\tau = \mathbb{E}[\tau(X)]\)。

检验问题¶

定量异质性：
- H₀: \(\tau(x) = \bar\tau\) 对几乎所有 \(x\)（即无定量异质性）。
- 备择：存在 \(x\) 使得 \(\tau(x) \neq \bar\tau\)。

定性异质性：
- H₀: \(\tau(x) \ge 0\) 对所有 \(x\)，或 \(\tau(x) \le 0\) 对所有 \(x\)（即不会既有正又有负）。
- 备择：存在 \(x_+, x_-\) 使得 \(\tau(x_+) > 0\)，\(\tau(x_-) < 0\)。

核心思想（最简特例）¶

取 \(X\) 为一维标量（例如年龄、某个连续生物标志物）。定义一个加权处理效应：

\[q_\omega = \int \{\tau(x) - \bar\tau\} \,\omega(x)\, dF(x), \qquad \omega(x) \in [-1,1].\]

若取 \(\omega(x) = \text{sign}(\tau(x)-\bar\tau)\)，则 \(q_\omega = \int |\tau(x)-\bar\tau| dF(x) = Q\)，正是定量异质性的度量。
但 \(\text{sign}(\cdot)\) 函数不光滑，导致 \(Q\) 的估计有边界问题（原假设下 \(Q=0\) 处在参数空间边界）。

解决：退而求其次，考虑一个预设的函数类 \(\Omega\)（Donsker 类），比如： - 线性阈值规则：\(\omega(x) = 2\cdot\mathbf{1}(\rho_0+\rho_1 x \ge 0) - 1\)。
- 总变分有界函数（允许非单调）。

则

\[\sup_{\omega \in \Omega} |q_\omega| \le Q,\]

且若 \(\Omega\) 足够大包含最优 \(\omega^*\)，则取等号。于是，我们可以通过检验 \(\sup_{\omega\in\Omega} |q_\omega| > 0\) 来检测异质性，因为 \(q_\omega\) 是光滑的加权处理效应——它的估计可以用半参数影响函数（influence function），在原假设和备择下都是根号 n 渐近正态（只要本质区间在内部）。

例子：假设 \(X\) 均匀分布在 \([0,1]\)，\(\tau(x) = \beta(x-0.5)\)（线性），ATE \(\bar\tau = 0\)。则定量异质性存在当 \(\beta \neq 0\)。取 \(\Omega\) 为所有形如 \(\omega_c(x) = 2\cdot\mathbf{1}(x \ge c)-1\)（\(c\in[0,1]\) 截断）的函数。则

\[\sup_c |q_{\omega_c}| = \sup_c \left| \int_0^1 \beta(x-0.5) \,\omega_c(x)\,dx \right| = |\beta| \cdot \frac12 \quad (\text{在 } c=0.5 \text{ 取到最大值}).\]

检验统计量 \(\sup_c |\hat q_{\omega_c}|\) 可以用乘子 Bootstrap 获取临界值，拒绝原假设当统计量大于某个分位数。这个检验对 \(\beta\) 的低阶备择有功率（例如 \(\beta = \delta / \sqrt{n}\)），且不需要样本分割。

定性异质性类似，但使用 \(\delta(x)\in[0,1]\) 作为权重，定义 \(q_\delta = \int \tau(x)\delta(x)dF(x)\)，通过 \(\sup_\delta q_\delta > 0\) 且 \(\inf_\delta q_{1-\delta} < 0\) 来检测既有正又有负的 CATE。

三、报告主体：讲者讲了什么¶

[0:00–0:06] 开场与介绍¶

主持人介绍讲者 Oliver Dukes (Ghent University) 和讨论者 Edward Kennedy (Carnegie Mellon University)。
讲者感谢合作者 Mats Stensrud, Riccardo Brioschi, Aaron Hudson，指出 arXiv 预印本（2410.00985）已上线。

[0:01–0:03] 动机：为何需要异质性检验¶

治疗效应异质性是精准医学的前提，近年在医学文献中应用渐多（引 Feuerriegel et al. 2024 等）。
但 CATE 的点估计可能夸大异质性，不确定性量化是缺失的。本工作从假设检验角度提供保障。

[0:03–0:07] 定义与现有方法¶

定量异质性：τ(x) 变化幅度不同，依赖尺度。
定性异质性：τ(x) 符号变化，尺度不变。
有限子组时可用 Gail-Simon 检验或 range 检验；连续协变量（无穷子组） 则没有现成可靠的检验框架。

[0:07–0:10] 设置与识别¶

标准因果推断假设（一致性、正性、条件可交换性）。
CATE 识别为 μ₁(x)−μ₀(x)。ATE 为平均。

[H:MM] 以下以幻灯片结构为主，结合转录中的讲解¶

定量异质性检验
[0:09–0:14]
- 用图解释：CATE 曲线与 ATE 水平线之间的“面积”Q = ∫|τ(x)−τ̄|dF(x) 作为异质性度量。
- 问题：|τ(x)−τ̄| 导致 Q 在 H₀ 下处于边界（Q=0），其非参估计的极限分布难以处理。

关键转换
[0:14–0:18]
- 定义加权处理效应 q_ω = ∫(τ(x)−τ̄)ω(x)dF(x)，权重 ω(x)∈[−1,1]。
- 关系：sup_{ω∈Ω} |q_ω| ≤ Q，等号当 Ω 包含 sign(τ(x)−τ̄)。
- 因此，检验 sup|q_ω|>0 比直接检验 Q>0 更易处理——q_ω 是光滑的，可用影响函数估计。

为什么可行
[0:18–0:22]
- 对固定 ω，q_ω 只是一个加权处理效应：可以用半参数双重稳健估计（DR-learner 或 AIPW）。
- 若 Ω 是 Donsker 类（如 R^p 上的阈值线性函数），则经验过程保证 q_ω 的估计过程在 Ω 上一致收敛到高斯过程。
- 因此 sup|q_ω| 的极限分布可通过乘子 Bootstrap 近似，从而构造检验。

选择函数类 Ω
[0:22–0:29]
- Ω 太小的风险：不包含最优 ω，功率下降。
- Ω 太大的风险：方差增大，sup 统计量膨胀，功率也下降。
- 具体建议：
1. 线性阈值规则（Kitagawa & Tetenov, 2018）——适合单调 CATE。
2. 总变分有界回归（Mammen & van de Geer, 1997）——允许非单调，通过 λ 控制复杂度。
3. 决策树/超立方体/盒状类（Andrews & Shi, 2013; Hsu, 2017; Athey & Wager, 2021）。

定量检验的具体步骤
[0:29–0:32]
1. 指定 Ω。
2. 估计倾向得分和 outcome 回归（一次完成，不依赖 ω）。
3. 计算 sup_{ω∈Ω} |q_ω,n|。
4. 用乘子 Bootstrap 逼近 null 分布。
5. 若统计量 > (1−α) 分位数则拒绝。

定性异质性检验
[0:32–0:38]
- 定义 Q⁺ = ∫τ(x)1(τ(x)>0)dF(x)，Q⁻ = ∫τ(x)1(τ(x)<0)dF(x)。
- H₀: Q⁺>0, Q⁻=0 或 Q⁺=0, Q⁻<0（即 CATE 不改变符号）。
- 引入 δ(x)∈[0,1]，定义 q_δ = ∫τ(x)δ(x)dF(x)。
- 关系：sup_δ q_δ ≤ Q⁺，inf_δ q_{1−δ} ≥ Q⁻。
- 因此检验 sup_δ q_δ >0 且 inf_δ q_{1−δ}<0。

复合原假设的保守性
[0:38–0:42]
- 定性检验的 H₀ 是复合的（所有 τ(x)≥0 或 ≤0 都算 null）。
- 因此，当真实 CATE 全为零时，检验的拒绝率远低于 α（保守）；当符号差异大时，功率才会上升。
- 与定量检验对比：定量 H₀ 只是 τ(x)−τ̄=0 一点，控制 Type I error 更直接。

模拟研究
[0:42–0:50]
- 设置：X₁, X₂, X₃ 均匀，A 由 logit 模型生成（依赖 X₁, X₂），Y 由 h(X)+A·τ(X₃)+噪声。
- 四种 CATE 情型：无异质性、定量、定性（单调）、定性（非单调）。
- 结果：
- 无异质性时所有检验控制 Type I error（定性检验偏保守）。
- 定量检验：线性阈值规则（单调）在单调备择下功率最高；总变分规则（非单调）在非单调备择下功率高。
- 定性检验：总比 Gail-Simon 和 range 检验功率高（在所选类匹配时），但在非单调备择下线性阈值规则完全失效。
- 强调：函数类选择对功率影响巨大。

数据实例：ACTG 175 Trial
[0:50–0:55]
- 比较单药 vs 联合治疗的 HIV 试验（n=1,938）。
- 对年龄、体重、基线 CD4 分别检验。
- 仅体重的定量检验 p=0.036（5% 水平显著），其余不显著。
- 定性检验全部 p>0.95（保守性）。

讨论：检验的功率性质
[0:55–1:00]
- 因为是 omnibus 检验，功率集中在有限方向（与平滑检验互补）。
- 功率条件：存在一个 δ∈Δ 使得动态治疗规则的值函数优于最佳静态规则（全都治或全不治）。
- 因此检验适合回答“异质性是否足以改变群体政策”，而非“任何异质性是否存在”。

与其他方法的比较
[1:00–1:05]
- 编辑未在时间点精确，但讲者回应了 Kennedy 的问题：本方法与 Shi et al. (2019) 的 plug-in 检验（样本分割）不同；本方法不分割但依赖 Donsker 类。
- 讨论了边界原假设处理的多种策略，包括最大均值差异（MMD）方法（Marco & Alex 的工作）。

讨论者 Edward Kennedy 的评论（[0:45–1:00] 大致）
- 优点：统一框架、可操作、与政策学习连接。
- 开放问题：
- Minimax 最优性：CATE 的 Minimax 检验边界是什么？尚无答案。
- 超越均值：检验分布层面的异质性（如条件潜在结果分布的差异）。
- 从检验到估计：估计受益子组、或 CATE 低于某个阈值的子组。

四、对应论文与开放问题¶

对应论文¶

标题: Nonparametric tests of treatment effect homogeneity for policy-makers (arXiv:2410.00985)
作者: Oliver Dukes, Mats J. Stensrud, Riccardo Brioschi, Aaron Hudson
讲者所属: Ghent University (Oliver Dukes) / EPFL (Mats Stensrud, Riccardo Brioschi) / Fred Hutchinson Cancer Center (Aaron Hudson)
状态: 2024-10-15 时刚上线 arXiv（讲者称“上周”）。
注意: 转写中“Gil Simon”应为“Gail-Simon”；“Gamma”应为“λ”等，以幻灯片为准。

开放问题（每条扎根于转写/幻灯片中的具体陈述）¶

Minimax 最优检验边界（Kennedy 讨论 & 讲者回应）
Kennedy 指出：CATE 的 minimax 检验问题（类似 Ingster 80 年代的工作）尚未解决。例如，检验 H₀: τ(x)=τ̄ ∀x vs H₁: ∫(τ(x)−τ̄)² dF(x) ≥ ε² 时，最小可分离半径是多少？对应光滑性假设下的经典结果 \(n^{-2s/(4s+d)}\)。
讲者承认：“many different tests get these rates, and saying much beyond that seems open” [转写 ~0:58]。
潜在方向：对 CATE 检验推导 minimax 分离率，特别是考虑异质性只在部分方向出现（anisotropic smoothness）——呼应现场问题 [1:01]（“涉及各向异性光滑性，如 Veronika Rocková 的工作”）。
定性检验的功率改善（讲者讨论 & 幻灯片 p.70）
幻灯片引用 Zelterman (1990) 提出 “Improving the power of the qualitative test?”，但未详述。
转写中讲者提到“qualitative test is composite → conservative，有低功率”，并指出可以通过更精致的函数类或样本分割改善，但尚无统一故事。
超出均值：分布级异质性
Kennedy 建议：检验条件潜在结果分布的异质性（如检验 H₀: P(Y(1)≤y | X=x) = P(Y(0)≤y | X=x) for all y,x）。
相关工作：Kennedy 等人在边际密度估计中的 L1 范数检验，但尚未延伸到条件情况。
从检验转向估计
Kennedy 提及自己与 Bonvini, Keel 的工作：估计“受益子组”或“效应超过阈值 θ 的子组”的非参 minimax 率。该方向与当前检验互补。
函数类选择的平衡——理论与实用指导
讲者多次强调 Ω 的复杂度影响功率，但如何基于数据或领域知识选择最优 Ω（trade-off between approximation and variance）仍是开放问题。
不需样本分割 vs 分割方法
讲者对比了本方法（不分割但要求 Donsker）与 Shi et al. (2019) 的分割方法。哪种在 finite sample 中更优？是否有统一的 rate-adaptive 框架？

以上开放问题均已在转写或幻灯片中被明确提及或暗示，研究者可逐一查阅对应片段（时间点标注在括号中）并对照 arXiv 论文的讨论部分进行验证。

Maintained by 陈星宇 · Homepage · Source on GitHub