Nonparametric tests of treatment effect homogeneity for policy-makers¶
讲者: Oliver Dukes
讨论人: Edward Kennedy
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-10-15
主题: 因果推断
视频: https://youtu.be/wNAUHprgX2E · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2410.00985 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这个报告属于 因果推断中治疗效应异质性(treatment effect heterogeneity)的非参数检验 这一子方向。该方向的核心追问是:政策制定者能否信赖观测到的 CATE 变化,还是那只是噪音? ——即如何区分“真实异质性”与“有限样本的偶然波动”。
奠基与主流路线¶
- 有限子组异质性检验(奠基)
- Gail & Simon (1985):针对 定性 异质性(治疗效果方向相反)的经典检验,基于两个子组的效应估计及其标准误。
- Piantadosi & Gail (1993):类似思想的区间检验(range test)。
-
但这些方法只适用于离散的、少量子组(如由二值协变量定义的几个子组)。
-
连续协变量(无穷多子组)下的异质性检验
- 定量异质性:Crump et al. (2008), Ding et al. (2019), Sánchez-Becerra (2022) 等提出检验 H₀: τ(x)=τ̄ a.e. (τ̄ 是 ATE)。
- CATE 非负/非正检验:Chang et al. (2015), Hsu (2017), Shi et al. (2019), Johnson et al. (2023) 等,检验 H₀: τ(x)≥0 ∀x 或 τ(x)≤0 ∀x。
-
这些工作往往依赖特定的光滑性假设、或者样本分割。
-
政策学习与最优治疗规则(平行方向)
- 如 Qian & Murphy (2011), Zhao et al. (2012), Kitagawa & Tetenov (2018), Athey & Wager (2021),关注如何基于 CATE 导出最优的个体化治疗规则,而非直接检验异质性是否存在。
本报告的站位¶
- 它提供了一个统一的非参数检验框架,同时覆盖 定量 和 定性 两种异质性。
- 核心创新:将检验问题重新表达为一个加权处理效应的 supremum,从而避免直接处理 CATE 的积分绝对值(它在原假设下处于参数空间边界、渐近分布复杂)。
- 该 supremum 统计量可以通过半参数效率理论和经验过程理论处理:对每个权重 ω,q_ω = ∫(τ(x)−τ̄)ω(x)dF(x) 是一个光滑的加权处理效应,可用 influence function 估计并具有渐近正态性;对 ω 族取 sup 则给出一个可处理的检验统计量(Donsker 类 + 乘子 Bootstrap)。
- 与政策学习的连接:检验有功率恰好当存在一个动态治疗规则(ω 是治疗分配概率的决定函数)其种群层面 impact 显著偏离忽略协变量的静态规则(如“全治”或“全不治”)。也就是说,该检验不是回答“异质性是否存在”的纯数学问题,而是异质性是否足以改变人口层面的治疗政策这一实用问题。
关键引用(转写+幻灯片):
- “our contribution: nonparametric inference for qualitative and quantitative heterogeneity with infinitely many subgroups” [幻灯片 p.14]。
- 与现有方法的区别:Crump, Ding, Sánchez-Becerra 等只处理定量;Chang, Hsu, Shi 等只处理符号检验;本工作统一并且明确连接政策影响。
- 合作者:Mats J. Stensrud (EPFL), Riccardo Brioschi (EPFL), Aaron Hudson (Fred Hutch)。讲者 Oliver Dukes (Ghent University)。
- 对应论文:arXiv:2410.00985(讲者称“上周刚挂上 arXiv”)[转写 0:01:58]。
二、最小内核 / 一个最简例子¶
先固定符号:
- 可观测数据 \(O = (X, A, Y)\),i.i.d.
- \(Y\):数值结果(连续或离散)。
- \(A\):二值处理(0/1)。
- \(X\):协变量,可能连续,维度 \(d\)。
- 潜在结果:\(Y(1), Y(0)\),满足一致性、正性、条件可交换性。
- 目标 estimand:
- \(\tau(x) = \mathbb{E}[Y(1)-Y(0) \mid X=x]\)(CATE)。
- \(\bar\tau = \mathbb{E}[\tau(X)]\)(ATE)。
- 识别:\(\tau(x) = \mathbb{E}[Y \mid A=1, X=x] - \mathbb{E}[Y \mid A=0, X=x]\);\(\bar\tau = \mathbb{E}[\tau(X)]\)。
检验问题¶
定量异质性:
- H₀: \(\tau(x) = \bar\tau\) 对几乎所有 \(x\)(即无定量异质性)。
- 备择:存在 \(x\) 使得 \(\tau(x) \neq \bar\tau\)。
定性异质性:
- H₀: \(\tau(x) \ge 0\) 对所有 \(x\),或 \(\tau(x) \le 0\) 对所有 \(x\)(即不会既有正又有负)。
- 备择:存在 \(x_+, x_-\) 使得 \(\tau(x_+) > 0\),\(\tau(x_-) < 0\)。
核心思想(最简特例)¶
取 \(X\) 为一维标量(例如年龄、某个连续生物标志物)。定义一个加权处理效应:
- 若取 \(\omega(x) = \text{sign}(\tau(x)-\bar\tau)\),则 \(q_\omega = \int |\tau(x)-\bar\tau| dF(x) = Q\),正是定量异质性的度量。
- 但 \(\text{sign}(\cdot)\) 函数不光滑,导致 \(Q\) 的估计有边界问题(原假设下 \(Q=0\) 处在参数空间边界)。
解决:退而求其次,考虑一个预设的函数类 \(\Omega\)(Donsker 类),比如:
- 线性阈值规则:\(\omega(x) = 2\cdot\mathbf{1}(\rho_0+\rho_1 x \ge 0) - 1\)。
- 总变分有界函数(允许非单调)。
则
例子:假设 \(X\) 均匀分布在 \([0,1]\),\(\tau(x) = \beta(x-0.5)\)(线性),ATE \(\bar\tau = 0\)。则定量异质性存在当 \(\beta \neq 0\)。取 \(\Omega\) 为所有形如 \(\omega_c(x) = 2\cdot\mathbf{1}(x \ge c)-1\)(\(c\in[0,1]\) 截断)的函数。则
定性异质性类似,但使用 \(\delta(x)\in[0,1]\) 作为权重,定义 \(q_\delta = \int \tau(x)\delta(x)dF(x)\),通过 \(\sup_\delta q_\delta > 0\) 且 \(\inf_\delta q_{1-\delta} < 0\) 来检测既有正又有负的 CATE。
三、报告主体:讲者讲了什么¶
[0:00–0:06] 开场与介绍¶
- 主持人介绍讲者 Oliver Dukes (Ghent University) 和讨论者 Edward Kennedy (Carnegie Mellon University)。
- 讲者感谢合作者 Mats Stensrud, Riccardo Brioschi, Aaron Hudson,指出 arXiv 预印本(2410.00985)已上线。
[0:01–0:03] 动机:为何需要异质性检验¶
- 治疗效应异质性是精准医学的前提,近年在医学文献中应用渐多(引 Feuerriegel et al. 2024 等)。
- 但 CATE 的点估计可能夸大异质性,不确定性量化是缺失的。本工作从假设检验角度提供保障。
[0:03–0:07] 定义与现有方法¶
- 定量异质性:τ(x) 变化幅度不同,依赖尺度。
- 定性异质性:τ(x) 符号变化,尺度不变。
- 有限子组时可用 Gail-Simon 检验或 range 检验;连续协变量(无穷子组) 则没有现成可靠的检验框架。
[0:07–0:10] 设置与识别¶
- 标准因果推断假设(一致性、正性、条件可交换性)。
- CATE 识别为 μ₁(x)−μ₀(x)。ATE 为平均。
[H:MM] 以下以幻灯片结构为主,结合转录中的讲解¶
定量异质性检验
[0:09–0:14]
- 用图解释:CATE 曲线与 ATE 水平线之间的“面积”Q = ∫|τ(x)−τ̄|dF(x) 作为异质性度量。
- 问题:|τ(x)−τ̄| 导致 Q 在 H₀ 下处于边界(Q=0),其非参估计的极限分布难以处理。
关键转换
[0:14–0:18]
- 定义加权处理效应 q_ω = ∫(τ(x)−τ̄)ω(x)dF(x),权重 ω(x)∈[−1,1]。
- 关系:sup_{ω∈Ω} |q_ω| ≤ Q,等号当 Ω 包含 sign(τ(x)−τ̄)。
- 因此,检验 sup|q_ω|>0 比直接检验 Q>0 更易处理——q_ω 是光滑的,可用影响函数估计。
为什么可行
[0:18–0:22]
- 对固定 ω,q_ω 只是一个加权处理效应:可以用半参数双重稳健估计(DR-learner 或 AIPW)。
- 若 Ω 是 Donsker 类(如 R^p 上的阈值线性函数),则经验过程保证 q_ω 的估计过程在 Ω 上一致收敛到高斯过程。
- 因此 sup|q_ω| 的极限分布可通过乘子 Bootstrap 近似,从而构造检验。
选择函数类 Ω
[0:22–0:29]
- Ω 太小的风险:不包含最优 ω,功率下降。
- Ω 太大的风险:方差增大,sup 统计量膨胀,功率也下降。
- 具体建议:
1. 线性阈值规则(Kitagawa & Tetenov, 2018)——适合单调 CATE。
2. 总变分有界回归(Mammen & van de Geer, 1997)——允许非单调,通过 λ 控制复杂度。
3. 决策树/超立方体/盒状类(Andrews & Shi, 2013; Hsu, 2017; Athey & Wager, 2021)。
定量检验的具体步骤
[0:29–0:32]
1. 指定 Ω。
2. 估计倾向得分和 outcome 回归(一次完成,不依赖 ω)。
3. 计算 sup_{ω∈Ω} |q_ω,n|。
4. 用乘子 Bootstrap 逼近 null 分布。
5. 若统计量 > (1−α) 分位数则拒绝。
定性异质性检验
[0:32–0:38]
- 定义 Q⁺ = ∫τ(x)1(τ(x)>0)dF(x),Q⁻ = ∫τ(x)1(τ(x)<0)dF(x)。
- H₀: Q⁺>0, Q⁻=0 或 Q⁺=0, Q⁻<0(即 CATE 不改变符号)。
- 引入 δ(x)∈[0,1],定义 q_δ = ∫τ(x)δ(x)dF(x)。
- 关系:sup_δ q_δ ≤ Q⁺,inf_δ q_{1−δ} ≥ Q⁻。
- 因此检验 sup_δ q_δ >0 且 inf_δ q_{1−δ}<0。
复合原假设的保守性
[0:38–0:42]
- 定性检验的 H₀ 是复合的(所有 τ(x)≥0 或 ≤0 都算 null)。
- 因此,当真实 CATE 全为零时,检验的拒绝率远低于 α(保守);当符号差异大时,功率才会上升。
- 与定量检验对比:定量 H₀ 只是 τ(x)−τ̄=0 一点,控制 Type I error 更直接。
模拟研究
[0:42–0:50]
- 设置:X₁, X₂, X₃ 均匀,A 由 logit 模型生成(依赖 X₁, X₂),Y 由 h(X)+A·τ(X₃)+噪声。
- 四种 CATE 情型:无异质性、定量、定性(单调)、定性(非单调)。
- 结果:
- 无异质性时所有检验控制 Type I error(定性检验偏保守)。
- 定量检验:线性阈值规则(单调)在单调备择下功率最高;总变分规则(非单调)在非单调备择下功率高。
- 定性检验:总比 Gail-Simon 和 range 检验功率高(在所选类匹配时),但在非单调备择下线性阈值规则完全失效。
- 强调:函数类选择对功率影响巨大。
数据实例:ACTG 175 Trial
[0:50–0:55]
- 比较单药 vs 联合治疗的 HIV 试验(n=1,938)。
- 对年龄、体重、基线 CD4 分别检验。
- 仅体重的定量检验 p=0.036(5% 水平显著),其余不显著。
- 定性检验全部 p>0.95(保守性)。
讨论:检验的功率性质
[0:55–1:00]
- 因为是 omnibus 检验,功率集中在有限方向(与平滑检验互补)。
- 功率条件:存在一个 δ∈Δ 使得动态治疗规则的值函数优于最佳静态规则(全都治或全不治)。
- 因此检验适合回答“异质性是否足以改变群体政策”,而非“任何异质性是否存在”。
与其他方法的比较
[1:00–1:05]
- 编辑未在时间点精确,但讲者回应了 Kennedy 的问题:本方法与 Shi et al. (2019) 的 plug-in 检验(样本分割)不同;本方法不分割但依赖 Donsker 类。
- 讨论了边界原假设处理的多种策略,包括最大均值差异(MMD)方法(Marco & Alex 的工作)。
讨论者 Edward Kennedy 的评论([0:45–1:00] 大致)
- 优点:统一框架、可操作、与政策学习连接。
- 开放问题:
- Minimax 最优性:CATE 的 Minimax 检验边界是什么?尚无答案。
- 超越均值:检验分布层面的异质性(如条件潜在结果分布的差异)。
- 从检验到估计:估计受益子组、或 CATE 低于某个阈值的子组。
四、对应论文与开放问题¶
对应论文¶
- 标题: Nonparametric tests of treatment effect homogeneity for policy-makers (arXiv:2410.00985)
- 作者: Oliver Dukes, Mats J. Stensrud, Riccardo Brioschi, Aaron Hudson
- 讲者所属: Ghent University (Oliver Dukes) / EPFL (Mats Stensrud, Riccardo Brioschi) / Fred Hutchinson Cancer Center (Aaron Hudson)
- 状态: 2024-10-15 时刚上线 arXiv(讲者称“上周”)。
- 注意: 转写中“Gil Simon”应为“Gail-Simon”;“Gamma”应为“λ”等,以幻灯片为准。
开放问题(每条扎根于转写/幻灯片中的具体陈述)¶
- Minimax 最优检验边界(Kennedy 讨论 & 讲者回应)
- Kennedy 指出:CATE 的 minimax 检验问题(类似 Ingster 80 年代的工作)尚未解决。例如,检验 H₀: τ(x)=τ̄ ∀x vs H₁: ∫(τ(x)−τ̄)² dF(x) ≥ ε² 时,最小可分离半径是多少?对应光滑性假设下的经典结果 \(n^{-2s/(4s+d)}\)。
- 讲者承认:“many different tests get these rates, and saying much beyond that seems open” [转写 ~0:58]。
-
潜在方向:对 CATE 检验推导 minimax 分离率,特别是考虑异质性只在部分方向出现(anisotropic smoothness)——呼应现场问题 [1:01](“涉及各向异性光滑性,如 Veronika Rocková 的工作”)。
-
定性检验的功率改善(讲者讨论 & 幻灯片 p.70)
- 幻灯片引用 Zelterman (1990) 提出 “Improving the power of the qualitative test?”,但未详述。
-
转写中讲者提到“qualitative test is composite → conservative,有低功率”,并指出可以通过更精致的函数类或样本分割改善,但尚无统一故事。
-
超出均值:分布级异质性
- Kennedy 建议:检验条件潜在结果分布的异质性(如检验 H₀: P(Y(1)≤y | X=x) = P(Y(0)≤y | X=x) for all y,x)。
-
相关工作:Kennedy 等人在边际密度估计中的 L1 范数检验,但尚未延伸到条件情况。
-
从检验转向估计
-
Kennedy 提及自己与 Bonvini, Keel 的工作:估计“受益子组”或“效应超过阈值 θ 的子组”的非参 minimax 率。该方向与当前检验互补。
-
函数类选择的平衡——理论与实用指导
-
讲者多次强调 Ω 的复杂度影响功率,但如何基于数据或领域知识选择最优 Ω(trade-off between approximation and variance)仍是开放问题。
-
不需样本分割 vs 分割方法
- 讲者对比了本方法(不分割但要求 Donsker)与 Shi et al. (2019) 的分割方法。哪种在 finite sample 中更优?是否有统一的 rate-adaptive 框架?
以上开放问题均已在转写或幻灯片中被明确提及或暗示,研究者可逐一查阅对应片段(时间点标注在括号中)并对照 arXiv 论文的讨论部分进行验证。
Maintained by 陈星宇 · Homepage · Source on GitHub