跳转至

Empirical stratification for treatment effect heterogeneity with post-treatment variables

作者: Chao Cheng, Rui Wang, Yichi Zhang
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.11013


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:如何刻画和处理变量(Post-treatment Variables, PVs,如非依从、中间事件、行为响应)带来的异质性处理效应。传统异质性处理效应(HTE)方法条件于基线协变量,但 PVs 本身受处理影响,直接条件于观测 PV 会引入内生选择偏差(对撞器偏差);主分层框架虽在潜在结果层面定义了严谨的因果效应,但主分层不可观测且识别需强假设。当前该方向的成熟度处于“有严谨框架(主分层)但假设过强、有实用尝试(预测分层)但缺乏正式因果推断与有效估计理论”的过渡期。

发展脉络: 1. 奠基工作(基线 HTE 与对撞器偏差):早期 HTE 方法聚焦基线协变量(Wager and Athey, 2018; Semenova and Chernozhukov, 2021; Kennedy, 2023; Chernozhukov et al., 2025)。当研究者试图加入 PV 时,Elwert and Winship (2014) 与 Montgomery et al. (2018) 指出条件于受处理影响的变量会引发内生选择偏差,这构成了本方向的根本禁忌。 2. 主要进展(主分层框架):Frangakis and Rubin (2002) 提出主分层,用联合潜在 PV \(G=[M(1), M(0)]\) 定义子群,解决了对撞器偏差,但 \(G\) 不可观测。后续工作致力于识别主因果效应(PCE):Angrist et al. (1996) 引入单调性与工具变量假设;Ding and Lu (2017)、Feller et al. (2017)、Forastiere et al. (2018)、Jiang and Ding (2021) 引入主可忽略性以放宽识别条件;Lu et al. (2026) 与 Zhang and Yang (2025) 处理连续 PV 下的识别。这些工作留下了“识别假设过强且不可验证”的口子(作者原话:"identification of PCEs often requires additional structural assumptions... typically problem-specific and unverifiable")。 3. 当前 frontier(预测型分层与经验替代):部分工作尝试用基线协变量预测 PV 来构造可观测子群:VanderWeele et al. (2012) 用预测风险分层;Follmann (2000)、Joffe et al. (2003)、Hu et al. (2022) 用依从分数分层;Abadie et al. (2018) 用 \(E[Y(0)|X]\) 做内生分层;Kennedy et al. (2020) 用依从分数定义子群但目标为处理接收效应。这些工作留下了“缺乏正式因果推断框架与半参数有效估计理论”的口子(作者原话:"no general assumption-lean statistical framework for characterizing treatment effect heterogeneity with respect to PVs")。 4. 本文的位置:本文提出经验分层框架,用 \(\tau(X)=r(E[M(1)|X], E[M(0)|X])\) 替代不可观测的 \(G\),在标准假设下识别 ETE,并用投影与 EIF 构造半参数有效估计器,试图填补“主分层假设过强”与“预测分层缺乏理论”之间的空白。

子线索聚类: - 线索 1:主分层识别理论(Frangakis & Rubin; Ding & Lu; Lu et al.; Zhang & Yang):致力于在 \(G\) 不可观测下,通过单调性、主可忽略性、copula 模型等结构假设识别 PCE。瓶颈在于假设不可验证。 - 线索 2:预测型/依从分数分层实践(VanderWeele et al.; Follmann; Joffe; Hu et al.; Abadie et al.):用基线预测的 PV 概率或依从分数划分子群做实证分析。瓶颈在于缺乏正式因果解释与有效推断。 - 线索 3:基线 HTE 估计理论(Wager & Athey; Kennedy; Chernozhukov et al.):聚焦条件于 \(X\) 的 CATE 估计与推断。瓶颈在于无法处理 PV 引起的异质性。

这个方向在追问的核心问题: 1. 如何在不引入对撞器偏差的前提下,利用 PV 信息刻画处理效应异质性? 2. 能否在比主分层更弱的假设下,定义一个既有因果解释又可识别的 PV 相关 HTE 估量? 3. 当基线协变量高维或 PV 连续时,如何对该估量进行半参数有效推断?

⚠️ 作者的 framing: - 作者把缺口 frame 成:主分层“假设过强且不可操作”,而预测分层“缺乏因果框架与推断理论”,因此 ETE 是“显然的下一步”——它用标准假设识别,且在主可忽略性下可恢复 PCE。 - 被淡化或回避的竞争路线:中介分析。PV 往往就是中介变量,但作者仅在 DAG 中画出 \(Z \to M \to Y\) 且声明不限制 \(M-Y\) 结构,却未引用自然直接/间接效应的文献(如 Pearl, Robins 的中介推断)。这可能是作者刻意区分“解释异质性”与“分解机制”的目标估量差异,但中介框架同样是处理 PV 的主流路线,其缺失值得研究者去查证:ETE 与自然效应在何种设定下等价或冲突? - 明显该存在却未出现的引用:关于对撞器偏差的调整与选择偏差的一般理论(如 Bareinboim & Pearl 的因果图一般调整公式,或 D'Amour et al. 对高维对撞器偏差的讨论),以及半参数投影估计的更一般理论(如 Van der Laan & Rubin 的 TMLE 一般框架,本文仅引用了 DML)。

张力: 未见明显对立引用。主分层与预测分层文献在本文中被整合为 ETE 的特例或近似,而非对立。但存在一个隐性张力:主分层文献认为只有条件于 \(G\) 才有因果意义,而预测分层文献认为条件于 \(\tau(X)\) 更有政策意义,本文试图通过 Theorem 2 统一两者,但该统一依赖于主可忽略性或其“轻微违反”,这本身是一个需审视的假设张力。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(X \in \mathcal{X} \subseteq \mathbb{R}^p\):基线协变量(可观测,维度可为高维)。
  • \(Z \in \{0, 1\}\):二值处理(可观测,1=处理,0=对照)。
  • \(M \in \mathbb{R}\):处理后变量 PV(可观测,可为连续或离散)。
  • \(Y \in \mathbb{R}\):结局(可观测)。
  • \(M(z), Y(z)\):潜在 PV 与潜在结局(不可观测的 counterfactual 量)。
  • \(G = [M(1), M(0)]^\top\):主分层变量(不可观测,只有 \(M(Z)\) 可观测)。
  • \(s_z(X) = E[M(z)|X]\):基于 \(X\) 的潜在 PV 期望(因果量,不可直接观测,但可识别)。
  • \(\tau(X) = r(s_1(X), s_0(X)) \in \mathbb{R}\):经验分数(empirical score),\(r\) 为用户指定的变换函数(如差值、比值、仅取 \(s_1\) 等)。
  • \(h_z(X) = E[M|Z=z, X]\):观测条件期望(可识别的统计量)。
  • \(\mu_z(X) = E[Y|Z=z, X]\):观测结局条件期望(可识别的统计量)。
  • \(\pi_z(X) = P(Z=z|X)\):倾向得分(可识别的统计量)。
  • \(e_g(X) = P(G=g|X)\):主分数(principal score,一般不可识别,除非加单调性等假设)。
  • ETE(t):经验分层处理效应,\(E[Y(1)-Y(0)|\tau(X)=t]\)(本文核心 estimand)。
  • PCE_g:主因果效应,\(E[Y(1)-Y(0)|G=g]\)(主分层框架的 estimand)。
  • \(\eta_z(t; \beta_z)\):投影工作模型(如线性 \(\beta_{z,0}+\beta_{z,1}t\))。
  • \(\beta_z\):投影参数,\(\arg\min_\beta E[(\theta_z(\tau(X)) - \eta_z(\tau(X);\beta))^2]\)(本文最终要估计的参数)。

模型:数据生成机制为 \(O_i = (X_i, Z_i, M_i, Y_i)\) iid 生成。潜在结果满足 SUTVA:\(M_i = M_i(1)Z_i + M_i(0)(1-Z_i)\)\(Y_i = Y_i(1)Z_i + Y_i(0)(1-Z_i)\)。DAG 结构为 \(X \to Z \to M \to Y\)\(X \to M, X \to Y\)\(Z \to Y\)(允许 \(M \to Y\) 且不限制其结构)。

可观测数据:研究者实际能观测到 \(n\) 个 iid 的 \(O_i = (X_i, Z_i, M_i, Y_i)\)。想要但观测不到的是 \(G_i = [M_i(1), M_i(0)]\)(即反事实 PV 对),只能靠假设(如 Treatment Ignorability)通过 \(h_z(X)\) 去识别 \(s_z(X)\),进而构造 \(\tau(X)\) 替代 \(G\)

第二步:讲最小内核

最简特例:二值 PV 与单调性下的依从分数分层。 设 \(M \in \{0,1\}\)(如是否依从处理),且满足单调性 \(M(1) \ge M(0)\)(无违抗者)。此时 \(G\) 只有三个取值:\([1,1]\)(永远接受者)、\([0,0]\)(永远拒绝者)、\([1,0]\)(依从者)。 - 选择变换 \(r(x,y) = x - y\),则 \(\tau(X) = s_1(X) - s_0(X) = P(M(1)=1|X) - P(M(0)=1|X) = P(G=[1,0]|X)\),即依从分数(compliance score)。 - 此时经验分数 \(\tau(X)\) 等于主分数 \(e_{[1,0]}(X)\),且在单调性下可识别:\(h_1(X) - h_0(X) = P(M=1|Z=1,X) - P(M=1|Z=0,X)\)。 - ETE 退化为何物?\(\text{ETE}(t) = E[Y(1)-Y(0)|\tau(X)=t]\),即“预测依从概率为 \(t\) 的子群上的平均处理效应”(即 Hu et al. 2022 的依从分数调整因果效应)。 - 与 PCE 的关系退化为何物?:Theorem 2 中的 \(\text{AvgETE}_g\) 退化为依从者子群的平均 ETE。若主可忽略性成立(\(Y(z) \perp G | X\),即给定 \(X\),是否依从不影响潜在结局),则 \(\delta_g^{(2)}(X) \equiv 0\),此时 \(\text{AvgETE}_{[1,0]} = \text{PCE}_{[1,0]}\)(依从者因果效应)。若不成立,差值为 \(E[\delta^{(1)}(X)\delta^{(2)}(X)]/E[e_g(X)]\),其中 \(\delta^{(1)}\) 是依从分数的方差(不确定性),\(\delta^{(2)}\) 是依从者与非依从者效应差(主可忽略性违反程度)。 - 证明怎么走:在这个特例下,识别只需 Treatment Ignorability(\(Z\) 随机化),无需排除限制或独立工具变量假设。ETE 的识别公式 \(\theta_z(t) = E[\mu_z(X)|\tau(X)=t]\) 直接成立。核心数学困难在于:当 \(\tau(X)\) 连续或高维离散时,\(\text{ETE}(t)\) 是一条非参数曲线,直接估计方差极大。本文通过投影 \(\eta_z(t;\beta_z)\) 将其降维为参数 \(\beta_z\),再通过计算 \(\beta_z\) 的 EIF 构造有效估计。


三、这篇论文做了什么

三句话: ① 研究了如何在不引入对撞器偏差且不依赖主分层强识别假设下,刻画处理后变量(PV)引起的异质性处理效应; ② 核心工具是用基线协变量预测潜在 PV 构造经验分数 \(\tau(X)\),定义经验分层处理效应 ETE,并将其投影到工作模型上,推导其有效影响函数(EIF)构造半参数估计器; ③ 主要结论是 ETE 在标准假设下可识别,在主可忽略性下可恢复主因果效应 PCE,且基于 EIF 与交叉拟合的估计器在干扰函数 \(o_P(n^{-1/4})\) 速率下达到 \(\sqrt{n}\) 一致与渐近正态。

关键设定与假设: - Assumption 1 (Treatment Ignorability)\(\{Y(1), Y(0), M(1), M(0)\} \perp Z | X\)。统计含义:给定基线协变量,处理分配如同随机。相比主分层文献(常需排除限制或工具变量假设),本文仅依赖此标准假设,放宽了识别条件。 - Assumption 2 (Positivity)\(c < P(Z=1|X) < 1-c\)。统计含义:处理分配概率有界,避免极端倾向得分。 - Assumption 3 (Smoothness):工作模型 \(\eta_z(t;\beta)\) 与变换函数 \(r(x,y)\) 的导数有界且 Lipschitz。统计含义:保证 EIF 存在且路径导数可计算,是半参数推断的标准技术条件。 - Principal Ignorability(仅在 Section 3 讨论,非估计所需):\(\{Y(1), Y(0)\} \perp G | X\)。统计含义:给定基线协变量,主分层成员不提供结局额外信息。相比 Ding & Lu (2017) 等用于识别 PCE 的假设,本文将其作为 ETE 近似 PCE 的充分条件,而非必需条件。

主要结果: 1. Theorem 1 (ETE 识别)\(\text{ETE}(t) = \theta_1(t) - \theta_0(t)\),其中 \(\theta_z(t) = E[\mu_z(X)|\tau(X)=t]\)。直觉:由于 \(\tau(X)\) 仅依赖 \(X\),条件于 \(\tau(X)\) 不引入对撞器偏差;又由 Assumption 1-2,\(\mu_z(X)\) 可识别 \(\theta_z(X)\),进而通过迭代期望识别 ETE。必要条件:Assumption 1-2。解决的技术难点:绕过条件于观测 \(M\) 的对撞器偏差,同时绕过 \(G\) 不可观测的问题。 2. Theorem 2 (ETE 与 PCE 的关系)\(\text{PCE}_g - \text{AvgETE}_g = E[\delta_g^{(1)}(X)\delta_g^{(2)}(X)] / E[e_g(X)]\)。直觉:ETE 与 PCE 的偏差由两部分乘积决定:主分数的不确定性 \(\delta^{(1)}\) 与主可忽略性违反程度 \(\delta^{(2)}\)。若主分数接近 0 或 1(分层确定性高)或主可忽略性成立,偏差消失。必要条件:主分数可识别(如单调性)。解决的技术难点:为经验分层提供主分层层面的因果解释,量化“假设-精简”带来的偏差。 3. Theorem 3 (EIF 估计器的渐近性质)\(\sqrt{n}(\hat{\beta}_z^{eff} - \beta_z) \xrightarrow{d} N(0, \Sigma_{\beta_z}^{eff})\)。直觉:通过 EIF 与交叉拟合,消除干扰函数估计的一阶偏差,达到半参数效率界。必要条件:干扰函数 \(\pi_z, h_z, \mu_z\) 估计速率 \(o_P(n^{-1/4})\),且交叉拟合条件成立。解决的技术难点:\(\tau(X)\) 本身是 \(h_1, h_0\) 的复合函数 \(r(h_1, h_0)\),其估计误差会传导至 ETE 估计,EIF 的第三项专门修正了 \(\tau(X)\) 估计带来的偏差。

证明路线与技术技巧: - 整体路线: 1. 定义估量:从潜在结果出发定义 ETE(t),证明其在 Assumption 1-2 下可识别为 \(\theta_z(t) = E[\mu_z(X)|\tau(X)=t]\)。 2. 投影降维:因 ETE(t) 非参数难估,定义投影参数 \(\beta_z\)\(\theta_z(\tau(X))\) 在工作模型 \(\eta_z\) 上的最小二乘投影,推导其矩条件 \(E[\eta_z^{(2)}(\tau(X);\beta)(\mu_z(X)-\eta_z(\tau(X);\beta))] = 0\)。 3. 推导 EIF:在非参数模型下,对 \(\beta_z(P_v)\) 求路径导数。由于 \(\tau(X)\) 依赖 \(h_1, h_0\),路径导数需对 \(h_z\) 求链式法则,最终得到 EIF 包含三项:原矩条件、结局残差 IPW 项、PV 残差 IPW 项(修正 \(\tau(X)\) 估计偏差)。 4. 构造估计器:用交叉拟合估计干扰函数 \(\pi_z, h_z, \mu_z\),代入 EIF 矩方程求解 \(\hat{\beta}_z^{eff}\)。 5. 渐近分析:利用经验过程理论与 Taylor 展开,证明在干扰函数 \(o_P(n^{-1/4})\) 速率下,余项为 \(o_P(n^{-1/2})\),从而得到 \(\sqrt{n}\) 一致性与渐近正态。 - 关键跳跃点Proposition 2 中 EIF 的推导。难点在于 \(\tau(X) = r(h_1(X), h_0(X))\) 是两个干扰函数的复合,路径导数 \(\frac{d}{dv}\tau(X;P_v)\) 必须对 \(h_1, h_0\) 分别展开,这导致 EIF 出现第三项 \(\eta_z^{(21)}(\mu_z-\eta_z) - \eta_z^{(2)}\eta_z^{(1)}\) 乘以 \([Z r^{(1)}(h_1,h_0)/\pi_1 (M-h_1) + (1-Z) r^{(2)}(h_1,h_0)/\pi_0 (M-h_0)]\)。这一项是本文区别于普通 CATE 投影估计(如 Kennedy 2023)的核心,它专门处理了“分层变量本身是估计量”带来的额外偏差。 - 技术技巧点名: - Efficient Influence Function (EIF):用于构造半参数有效估计器,计算路径导数得到效率界。 - Cross-fitting / DML:用于消除机器学习估计干扰函数时的过拟合偏差,保证余项收敛。 - Pathwise derivative / 链式法则:在推导 EIF 时,对复合函数 \(\tau(X)=r(h_1, h_0)\) 求导,分离出对 \(h_1, h_0\) 的依赖。 - P-Donsker class:Theorem 3 条件 中要求 EIF 估计函数类是 P-Donsker,以保证经验过程的随机等连续性,这是标准半参数渐近理论工具。 - Taylor expansion / 余项控制:证明渐近正态时,对干扰函数误差进行二阶展开,利用 \(o_P(n^{-1/4})\) 速率控制交叉项为 \(o_P(n^{-1/2})\)

真实例子与应用: 1. WHO-LARES 研究: - 场景:潮湿住房 (Z) 对抑郁 (Y) 的影响,PV 为潮湿相关疾病 (M)。 - 怎么用:定义 \(\tau(X) = s_1(X) = P(M(1)=1|X)\)(暴露下患病预测概率,即脆弱性分数)。使用线性工作模型 projETE(t) = \(\beta_{diff,0} + \beta_{diff,1} t\)。 - 结果\(\hat{\beta}_{diff,1}^{eff-ml} = 0.202\) (SE=0.120)。表明脆弱性分数越高(越易患潮湿病),潮湿住房对抑郁的 adverse effect 越大。 - 说明什么:验证了 ETE 框架在观测数据中能提取 PV 相关异质性,且政策含义明确:应优先干预高脆弱性人群。 2. National Job Corps 研究: - 场景:职业培训分配 (Z) 对收入 (Y) 的影响,PV 为实际参与 (M)(存在非依从)。 - 怎么用:单调性下,定义 \(\tau(X) = s_1(X) - s_0(X)\)(依从分数)。使用线性 projETE。 - 结果\(\hat{\beta}_{diff,1}^{eff-ml} = 72.73\) (SE=35.73)。表明依从概率越高,培训分配对收入的提升越大。 - 说明什么:展示了 ETE 在随机试验非依从场景下与依从分数调整效应的等价性,且 EIF 估计器在参数/ML 干扰函数下均稳健。

🔎 结论是否比证明窄: - Theorem 2 的陈述“AvgETE_g can approximate the PCE well... when, for most individuals, either \(\delta_g^{(1)}(X)\) or \(\delta_g^{(2)}(X)\) is small”是一个定性判断。证明仅给出了偏差的精确分解公式 \(E[\delta^{(1)}\delta^{(2)}]/E[e_g]\),但并未给出“近似良好”的定量界(如偏差的 \(L_2\) 范数上界),也未给出 \(\delta^{(2)}\) 大时偏差的单调性分析。作者在文中泛泛 claim 它是“robust approximation”,但严格证明只停留在分解层面,未证明其鲁棒性的定量衰减率。


四、开放问题(点到为止)

  1. 对处理可忽略性违反的敏感性分析:本文 ETE 识别依赖 Assumption 1,作者在 Section 7 明确指出“analysis may be biased due to unmeasured confounding”并留作延伸。要估什么:在未观测混淆 \(U\) 存在时,ETE(t) 的偏差界或边界。扎根点:Section 7 第一段 limitation。
  2. 连续 ETE 的非参数局部估计:投影曲线依赖工作模型,可能掩盖非线性模式。要估什么:用核平滑估计 ETE(t) 的逐点值及其置信带。扎根点:Section 7 第二段“develop kernel smoothing estimators”。
  3. 多 PV 联合经验分层:实际常有多个 PV(如非依从 + 中间事件)。要证什么:定义 \(\tau(X)\) 为多维 PV 预测响应轮廓的联合变换,推导多维 ETE 的识别与 EIF。扎根点:Section 7 第三段“extending empirical stratification to this setting would require defining empirical strata based on the joint predicted response profile of multiple PVs”。
  4. 主可忽略性违反的定量敏感性:Theorem 2 给出偏差分解,但未给出 \(\delta^{(2)}(X)\)(主可忽略性违反度)多大时 AvgETE 不再是 PCE 的好近似。要估什么:在 \(\delta^{(2)}\) 的某种范数约束下,PCE 与 AvgETE 偏差的定量上界,或构造关于 \(\delta^{(2)}\) 的敏感性参数曲线。扎根点:Theorem 2 后的讨论“when principal ignorability is mildly violated, it can still serve as a good approximation”——此处的“mildly”缺乏定量定义。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论