Empirical stratification for treatment effect heterogeneity with post-treatment variables¶

作者: Chao Cheng, Rui Wang, Yichi Zhang
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.11013

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：如何刻画和处理变量（Post-treatment Variables, PVs，如非依从、中间事件、行为响应）带来的异质性处理效应。传统异质性处理效应（HTE）方法条件于基线协变量，但 PVs 本身受处理影响，直接条件于观测 PV 会引入内生选择偏差（对撞器偏差）；主分层框架虽在潜在结果层面定义了严谨的因果效应，但主分层不可观测且识别需强假设。当前该方向的成熟度处于“有严谨框架（主分层）但假设过强、有实用尝试（预测分层）但缺乏正式因果推断与有效估计理论”的过渡期。

发展脉络： 1. 奠基工作（基线 HTE 与对撞器偏差）：早期 HTE 方法聚焦基线协变量（Wager and Athey, 2018; Semenova and Chernozhukov, 2021; Kennedy, 2023; Chernozhukov et al., 2025）。当研究者试图加入 PV 时，Elwert and Winship (2014) 与 Montgomery et al. (2018) 指出条件于受处理影响的变量会引发内生选择偏差，这构成了本方向的根本禁忌。 2. 主要进展（主分层框架）：Frangakis and Rubin (2002) 提出主分层，用联合潜在 PV \(G=[M(1), M(0)]\) 定义子群，解决了对撞器偏差，但 \(G\) 不可观测。后续工作致力于识别主因果效应（PCE）：Angrist et al. (1996) 引入单调性与工具变量假设；Ding and Lu (2017)、Feller et al. (2017)、Forastiere et al. (2018)、Jiang and Ding (2021) 引入主可忽略性以放宽识别条件；Lu et al. (2026) 与 Zhang and Yang (2025) 处理连续 PV 下的识别。这些工作留下了“识别假设过强且不可验证”的口子（作者原话："identification of PCEs often requires additional structural assumptions... typically problem-specific and unverifiable"）。 3. 当前 frontier（预测型分层与经验替代）：部分工作尝试用基线协变量预测 PV 来构造可观测子群：VanderWeele et al. (2012) 用预测风险分层；Follmann (2000)、Joffe et al. (2003)、Hu et al. (2022) 用依从分数分层；Abadie et al. (2018) 用 \(E[Y(0)|X]\) 做内生分层；Kennedy et al. (2020) 用依从分数定义子群但目标为处理接收效应。这些工作留下了“缺乏正式因果推断框架与半参数有效估计理论”的口子（作者原话："no general assumption-lean statistical framework for characterizing treatment effect heterogeneity with respect to PVs"）。 4. 本文的位置：本文提出经验分层框架，用 \(\tau(X)=r(E[M(1)|X], E[M(0)|X])\) 替代不可观测的 \(G\)，在标准假设下识别 ETE，并用投影与 EIF 构造半参数有效估计器，试图填补“主分层假设过强”与“预测分层缺乏理论”之间的空白。

子线索聚类： - 线索 1：主分层识别理论（Frangakis & Rubin; Ding & Lu; Lu et al.; Zhang & Yang）：致力于在 \(G\) 不可观测下，通过单调性、主可忽略性、copula 模型等结构假设识别 PCE。瓶颈在于假设不可验证。 - 线索 2：预测型/依从分数分层实践（VanderWeele et al.; Follmann; Joffe; Hu et al.; Abadie et al.）：用基线预测的 PV 概率或依从分数划分子群做实证分析。瓶颈在于缺乏正式因果解释与有效推断。 - 线索 3：基线 HTE 估计理论（Wager & Athey; Kennedy; Chernozhukov et al.）：聚焦条件于 \(X\) 的 CATE 估计与推断。瓶颈在于无法处理 PV 引起的异质性。

这个方向在追问的核心问题： 1. 如何在不引入对撞器偏差的前提下，利用 PV 信息刻画处理效应异质性？ 2. 能否在比主分层更弱的假设下，定义一个既有因果解释又可识别的 PV 相关 HTE 估量？ 3. 当基线协变量高维或 PV 连续时，如何对该估量进行半参数有效推断？

⚠️ 作者的 framing： - 作者把缺口 frame 成：主分层“假设过强且不可操作”，而预测分层“缺乏因果框架与推断理论”，因此 ETE 是“显然的下一步”——它用标准假设识别，且在主可忽略性下可恢复 PCE。 - 被淡化或回避的竞争路线：中介分析。PV 往往就是中介变量，但作者仅在 DAG 中画出 \(Z \to M \to Y\) 且声明不限制 \(M-Y\) 结构，却未引用自然直接/间接效应的文献（如 Pearl, Robins 的中介推断）。这可能是作者刻意区分“解释异质性”与“分解机制”的目标估量差异，但中介框架同样是处理 PV 的主流路线，其缺失值得研究者去查证：ETE 与自然效应在何种设定下等价或冲突？ - 明显该存在却未出现的引用：关于对撞器偏差的调整与选择偏差的一般理论（如 Bareinboim & Pearl 的因果图一般调整公式，或 D'Amour et al. 对高维对撞器偏差的讨论），以及半参数投影估计的更一般理论（如 Van der Laan & Rubin 的 TMLE 一般框架，本文仅引用了 DML）。

张力：未见明显对立引用。主分层与预测分层文献在本文中被整合为 ETE 的特例或近似，而非对立。但存在一个隐性张力：主分层文献认为只有条件于 \(G\) 才有因果意义，而预测分层文献认为条件于 \(\tau(X)\) 更有政策意义，本文试图通过 Theorem 2 统一两者，但该统一依赖于主可忽略性或其“轻微违反”，这本身是一个需审视的假设张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X \in \mathcal{X} \subseteq \mathbb{R}^p\)：基线协变量（可观测，维度可为高维）。
\(Z \in \{0, 1\}\)：二值处理（可观测，1=处理，0=对照）。
\(M \in \mathbb{R}\)：处理后变量 PV（可观测，可为连续或离散）。
\(Y \in \mathbb{R}\)：结局（可观测）。
\(M(z), Y(z)\)：潜在 PV 与潜在结局（不可观测的 counterfactual 量）。
\(G = [M(1), M(0)]^\top\)：主分层变量（不可观测，只有 \(M(Z)\) 可观测）。
\(s_z(X) = E[M(z)|X]\)：基于 \(X\) 的潜在 PV 期望（因果量，不可直接观测，但可识别）。
\(\tau(X) = r(s_1(X), s_0(X)) \in \mathbb{R}\)：经验分数（empirical score），\(r\) 为用户指定的变换函数（如差值、比值、仅取 \(s_1\) 等）。
\(h_z(X) = E[M|Z=z, X]\)：观测条件期望（可识别的统计量）。
\(\mu_z(X) = E[Y|Z=z, X]\)：观测结局条件期望（可识别的统计量）。
\(\pi_z(X) = P(Z=z|X)\)：倾向得分（可识别的统计量）。
\(e_g(X) = P(G=g|X)\)：主分数（principal score，一般不可识别，除非加单调性等假设）。
ETE(t)：经验分层处理效应，\(E[Y(1)-Y(0)|\tau(X)=t]\)（本文核心 estimand）。
PCE_g：主因果效应，\(E[Y(1)-Y(0)|G=g]\)（主分层框架的 estimand）。
\(\eta_z(t; \beta_z)\)：投影工作模型（如线性 \(\beta_{z,0}+\beta_{z,1}t\)）。
\(\beta_z\)：投影参数，\(\arg\min_\beta E[(\theta_z(\tau(X)) - \eta_z(\tau(X);\beta))^2]\)（本文最终要估计的参数）。

模型：数据生成机制为 \(O_i = (X_i, Z_i, M_i, Y_i)\) iid 生成。潜在结果满足 SUTVA：\(M_i = M_i(1)Z_i + M_i(0)(1-Z_i)\)，\(Y_i = Y_i(1)Z_i + Y_i(0)(1-Z_i)\)。DAG 结构为 \(X \to Z \to M \to Y\) 且 \(X \to M, X \to Y\)，\(Z \to Y\)（允许 \(M \to Y\) 且不限制其结构）。

可观测数据：研究者实际能观测到 \(n\) 个 iid 的 \(O_i = (X_i, Z_i, M_i, Y_i)\)。想要但观测不到的是 \(G_i = [M_i(1), M_i(0)]\)（即反事实 PV 对），只能靠假设（如 Treatment Ignorability）通过 \(h_z(X)\) 去识别 \(s_z(X)\)，进而构造 \(\tau(X)\) 替代 \(G\)。

第二步：讲最小内核

最简特例：二值 PV 与单调性下的依从分数分层。设 \(M \in \{0,1\}\)（如是否依从处理），且满足单调性 \(M(1) \ge M(0)\)（无违抗者）。此时 \(G\) 只有三个取值：\([1,1]\)（永远接受者）、\([0,0]\)（永远拒绝者）、\([1,0]\)（依从者）。 - 选择变换 \(r(x,y) = x - y\)，则 \(\tau(X) = s_1(X) - s_0(X) = P(M(1)=1|X) - P(M(0)=1|X) = P(G=[1,0]|X)\)，即依从分数（compliance score）。 - 此时经验分数 \(\tau(X)\) 等于主分数 \(e_{[1,0]}(X)\)，且在单调性下可识别：\(h_1(X) - h_0(X) = P(M=1|Z=1,X) - P(M=1|Z=0,X)\)。 - ETE 退化为何物？：\(\text{ETE}(t) = E[Y(1)-Y(0)|\tau(X)=t]\)，即“预测依从概率为 \(t\) 的子群上的平均处理效应”（即 Hu et al. 2022 的依从分数调整因果效应）。 - 与 PCE 的关系退化为何物？：Theorem 2 中的 \(\text{AvgETE}_g\) 退化为依从者子群的平均 ETE。若主可忽略性成立（\(Y(z) \perp G | X\)，即给定 \(X\)，是否依从不影响潜在结局），则 \(\delta_g^{(2)}(X) \equiv 0\)，此时 \(\text{AvgETE}_{[1,0]} = \text{PCE}_{[1,0]}\)（依从者因果效应）。若不成立，差值为 \(E[\delta^{(1)}(X)\delta^{(2)}(X)]/E[e_g(X)]\)，其中 \(\delta^{(1)}\) 是依从分数的方差（不确定性），\(\delta^{(2)}\) 是依从者与非依从者效应差（主可忽略性违反程度）。 - 证明怎么走：在这个特例下，识别只需 Treatment Ignorability（\(Z\) 随机化），无需排除限制或独立工具变量假设。ETE 的识别公式 \(\theta_z(t) = E[\mu_z(X)|\tau(X)=t]\) 直接成立。核心数学困难在于：当 \(\tau(X)\) 连续或高维离散时，\(\text{ETE}(t)\) 是一条非参数曲线，直接估计方差极大。本文通过投影 \(\eta_z(t;\beta_z)\) 将其降维为参数 \(\beta_z\)，再通过计算 \(\beta_z\) 的 EIF 构造有效估计。

三、这篇论文做了什么¶

三句话： ① 研究了如何在不引入对撞器偏差且不依赖主分层强识别假设下，刻画处理后变量（PV）引起的异质性处理效应； ② 核心工具是用基线协变量预测潜在 PV 构造经验分数 \(\tau(X)\)，定义经验分层处理效应 ETE，并将其投影到工作模型上，推导其有效影响函数（EIF）构造半参数估计器； ③ 主要结论是 ETE 在标准假设下可识别，在主可忽略性下可恢复主因果效应 PCE，且基于 EIF 与交叉拟合的估计器在干扰函数 \(o_P(n^{-1/4})\) 速率下达到 \(\sqrt{n}\) 一致与渐近正态。

关键设定与假设： - Assumption 1 (Treatment Ignorability)：\(\{Y(1), Y(0), M(1), M(0)\} \perp Z | X\)。统计含义：给定基线协变量，处理分配如同随机。相比主分层文献（常需排除限制或工具变量假设），本文仅依赖此标准假设，放宽了识别条件。 - Assumption 2 (Positivity)：\(c < P(Z=1|X) < 1-c\)。统计含义：处理分配概率有界，避免极端倾向得分。 - Assumption 3 (Smoothness)：工作模型 \(\eta_z(t;\beta)\) 与变换函数 \(r(x,y)\) 的导数有界且 Lipschitz。统计含义：保证 EIF 存在且路径导数可计算，是半参数推断的标准技术条件。 - Principal Ignorability（仅在 Section 3 讨论，非估计所需）：\(\{Y(1), Y(0)\} \perp G | X\)。统计含义：给定基线协变量，主分层成员不提供结局额外信息。相比 Ding & Lu (2017) 等用于识别 PCE 的假设，本文将其作为 ETE 近似 PCE 的充分条件，而非必需条件。

主要结果： 1. Theorem 1 (ETE 识别)：\(\text{ETE}(t) = \theta_1(t) - \theta_0(t)\)，其中 \(\theta_z(t) = E[\mu_z(X)|\tau(X)=t]\)。直觉：由于 \(\tau(X)\) 仅依赖 \(X\)，条件于 \(\tau(X)\) 不引入对撞器偏差；又由 Assumption 1-2，\(\mu_z(X)\) 可识别 \(\theta_z(X)\)，进而通过迭代期望识别 ETE。必要条件：Assumption 1-2。解决的技术难点：绕过条件于观测 \(M\) 的对撞器偏差，同时绕过 \(G\) 不可观测的问题。 2. Theorem 2 (ETE 与 PCE 的关系)：\(\text{PCE}_g - \text{AvgETE}_g = E[\delta_g^{(1)}(X)\delta_g^{(2)}(X)] / E[e_g(X)]\)。直觉：ETE 与 PCE 的偏差由两部分乘积决定：主分数的不确定性 \(\delta^{(1)}\) 与主可忽略性违反程度 \(\delta^{(2)}\)。若主分数接近 0 或 1（分层确定性高）或主可忽略性成立，偏差消失。必要条件：主分数可识别（如单调性）。解决的技术难点：为经验分层提供主分层层面的因果解释，量化“假设-精简”带来的偏差。 3. Theorem 3 (EIF 估计器的渐近性质)：\(\sqrt{n}(\hat{\beta}_z^{eff} - \beta_z) \xrightarrow{d} N(0, \Sigma_{\beta_z}^{eff})\)。直觉：通过 EIF 与交叉拟合，消除干扰函数估计的一阶偏差，达到半参数效率界。必要条件：干扰函数 \(\pi_z, h_z, \mu_z\) 估计速率 \(o_P(n^{-1/4})\)，且交叉拟合条件成立。解决的技术难点：\(\tau(X)\) 本身是 \(h_1, h_0\) 的复合函数 \(r(h_1, h_0)\)，其估计误差会传导至 ETE 估计，EIF 的第三项专门修正了 \(\tau(X)\) 估计带来的偏差。

证明路线与技术技巧： - 整体路线： 1. 定义估量：从潜在结果出发定义 ETE(t)，证明其在 Assumption 1-2 下可识别为 \(\theta_z(t) = E[\mu_z(X)|\tau(X)=t]\)。 2. 投影降维：因 ETE(t) 非参数难估，定义投影参数 \(\beta_z\) 为 \(\theta_z(\tau(X))\) 在工作模型 \(\eta_z\) 上的最小二乘投影，推导其矩条件 \(E[\eta_z^{(2)}(\tau(X);\beta)(\mu_z(X)-\eta_z(\tau(X);\beta))] = 0\)。 3. 推导 EIF：在非参数模型下，对 \(\beta_z(P_v)\) 求路径导数。由于 \(\tau(X)\) 依赖 \(h_1, h_0\)，路径导数需对 \(h_z\) 求链式法则，最终得到 EIF 包含三项：原矩条件、结局残差 IPW 项、PV 残差 IPW 项（修正 \(\tau(X)\) 估计偏差）。 4. 构造估计器：用交叉拟合估计干扰函数 \(\pi_z, h_z, \mu_z\)，代入 EIF 矩方程求解 \(\hat{\beta}_z^{eff}\)。 5. 渐近分析：利用经验过程理论与 Taylor 展开，证明在干扰函数 \(o_P(n^{-1/4})\) 速率下，余项为 \(o_P(n^{-1/2})\)，从而得到 \(\sqrt{n}\) 一致性与渐近正态。 - 关键跳跃点：Proposition 2 中 EIF 的推导。难点在于 \(\tau(X) = r(h_1(X), h_0(X))\) 是两个干扰函数的复合，路径导数 \(\frac{d}{dv}\tau(X;P_v)\) 必须对 \(h_1, h_0\) 分别展开，这导致 EIF 出现第三项 \(\eta_z^{(21)}(\mu_z-\eta_z) - \eta_z^{(2)}\eta_z^{(1)}\) 乘以 \([Z r^{(1)}(h_1,h_0)/\pi_1 (M-h_1) + (1-Z) r^{(2)}(h_1,h_0)/\pi_0 (M-h_0)]\)。这一项是本文区别于普通 CATE 投影估计（如 Kennedy 2023）的核心，它专门处理了“分层变量本身是估计量”带来的额外偏差。 - 技术技巧点名： - Efficient Influence Function (EIF)：用于构造半参数有效估计器，计算路径导数得到效率界。 - Cross-fitting / DML：用于消除机器学习估计干扰函数时的过拟合偏差，保证余项收敛。 - Pathwise derivative / 链式法则：在推导 EIF 时，对复合函数 \(\tau(X)=r(h_1, h_0)\) 求导，分离出对 \(h_1, h_0\) 的依赖。 - P-Donsker class：Theorem 3 条件中要求 EIF 估计函数类是 P-Donsker，以保证经验过程的随机等连续性，这是标准半参数渐近理论工具。 - Taylor expansion / 余项控制：证明渐近正态时，对干扰函数误差进行二阶展开，利用 \(o_P(n^{-1/4})\) 速率控制交叉项为 \(o_P(n^{-1/2})\)。

真实例子与应用： 1. WHO-LARES 研究： - 场景：潮湿住房 (Z) 对抑郁 (Y) 的影响，PV 为潮湿相关疾病 (M)。 - 怎么用：定义 \(\tau(X) = s_1(X) = P(M(1)=1|X)\)（暴露下患病预测概率，即脆弱性分数）。使用线性工作模型 projETE(t) = \(\beta_{diff,0} + \beta_{diff,1} t\)。 - 结果：\(\hat{\beta}_{diff,1}^{eff-ml} = 0.202\) (SE=0.120)。表明脆弱性分数越高（越易患潮湿病），潮湿住房对抑郁的 adverse effect 越大。 - 说明什么：验证了 ETE 框架在观测数据中能提取 PV 相关异质性，且政策含义明确：应优先干预高脆弱性人群。 2. National Job Corps 研究： - 场景：职业培训分配 (Z) 对收入 (Y) 的影响，PV 为实际参与 (M)（存在非依从）。 - 怎么用：单调性下，定义 \(\tau(X) = s_1(X) - s_0(X)\)（依从分数）。使用线性 projETE。 - 结果：\(\hat{\beta}_{diff,1}^{eff-ml} = 72.73\) (SE=35.73)。表明依从概率越高，培训分配对收入的提升越大。 - 说明什么：展示了 ETE 在随机试验非依从场景下与依从分数调整效应的等价性，且 EIF 估计器在参数/ML 干扰函数下均稳健。

🔎 结论是否比证明窄： - Theorem 2 的陈述“AvgETE_g can approximate the PCE well... when, for most individuals, either \(\delta_g^{(1)}(X)\) or \(\delta_g^{(2)}(X)\) is small”是一个定性判断。证明仅给出了偏差的精确分解公式 \(E[\delta^{(1)}\delta^{(2)}]/E[e_g]\)，但并未给出“近似良好”的定量界（如偏差的 \(L_2\) 范数上界），也未给出 \(\delta^{(2)}\) 大时偏差的单调性分析。作者在文中泛泛 claim 它是“robust approximation”，但严格证明只停留在分解层面，未证明其鲁棒性的定量衰减率。

四、开放问题（点到为止）¶

对处理可忽略性违反的敏感性分析：本文 ETE 识别依赖 Assumption 1，作者在 Section 7 明确指出“analysis may be biased due to unmeasured confounding”并留作延伸。要估什么：在未观测混淆 \(U\) 存在时，ETE(t) 的偏差界或边界。扎根点：Section 7 第一段 limitation。
连续 ETE 的非参数局部估计：投影曲线依赖工作模型，可能掩盖非线性模式。要估什么：用核平滑估计 ETE(t) 的逐点值及其置信带。扎根点：Section 7 第二段“develop kernel smoothing estimators”。
多 PV 联合经验分层：实际常有多个 PV（如非依从 + 中间事件）。要证什么：定义 \(\tau(X)\) 为多维 PV 预测响应轮廓的联合变换，推导多维 ETE 的识别与 EIF。扎根点：Section 7 第三段“extending empirical stratification to this setting would require defining empirical strata based on the joint predicted response profile of multiple PVs”。
主可忽略性违反的定量敏感性：Theorem 2 给出偏差分解，但未给出 \(\delta^{(2)}(X)\)（主可忽略性违反度）多大时 AvgETE 不再是 PCE 的好近似。要估什么：在 \(\delta^{(2)}\) 的某种范数约束下，PCE 与 AvgETE 偏差的定量上界，或构造关于 \(\delta^{(2)}\) 的敏感性参数曲线。扎根点：Theorem 2 后的讨论“when principal ignorability is mildly violated, it can still serve as a good approximation”——此处的“mildly”缺乏定量定义。

Maintained by 陈星宇 · Homepage · Source on GitHub

Empirical stratification for treatment effect heterogeneity with post-treatment variables¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论