Semiparametric Principal Stratification Analysis Beyond Monotonicity¶
作者: Jiaqi Tong, Brennan Kahan, Michael O. Harhay, Fan Li
来源: Statistica Sinica
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么:主分层分析要解决的根本统计问题是:当中间事件(如治疗不依从、死亡、截断)发生后,如何定义和估计因果效应?由于中间事件本身受处理影响(即存在内生性),基于观测到的中间事件分层会引入选择偏倚。主分层通过在潜在中间变量(counterfactual intermediate)定义的亚组内估计局部平均处理效应,试图避开这一偏倚。当前该方向的成熟度较高,已有成熟的单调性框架与工具变量估计路线(如 CACE/LATE),但在放宽单调性等核心限制性假设后的非参数识别与半参数有效估计方面,仍处于从"特殊参数化模型"向"一般半参数框架"过渡的阶段。
发展脉络: - 奠基工作:Frangakis & Rubin (2002) 提出主分层框架,将因果效应定义在由潜在中间变量 \((S(1), S(0))\) 交叉定义的亚组上,解决了"中间后处理变量"导致的选样偏倚问题。但该工作留下一个口子:主分层效应一般不可识别,需要强假设。 - 主要进展(单调性路线):Angrist et al. (1996) 与 Imbens & Rubin (1997) 引入单调性假设(如 \(S(1) \ge S(0)\),排除 defier),结合工具变量(IV)使 CACE/LATE 成为可识别且可估的 estimand。这条路线在二值处理-二值中间变量下已成为教科书标准,但单调性在许多场景(如死亡截断、非依从方向不确定)下不可信。 - 主要进展(非单调性下的参数化尝试):为绕开单调性,后续工作转向参数化或半参数化约束。例如,Robins (1986) 的 g-computation 与 VanderWeele (2011) 的边际结构模型在特定参数设定下可处理非单调性;但作者在 intro 中明确指出这些方法"often rely on restrictive assumptions such as monotonicity and counterfactual intermediate independence",即要么退回单调性,要么依赖参数化模型。 - 当前 frontier(敏感性分析路线):近期工作开始用敏感性参数处理非单调性。作者引用了 Richardson et al. (2014) 与 Robins et al. (2000) 的相关工作,指出已有尝试将无边际条件优势比(margin-free conditional odds ratio)用于因果敏感性分析。本文的位置:将这一优势比敏感性参数工具首次系统嵌入主分层框架,结合 principal ignorability 假设,给出非参数识别公式与半参数有效估计器。
子线索聚类: 1. IV + 单调性路线:以二值 IV 为核心,在单调性下识别 CACE。代表:Angrist et al. (1996), Imbens & Rubin (1997)。这一簇在二值设定下有完备理论,但无法处理 defier 或连续中间变量。 2. Principal ignorability 路线:假设主分层标签与潜在结局独立(或条件独立),从而无需单调性即可识别。代表:Follmann (2000), Ding & Lu (2017)。这一簇放宽了单调性,但 ignorability 本身是强不可验假设。 3. 敏感性分析路线:不假设单调性或 ignorability 严格成立,而是引入敏感性参数刻画偏离程度,在给定参数值下识别。代表:Robins et al. (2000) 的 g-敏感性分析。本文属于此簇,但将敏感性参数具体化为 odds ratio。
这个方向在追问的核心问题: 1. 非单调性下的非参数识别:在没有单调性时,主分层效应能否在不依赖参数化模型的情况下被识别?已知瓶颈:纯非参数下不可识别,必须引入额外约束。 2. 敏感性参数的选择与性质:用什么参数刻画非单调性的偏离?已知瓶颈:许多敏感性参数(如风险比)依赖边际分布,随协变量调整而变,不具"跨模型稳定性"。 3. 半参数有效估计:识别公式往往涉及高维 nuisance functions,如何在不依赖参数化模型的情况下得到 \(\sqrt{n}\)-一致且有效的估计?已知瓶颈:传统 IV 估计器在非单调性下失效; nuisance 估计误差常污染主估计量。
⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:现有方法要么依赖单调性(不可信),要么依赖参数化模型(不稳健),而本文的 odds ratio 敏感性参数 + principal ignorability 是"显然的下一步",因为它既放宽了单调性,又保持了非参数识别的灵活性。 - 被淡化或回避的竞争路线:作者未深入讨论纯 IV 路线在非单调性下的近期进展(如基于工具变量不等式的部分识别 / bounds 方法,如 Balke & Pearl 的 IV bounds),也未讨论mediation analysis 路线(如 VanderWeele 的反事实中介分解,同样处理中间变量但走不同 estimand 路线)。 - 什么明显该被引 / 该存在、却没出现在 intro 里?:在"非单调性下的主分层"这一子线索上,部分识别与 bounds 方法是自然竞争者——不假设单调性时,最保守的做法是给出 bounds 而非点识别。Intro 未引用任何 bounds 文献(如 Manski, Balke & Pearl)。这是一个值得研究者去查的缺口:作者选择点识别 + 敏感性分析路线,是否因为 bounds 在实践中太宽而无用?还是存在更紧的 bounds 方法被遗漏?
张力:未见明显对立引用。但存在隐含张力:principal ignorability 假设(主分层与潜在结局独立)与单调性假设在逻辑上是替代关系——前者不要求后者,但前者本身也是强假设。作者在模拟中展示了"错设单调性偏倚大,错设非单调性(即 ignorability)偏倚小",这一结论是否在所有数据生成机制下成立?需研究者自行核验模拟设定。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(Z\):二值处理/工具变量(如随机化分配),\(Z \in \{0, 1\}\)。
- \(S\):中间后处理变量(如依从状态、死亡),可观测。\(S(1), S(0)\):\(S\) 在 \(Z=1\) 和 \(Z=0\) 下的潜在值。
- \(Y\):最终结局,可观测。\(Y(1), Y(0)\):\(Y\) 在 \(Z=1\) 和 \(Z=0\) 下的潜在值。
- 主分层 \(G\):由 \((S(1), S(0))\) 的组合定义的亚组。例如,若 \(S\) 为二值,则 \(G \in \{c, d, n, a\}\)(complier, defier, never-taker, always-taker)。
- 目标 estimand:主分层因果效应 \(\tau_g = E[Y(1) - Y(0) \mid G = g]\),特别关注 complier 效应 \(\tau_c\)。
- \(\pi_g = P(G = g)\):主分层比例。
-
\(\theta\):敏感性参数,定义为 \((S(1), S(0))\) 与 \((Y(1), Y(0))\) 之间的条件优势比(conditional odds ratio),具体形式后述。
-
随机变量 / 样本:
- 可观测数据:\((X_i, Z_i, S_i, Y_i)\),\(i=1,\ldots,n\)。\(X\) 为协变量向量。
-
不可观测:\((S_i(1), S_i(0), Y_i(1), Y_i(0))\)——对每个个体只能观测到一个潜在中间值和一个潜在结局值。
-
维数 / 样本量等指标:
- \(n\):样本量。
-
\(p\):协变量 \(X\) 的维数(在 DML 估计器中可高维)。
-
模型与数据生成机制:
- 随机化:\(Z\) 独立于所有潜在变量(RCT 场景)或条件独立于潜在变量给定 \(X\)(观察性场景)。
- 中间变量与结局的联合分布:\(P(S(1), S(0), Y(1), Y(0) \mid X)\) 无参数化约束,属于半参数模型。
- 关键约束:principal ignorability 假设 \(G \perp (Y(1), Y(0)) \mid X\)(或条件版本),以及敏感性参数 \(\theta\) 的固定值假设。
第二步:最小内核——二值 \(S\)、无协变量 \(X\) 下的 complier 效应识别
剥掉所有协变量和高维 nuisance,考虑最简特例:\(S\) 为二值(如依从/不依从),\(X\) 为空,\(Z\) 为二值 RCT 分配。此时主分层 \(G \in \{c, d, n, a\}\),目标为 \(\tau_c = E[Y(1)-Y(0) \mid G=c]\)。
-
单调性下的经典识别:若假设单调性(\(S(1) \ge S(0)\),即 \(\pi_d = 0\)),则 complier 比例 \(\pi_c = P(S=1 \mid Z=1) - P(S=1 \mid Z=0)\),且 \(\tau_c = \frac{E[Y \mid Z=1] - E[Y \mid Z=0]}{\pi_c}\)(即 Wald 估计量/IV 估计量)。这是 Angrist-Imbens 的经典结果。
-
本文最小内核:非单调性下的 odds ratio 识别:去掉单调性,\(\pi_d\) 不为零。此时 \(\pi_c\) 和 \(\tau_c\) 不可从观测分布非参数识别。本文引入:
- Principal ignorability:\(G \perp (Y(1), Y(0))\)(无 \(X\) 时为边际版本)。这意味着 complier 与 never-taker/always-taker 的潜在结局分布相同:\(E[Y(z) \mid G=c] = E[Y(z) \mid G=n] = E[Y(z) \mid G=a]\),\(z=0,1\)。
- Odds ratio 敏感性参数 \(\theta\):定义 \(\theta\) 为 \((S(1), S(0))\) 与 \((Y(1), Y(0))\) 之间的边际优势比偏离。在 principal ignorability 下,\(\theta=1\);偏离时 \(\theta \neq 1\) 刻画 ignorability 的失效程度。
在给定 \(\theta\) 下,识别公式退化为: - \(\pi_c\) 和 \(\pi_d\) 可从观测的 \(P(S \mid Z)\) 和 \(\theta\) 解出(因为 \(P(S(1), S(0))\) 的四个概率由 \(\pi_c, \pi_d, \pi_n, \pi_a\) 构成,观测的 \(P(S=1 \mid Z=1)\) 和 \(P(S=1 \mid Z=0)\) 提供两个方程,\(\theta\) 提供第三个约束,加上概率归一化,四个未知数三个独立方程,可解出 \(\pi_c\) 等)。 - \(\tau_c\) 通过 principal ignorability(或 \(\theta\) 校正后的条件)从观测的 \(E[Y \mid Z, S]\) 中组合出。
核心数学困难:在非单调性下,观测分布只提供 \(P(S \mid Z)\) 和 \(P(Y \mid Z, S)\) 的信息,而主分层分布 \(P(S(1), S(0), Y(1), Y(0))\) 有更多自由度。需要额外约束才能点识别。本文的关键想法:用无边际条件优势比(margin-free conditional odds ratio)作为敏感性参数,它不依赖 \(S\) 或 \(Y\) 的边际分布,因此在协变量调整下保持稳定(不像风险比那样随 \(P(S=1)\) 变化而变),且在 \(\theta=1\) 时精确对应 principal ignorability。
三、这篇论文做了什么¶
三句话: ① 研究了主分层分析中放宽单调性假设后的非参数识别与半参数有效估计问题。 ② 核心工具是无边际条件优势比(margin-free conditional odds ratio)作为敏感性参数,结合 principal ignorability 假设。 ③ 主要结论:在给定 \(\theta\) 下,主分层效应有非参数识别公式;条件双稳健估计器在 nuisance 模型之一正确时一致;DML 估计器在 nuisance 估计收敛速率满足 \(r_n \cdot s_n = o(n^{-1/2})\) 时达到 \(\sqrt{n}\)-一致且半参数有效。
关键设定与假设: - 设定:二值 \(Z\),一般 \(S\)(可多值或连续),协变量 \(X\) 可高维。潜在变量 \((S(1), S(0), Y(1), Y(0))\)。 - 假设 1:Unconfoundedness of \(Z\):\(Z \perp (S(1), S(0), Y(1), Y(0)) \mid X\)(RCT 下边际独立也成立)。统计含义:处理分配无混杂,是 IV 框架的基础。与已有文献一致,未放宽。 - 假设 2:Principal ignorability (PI):\(G \perp (Y(1), Y(0)) \mid X\)。统计含义:给定协变量,主分层标签不携带潜在结局信息(complier 与 never-taker 的潜在结局分布条件相同)。相比单调性假设,PI 是替代性约束:单调性限制 \(S(1)\) 与 \(S(0)\) 的关系,PI 限制 \(G\) 与 \(Y\) 的关系。作者在 intro 中明确指出 PI 在某些场景(如死亡截断)下比单调性更可信,但承认 PI 本身不可验。 - 假设 3:S-triviality 或条件版本:\(P(S(z) \mid X)\) 不退化(无零概率子群)。保证 odds ratio 定义良好。 - 敏感性参数 \(\theta(x)\):定义为 \((S(1), S(0))\) 与 \((Y(1), Y(0))\) 给定 \(X=x\) 时的条件优势比。关键性质:无边际条件(margin-free),即 \(\theta(x)\) 不依赖 \(P(S(z)=s \mid X=x)\) 或 \(P(Y(z)=y \mid X=x)\) 的边际,只依赖联合与边际的比值比。当 \(\theta(x)=1\) 时,PI 严格成立;\(\theta(x) \neq 1\) 刻画偏离。相比已有敏感性分析(如风险比偏离),优势比在 logistic 模型下有天然参数化,且在协变量调整下稳定。
主要结果:
- 定理 1(非参数识别):在假设 1-3 及给定 \(\theta(x)\) 下,主分层比例 \(\pi_g(x) = P(G=g \mid X=x)\) 和主分层因果效应 \(\tau_g(x) = E[Y(1)-Y(0) \mid G=g, X=x]\) 可从观测分布 \(P(Z, S, Y \mid X)\) 非参数识别。识别公式涉及:
- \(P(S \mid Z, X)\)(可从数据非参数估),
- \(E[Y \mid Z, S, X]\)(可从数据非参数估),
-
\(\theta(x)\)(敏感性参数,由研究者设定)。 直觉:观测分布提供 \(P(S \mid Z, X)\) 和 \(P(Y \mid Z, S, X)\),给定 \(\theta(x)\) 后,联合分布 \(P(S(1), S(0), Y(1), Y(0) \mid X)\) 的自由度被约束到可解。PI(\(\theta=1\))时,识别公式简化为观测分布的线性组合;\(\theta \neq 1\) 时,需通过 odds ratio 校正。
-
定理 2(条件双稳健估计):提出参数化 nuisance 模型下的条件双稳健估计器。若 (a) \(P(S \mid Z, X)\) 的参数化模型正确,或 (b) \(E[Y \mid Z, S, X]\) 的参数化模型正确,则估计器一致。若两者皆正确,达到半参数有效界。必要条件:至少一个 nuisance 模型正确。技术难点:在非单调性下,识别公式涉及 \(P(S \mid Z, X)\) 的非线性组合(通过 \(\theta\) 校正),双稳健性需在 nuisance 估计误差的交叉项上消解。
-
定理 3(DML 估计与半参数有效界):提出基于 cross-fitting 的去偏机器学习估计器。使用数据自适应方法(如随机森林、LASSO)估计 nuisance 函数 \(\eta = (P(S \mid Z, X), E[Y \mid Z, S, X), \theta(x))\)。在 nuisance 估计收敛速率满足 \(r_n \cdot s_n = o(n^{-1/2})\)(如一个 \(O(n^{-1/4})\),另一个 \(O(n^{-1/4})\))时,DML 估计器达到 \(\sqrt{n}\)-一致且半参数有效。必要条件:nuisance 估计的熵条件(如 Donsker 类)或通过 cross-fitting 绕过。技术难点:识别公式中 \(\theta(x)\) 的非线性嵌入导致 influence function 的推导比标准 IV 更复杂;需计算 efficient influence function 并验证其二阶余项可忽略。
证明路线与技术技巧:
- 整体路线:
- 识别:从观测分布 \(P(Z, S, Y \mid X)\) 和 \(\theta(x)\) 出发,利用 \(Z\) 的无混杂性和 PI(或 \(\theta\) 校正),推导 \(\pi_g(x)\) 和 \(\tau_g(x)\) 的显式公式。关键步骤:将 \(P(S(1), S(0) \mid X)\) 的联合分布从 \(P(S \mid Z, X)\) 和 \(\theta(x)\) 中解出(利用 odds ratio 的无边际性质,将联合分布参数化为边际与 odds ratio 的乘积)。
- Influence function 推导:在半参数模型(只约束 \(\theta(x)\),其余无参数化约束)下,计算 \(\tau_g\) 的 efficient influence function。步骤:将识别公式写成观测变量的函数,利用路径导数或投影方法求 influence function。
- 双稳健性验证:证明当 nuisance 估计有偏时,一阶余项消解(只要一个 nuisance 正确),二阶余项在 \(r_n \cdot s_n = o(n^{-1/2})\) 下可忽略。
-
DML 实现:cross-fitting 消除 Donsker 类条件,保证 nuisance 估计的独立性。
-
关键跳跃点:
- Odds ratio 的无边际性质如何简化识别:在非单调性下,联合分布 \(P(S(1), S(0) \mid X)\) 有四个自由度(二值 \(S\) 时),观测提供两个方程(\(P(S=1 \mid Z=1, X)\) 和 \(P(S=1 \mid Z=0, X)\)),需要第三个约束。Odds ratio \(\theta(x)\) 提供这个约束,且因其无边际性质,不引入额外边际分布参数,使系统可解。这是本文识别的核心跳跃。
-
Influence function 中的 \(\theta\) 校正项:在标准 IV/PI 估计器中,influence function 是观测变量的线性组合;引入 \(\theta\) 后,influence function 包含 \(\theta\) 的非线性校正项,推导需小心处理 \(\theta\) 变分对识别公式的影响。
-
技术技巧点名:
- Efficient influence function / 半参数有效界:用于推导 DML 估计器的去偏项和验证有效性。
- Cross-fitting / DML:用于绕过 Donsker 类条件,实现数据自适应 nuisance 估计下的 \(\sqrt{n}\)-一致推断。
- Odds ratio 参数化 / 无边际性质:用于将敏感性参数嵌入识别公式,保持跨协变量稳定性。
- 双稳健构造:用于在参数化 nuisance 下保证部分模型误设时的一致性。
真实例子与应用: - 数据 / 场景:PROWESS 临床试验(critical care trial,重组蛋白 Xigris 治疗严重败血症)。关键特征:28 天死亡截断——若患者死亡,则后续结局(如器官功能恢复)不可观测。此时 \(S\) 为死亡状态(\(S=1\) 存活,\(S=0\) 死亡),\(Y\) 为器官功能恢复。单调性在此场景不可信:处理可能增加某些患者的死亡风险(harm),即存在 defier(\(S(1)=0, S(0)=1\))。 - 怎么用上去:将本文方法应用于估计存活者中的因果效应(survivor average causal effect, SACE),即 \(E[Y(1)-Y(0) \mid S(1)=1, S(0)=1]\)(complier 在此为"无论处理与否都存活")。设定 \(\theta\) 的敏感性分析范围(如 \(\theta \in [0.5, 2]\)),估计不同 \(\theta\) 下的 SACE。 - 得到什么结果:在 \(\theta=1\)(PI 严格成立)下,SACE 估计值与假设单调性下的估计值有显著差异,表明单调性假设在此数据上导致偏倚。敏感性分析显示 SACE 在 \(\theta\) 的合理范围内保持正向(处理对存活者有益),但效应大小随 \(\theta\) 变化。 - 想说明什么:验证在单调性不可信的场景下,本文的 odds ratio 敏感性分析框架可提供比单调性假设更稳健的推断;同时展示 DML 估计器在高维协变量(PROWESS 有多个基线协变量)下的实用性。
🔎 结论是否比证明窄: - 作者在模拟中 claim "incorrectly assuming non-monotonicity when monotonicity holds may maintain approximately valid inference",但这一结论仅在模拟设定的特定数据生成机制下验证,未在定理中严格证明。定理只保证在给定 \(\theta\) 和 PI 下估计器一致,未证明"错设 PI(即 \(\theta \neq 1\))但单调性成立时估计器的偏倚有界"。这是一个值得研究者核验的点:该 claim 是否在一般半参数模型下成立,还是仅是模拟的偶然现象?
四、开放问题(点到为止,扎根具体语句)¶
- Odds ratio 敏感性参数的校准与先验选择:本文将 \(\theta(x)\) 作为由研究者设定的敏感性参数,但未提供数据驱动的校准方法(如从部分观测信息中估计 \(\theta\) 的合理范围)。扎根点:intro 中"leveraging a margin-free, conditional odds ratio sensitivity parameter"——参数的"合理性"如何从数据中部分学习?
- Principal ignorability 的可检验性:PI 假设 \(G \perp (Y(1), Y(0)) \mid X\) 本身不可从观测数据非参数检验(因为 \(G\) 不可观测)。扎根点:假设 2 的陈述——是否有类似 IV 可检验条件(如 \(Z \perp Y \mid X\) 在 never-taker/always-taker 子群中可验)的部分检验方法?
- 部分识别 / Bounds 路线的整合:本文走点识别 + 敏感性分析路线,完全回避了 bounds 方法。在 \(\theta\) 的极端值下,点识别可能不稳定;bounds 方法可提供保守推断。扎根点:intro 未引用任何 bounds 文献——是否可将 odds ratio 敏感性参数嵌入 bounds 框架,给出 \(\theta\) 变化下的 bounds 而非点估计?
- 错设 PI 但单调性成立时的理论保证:模拟 claim "approximately valid inference",但无定理支撑。扎根点:模拟部分的结论陈述——能否在半参数模型下严格证明"PI 错设偏倚在单调性成立时为 \(O(\text{小量})\)"?
(要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。)
Maintained by 陈星宇 · Homepage · Source on GitHub