Causal effect estimation in survival analysis with high dimensional confounders¶

作者: Fei Jiang, Ge Zhao, Rosa Rodriguez-Monguio, Yanyuan Ma
来源: Biometrics
主题: 因果推断
相关性: 9/10
机构绿灯: Pennsylvania State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae110

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：在生存分析（survival analysis）中，当混杂变量（confounders）的维度p远大于样本量n（高维场景）时，如何识别、估计并检验因果处理效应（causal treatment effect）？当前成熟度处于“方法百花齐放但理论支撑不均衡”的阶段——已有的高维因果推断方法（如高维倾向得分匹配、高维工具变量）多集中在连续或二值结局，针对删失生存结局（censored survival outcome）的高维方法明显滞后。本文聚焦的处理效应目标为“受限平均生存时间之差”（RMST difference, μ₁ − μ₀ = E[min(T, τ) | Z=1] − E[min(T, τ) | Z=0]），这是一个有实际解释意义、且回避了比例风险假设的因果summary。

发展脉络¶

奠基工作：倾向得分（Propensity Score, PS）与预后得分（Prognostic Score, PrS）
Rosenbaum & Rubin (1983) 提出PS（给定协变量下处理分配的概率），证明PS足以平衡可观测混杂，奠定了匹配/加权/分层方法的理论基础。
Hansen (2008) 提出预后得分（给定协变量下对照组的期望结局），主张PS+PrS联合匹配可提高效率。
两者在低维场景下理论成熟，但高维时PS/PrS的估计本身因p > n而病态。
主要进展：高维混杂的处理——正则化与降维两条路线
正则化路线（Zhang et al., 2019; Farrell, 2015）：用Lasso、调整Lasso等稀疏估计选择重要混杂变量，再代入PS或直接回归。优点是变量选择直观；缺点是(1)稀疏假设在基因组、影像等场景常不成立,(2)正则化偏差在删失数据下更难校正。
降维路线（本文重点引用）：因子模型（factor model）假设协变量被少数潜在因子驱动，可由主成分等提取；充分降维（Sufficient Dimension Reduction, SDR）假设因果效应只通过协变量的某个低维线性组合进入结果/处理模型。本文同时采用这两者（合成一个“低维得分向量”），认为这样比“只做PS的稀疏估计”更稳健。
当前frontier与本文位置
高维因果推断的删除生存结局处理极少。已有生存分析因果方法多基于比例风险模型（Cox）且处理低维协变量（Hernán & Robins, 2020）。
本文的贡献在于：首次将因子模型+SDR降维与双重稳健核估计结合，用于高维删失生存数据的RMST因果推断，既提供了估计的一致性/渐近正态性理论，又给出了闭合方差公式（而非bootstrap）。在竞争方法中，它避开了对稀疏性的依赖。

子线索聚类¶

被引工作大致落在3条子线索：

降维与充分性（Cook & Li, 2002; Li, 1991; Bing et al., 2020）：SDR方法（SIR, SAVE, IPM等）学习最小充分子空间，使条件分布化简。本文用它从高维X提取低维方向，而非常规主成分。
生存分析因果推断（Schaubel & Wei, 2011; Luo et al., 2016; Chen & Tsiatis, 2001）：从边际结构模型到RMST回归；均假设p固定或已降维。本文承认这个子线索里的方法在高维下推不开。
双重稳健估计（Bang & Robins, 2005; Robins et al., 1994）：结合PS和结局回归，任一个模型正确即一致。本文在高维生存场景下实现了“核版双重稳健”——它把估计推广到非参数核方式（非参的倾向得分、非参的预后得分函数）。

这个方向在追问的核心问题¶

如何在不假设稀疏性的情况下处理高维混杂？
如何在删失数据下构造双重稳健估计量，使得两个模型都允许非参或高维？
如何给出可由数据直接计算的方差估计（非bootstrap）？
当p > n时，降维后的得分向量能不能真的代替原始X去消除混杂？

当前主流方法是正则化+渐近无偏校正（如double/debiased lasso）；已知瓶颈是正则化本身在p > n且信号非稀疏时无力，而纯非参数又维数灾难。

⚠️ 作者的framing¶

这是作者的说法，读者应亲自核实：
“matching based methods in their original forms are not capable of handling high-dimensional confounders, and their various modified versions lack statistical support and valid inference tools.”

作者把这个缺口frame成“现有方法要么不能处理高维，要么缺乏理论支撑”，从而让自己提出的“因子+SDR+核DR”成为“显然的下一步”。被他们淡化或回避的路线： - 高维正则化因果推断（如double/debiased lasso）：这篇论文的intro中几乎没有详细讨论这类方法的删失情况进展。可能因为该类方法效果高度依赖稀疏性，而作者认为非稀疏场景普遍。
- Cox模型为基础的因果推断（如逆概率加权Cox）可能被回避，因为它们隐含了比例风险假设，不是作者想要的”模型稳健”路线。

应该引用但几乎没出现在intro里的：Athey & Imbens (2016)的广义随机森林、Wager & Athey (2018)的因果森林——它们也旨在处理高维混杂，且已能处理删失。也许这些文献与本文的理论风格不同（非参数随机森林 vs. 回归降维）。

张力¶

未见明显对立的引用。介绍中提到的论文在核心观点上是一致的（高维混杂是问题、需要降维/正则化、需双重稳健）。潜在张力只在于不同子线索对稀疏性的信仰差异。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( Z \in \{0,1\} \)：处理变量。 1=治疗组，0=对照组。
\( T \)：真实的生存时间（潜在结局）。但观测失效可能是删失。
\( C \)：删失时间（独立于T的条件待定义）。
\( \Delta = I(T \leq C) \)：事件发生时是否被观测到的指示变量（1=事件发生，0=删失）。
\( \tilde T = \min(T, C) \)：实际的随访终止时间。
\( X \in \mathbb R^p \)：高维协变量，p可能大于n。
可观测数据：观测数据集为独立同分布样本 \( (\tilde T_i, \Delta_i, Z_i, X_i) \)，每条记录包含结局发生时间、是否观测到结局、处理状态、高维协变量。
真实但潜在的量：
- \( T(z) \)：在给定处理 \( Z=z \) 下的潜在生存时间（反事实）。
- \( T = Z \cdot T(1) + (1-Z) \cdot T(0) \)：事实上的生存时间。
- 假设无未观测混杂 (unconfoundedness)：\( T(z) \perp Z \mid X \)（给定所有混杂X，潜在结局独立于处理分配）。
目标estimand：\( \Delta_{\rm RMST} = E[\min(T(1), \tau)] − E[\min(T(0), \tau)] \)。τ是某个选定的截断时间（如研究中最大随访时间的95分位数）。
模型：
没有参数化生存分布假设！模型是非参数的，唯一假设是无未观测混杂（针对上述条件独立）和标准删失独立假设（\( C \perp T \mid X, Z \)）。在这种设定下，RMST差可以通过对一个“经验改进”式的期望进行估计。双重稳健估计需要建立两个模型：①倾向得分 \( \pi(X) = P(Z=1|X) \)；②预后回归 \( m_z(X, t) = E[\min(T, \tau) | X, Z=z] \)（当然删失处理也在其中）。
可观测 vs 不可观测：
可观测：\( \tilde T, \Delta, Z, X \)
不可观测：潜在结局 \( T(1), T(0) \)，还有删失完全后的完整生存分布（未删失的前提下）。
要识别 \( \Delta_{\rm RMST} \)，必须依赖无混杂和独立删失条件。

第二步：最小内核¶

为了理解本文的核心思想，我们把一般设定简化到最简单特例： - 假设没有删失（存活时间T完全可观测，C=∞）。
- 假设只有一个真正的混杂变量 \( X_1 \)，但研究人员错误收集了p个协变量（大量是噪声，但不知道哪个是真实的混杂）。p仍然很大（读作：高维）。
- 目标：用RMST之差（即此时等于 \( E[T(1)] − E[T(0)] \)）做因果效应估计。

记号（沿用上面的）： \(\tilde T_i = T_i, \Delta_i=1\)，所以观测就是 \((T_i, Z_i, X_i)\)。

问题：p远大于n；我们不能靠直接匹配原始X（即高维协变量直接作为倾向得分或预后得分）来消除混杂（因为维度灾难、匹配根本无法进行）。替代方法（如Lasso倾向得分）在非稀疏真实模型中会失败——假设真实混杂是低维的，但p个维度中的信息是“冗余底座”。

本文的核心想法：
先假设 \( X \) 被一个低维潜在因子 \( U \in \mathbb R^d \)（d固定、远小于n）驱动；且在给定U下，Z分配是随机化（即无混杂）而且T的条件分布只通过U决定（即 \( T(1) \perp Z \mid X \) 等价于 \( T(1) \perp Z \mid U \)）。这个U可被因子模型近似提取。进一步，假设我们有一个充分降维（SDR）方向：存在一个向量β，使得\( X^\top \beta \)是预测Z或预测T的“充分”方向。本文巧妙地把两个降维思路结合： 因子模型得到U，然后在U上而不是X上做SDR，这样最终的得分向量（propensity score 和 prognostic score的某种函数）的维度非常低（比如1-2维），且可以查找原始X投影（简化）不全的问题。

因此整个降维链是：
高维X → 因子模型（PCA） → 低维U → SDR → 超低维得分（记作S） → 在S上做核匹配。

最简特例（p=50, n=100，真实混杂是2个潜在因子u1,u2）：
1. 对X做PCA，保留前两个主成分（估计因子U）。
2. 用SDR（这里可以是SIR或似然基方法）在U上找到一个线性方向β，使得 \( Z \perp X \mid U^\top \beta \) 和 \( T \perp X \mid U^\top \beta \) 几乎成立（充分降维）。
3. 得分 \( S = U^\top \beta \) 是一维的（或二维）。
4. 在S上，用核函数做双重稳健估计：核倾向得分（\( \hat \pi(S) \)），核预后得分（\( \hat m_z(S) \)），代入Doubly Robust公式。

这个最小内核抓住了这篇论文的本质：不是在高维X上直接做匹配或正则化，而是通过两步降维（因子+SDR）得到低维得分，然后在这个得分构成的低维空间上应用双稳健核估计——这样既不要求稀疏，又不落入高维灾难，而且保留了双重稳健性的理论解释。

三、这篇论文做了什么¶

三句话¶

研究问题：在高维混杂（p > n）的生存数据下，估计短缺平均生存时间（RMST）的处理效应差值，并给出推断方法。
核心工具/方法：两阶段降维（因子模型 + 充分降维） → 得分向量构造 → 核倾向得分与核预后得分 → 双重稳健核估计（doubly robust kernel estimator）。
主要结论：所提估计量具有一致性和渐近正态性；推导了闭合解析方差，从而免除bootstrap；在模拟和真实数据中都优于其他匹配变量。

关键设定与假设¶

在第二节符号基础上，完整假设为： - A1（标准因果假设）：条件无混杂 + 正值性（0 < P(Z=1|X) < 1）。
- A2（因子模型假设）：存在潜变量因子U（d维，d固定且远小于n）和载荷矩阵Λ（p×d列满秩），使得 X = ΛU + ε，ε为独立噪声。
- A3（充分降维假设）：Z和T的条件分布只通过U的某个线性组合（即一或二维的S）依赖于U。
- A4（删失机制假设）：C独立于T给定(X,Z)（随机删失）。
- A5（核估计的正则条件）：核函数二阶可微、带宽随n增加以适当速度趋近于0等（通用条件）。

以下假设条件与常规文献比较： - 相比Lasso基方法，此处不要求稀疏性（没有假设X对T或Z的系数稀疏）；
- 相比纯因子方法（如Lu et al., 2016），额外加了充分降维步骤（避免因子模型不一定提取因果相关的全部信息）；
- 与经典核匹配对比，本文处理的是p > n情景。

主要结果¶

定理1（一致性）：在正则条件下，\( \hat \Delta_{DR} \rightarrow^p \Delta_{RMST} \)。
直觉：收到双重稳健特性（核倾向得分与核预后得分中任一个一致 → 最终估计一致；但实际结果需要两者同时非一致但收敛速度满足条件）。
解决的技术难点：需要处理删失部分（在估算预后得分时需要利用逆概率删失加权）。
定理2（渐近正态性）：\(\sqrt{n}(\hat \Delta_{DR} − \Delta_{RMST}) \rightarrow^d N(0, \Sigma)\)。
收敛速度：标准\(\sqrt{n}\)率（没想到维度诅咒，很大程度受益于降维到固定维S后核估计维纳-阿斯卡里界）。
\(\Sigma\) 的表达式中包含核估计的方差项（借由U-statistics投影或Newey的级数估计技巧等）。
推论1（方差估计）：推导出\(\hat \Sigma\)，即一致性估计方差（基于影响函数的经验估计）。作者说“无需bootstrap”，这在实际应用中很重要（生存分析的bootstrap计算量大且受删失率影响）。
模拟研究要点：
设置：n=200或400，p=20或100（或200），因子d=3；真实效应值设为Δ=-10（天）。
竞争方法：①未经降维的核匹配（直接在X上核）——完全失败；②SDR-Propensity（只做SDR降维到倾向得分，不做双重稳健）——效率差；③Lasso-propensity + IPW——方差大/偏差高。
结果：本文估计量（标记为“MF+SDR+DR”）均有最小的偏差和RMSE，覆盖概率接近95%。

证明路线与技术技巧¶

整体路线（3步逻辑主干）： 1. 降维估得S：由样本的X、Z估计因子模型U → 在U上估计SDR方向β（通过迭代或数据回归算法），得到得分 \(\hat S_i\)。这部分是预处理，关键要求“降维误差不影响第二步”。 2. 核双稳健构造：在 \(\hat S\) 的支撑集上，用核估计（Epanechnikov或高斯核）估计： - 倾向得分 \(\hat \pi(S) = \sum K_h(S - S_i) Z_i / \sum K_h(S - S_i)\)；
- 预后得分 \(\hat m_1(S)\) 和 \(\hat m_0(S)\) 则要结合删失，用IPCW核估计“给定S下的条件期望受限生存时间”。
- 中间使用“删失调整核函数”技巧（核权重乘删失指示器的某种逆概率形式）。 3. DR公式与理论分析：把 \(\hat \pi, \hat m_1, \hat m_0\) 代入通用的双重稳健矩方程（恢复初始影响函数近似），然后显示该矩方程估计量等价于样本内化的U-statistics形式并推导其渐近性。

关键跳跃点（技术难点）： - 降维误差的传递：因子估计误差和SDR估计误差会“污染”最终DR估计的收敛性。本文通过假设因子模型、SDR的估计误差以\(O_p(1/\sqrt{n})\)的速率收敛（非奇异性和一阶可微条件），从而证得“第一步的一致性可传递给最终DR估计且不影响有效性”。
- 删失双重稳健的“核版”：经典DR公式通常看到的是线性/逻辑回归构建的估计；核版需要特殊的双稳健形式（附录有lemma），其中核函数的局部光滑性质与删失调整相结合。关键技巧是：用IPCW给删失的观测赋予逆删失概率权重，且把这个权重嵌入核局部均值的分子和分母。

技术技巧点名：
- 因子模型（主成分估计/EM算法）：用于降维。
- SDR（逆概率权重SIR/或likelihood-based，文中第3.1节）：用于进一步降维。
- 核估计光滑（使用Nadaraya-Watson型）：用于构造非参倾向得分和预后得分。
- 影响函数法 + U-statistics投影：用于渐近方差推导；——这一点与你熟悉的U-statistics结构有直接连接，这里核估计量的渐近性推导通常采用“先渐近线性展开，再应用Hoeffding分解”，而本文更偏重“核的线性近似 + 验证剩余项可忽略”的套路。

真实例子与应用¶

数据：扩散性大B细胞淋巴瘤(DLBCL)临床数据（N=509名患者，p=33个基因表达和蛋白marker的协变量（高维？33小于509，但文中把它人为设为高维场景）。
应用方式：比较两种治疗方案（R-CHOP vs CHOP）对RMST的处理效应。存活时间结局被记录，τ设为5年。
结果：本文估计的RMST差（R-CHOP - CHOP）约10.7个月，通过方差解析给出95%置信区间（不含0）；而直接用倾向得分匹配的简单版本得到的估计则不显著或很宽（基线协变量不平衡）。
这个例子想说明：(1)结合降维后，即使在p中等且研究者只有“近似”高维梯度时，改进也是实质性的；(2)说明双重稳健可以抵御某些协变量不足的问题。

🔎 结论是否比证明窄¶

作者在引言和摘要中声称“适用于高维”，但技术上假设了因子d固定且远小于n。若真正的潜在因子数目随p增加而增长（次线性或不稳定），该方法甚至可能不consistent。这一点应查阅assumptions A2和A3——作者确实承认因子模型是基础；但未量化讨论p与d对收敛速度的敏感度（比如p远大于n时PCA的一致性有偏移，这一偏移是否被DR吸收？文中在simulation讨论了p=200的情形，但若p=5000或10000没有测试）。所以泛化主张可能有偏差。

四、开放问题（点到为止）¶

更强的降维理论：当因子模型假设不成立（如X为深层非线性），本文的降维失效。是否存在“自动冗余混合”的降维方法使得核DR继续有效？（扎根于论文中的Assumption A2, Section 3.1的第一句。）
条件分布的估计误差传播：作者证明了两阶段降维误差不影响DR的一致性，但其是否影响有效方差的估计呢？方差公式在SDR方向未知时需要plug-in，这个plug-in步是否带来不可忽略的额外变异性？（查阅作者的推论（Corollary）的“plug-in variances”后的注释，他们未使用delta方法专门处理。）
时变混杂与高维：本文是静态混杂。生存数据中经常有时间依赖混杂（time-varying confounders）。扩展：时间高维协变量的因子降维是否可行？（参考作者在discussion提到的“future work”部分。）
多重处理与连续处理：文中处理是二元。如果处理是多值（或连续，如剂量），降维后的S很可能需要高维结构进行后续估计。值得统计方法扩展。

Maintained by 陈星宇 · Homepage · Source on GitHub