HSCI: Neyman-Orthogonal Causal Inference under High-Dimensional Proportional Hazards¶

作者: Yingying Fan, Lan Gao, Daoji Li, Jinchi Lv
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.14132

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：在生存分析（含右删失）背景下，当协变量维度远高于样本量（高维）时，如何对一个标量因果处理效应（如风险比的对数）进行有效推断（根号n一致估计与渐近正态置信区间）。核心挑战在于：① 生存数据伴有删失和时间变化的风险集（Cox部分似然），不是独立同分布光滑损失之和；② 高维协变量同时作为混淆变量影响治疗分配和结局，需要用稀疏模型控制维度，但正则化（如Lasso）引入的非渐近可忽略偏差会污染处理效应估计；③ 还需要同时形结合治疗分配机制（倾向得分）以实现因果识别。这一方向当前处于「从低维 / 光滑损失到高维 / 生存数据」移植阶段的早期，不同生存模型（Cox vs. 加性风险 vs. 非参数）之间尚未有统一框架，且大多现有工作未同时处理处理效应与高维协变量效应的联合推断。

发展脉络（history）¶

奠基工作：Chernozhukov et al. (2018) 的双/去偏机器学习（DML / Neyman-orthogonal score）框架为低维目标参数在存在高维 nuisances 时实现根号n推断提供了通用方法。它依赖于时刻条件的 Neyman 正交化与交叉拟合 (cross-fitting)，但其原始框架假设得分函数是独立同分布光滑损失之和——Cox 部分似然不满足这一条件。
主要进展（非生存方向）：Bradic et al. (2019) 和 Bradic et al. (2024) 将正交得分思想推广到平均处理效应和动态处理效应，但依然限于非生存结局。
生存方向的早期移植：Hou et al. (2023) 在加性风险模型（处理线性进入风险，而非指数链接）下为高维混杂构造正交得分，证明了根号n渐近正态性。作者指出，该得分与 Dukes et al. (2019) 从经典半参数效率理论推导的得分一致。Rava and Xu (2023) 在竞争风险下发展因果风险差正交得分。这两篇「在精神上最接近」本文，但加性风险模型与 Cox 模型有本质区别：加性模型下风险差是线性的，而 Cox 模型含指数链接和时间变化风险集。
非参数生存因果推断：Cui et al. (2023) 的因果生存森林和 Westling et al. (2024) 的交叉拟合双重稳健生存曲线推断，不针对比例风险模型，也不针对高维协变量参数。Luo et al. (2025) 的边缘结构 Cox 模型下双重稳健估计关注边际（而非条件）处理效应。这些工作均未同时处理以下三者的联合推断：Cox 模型下的条件处理效应、高维协变量系数、以及稀疏性假设。
高维 Cox 回归的非因果推断：Fang et al. (2017) 的去相关得分检验、Kong et al. (2021) 的去稀疏 Lasso、Yu et al. (2021) 的一步去偏置信区间——这些工作不包含处理分配机制、因果识别假设或倾向得分建模。他们只对 Cox 回归系数（即协变量效应）做推断，不涉及处理效应的因果参数。
本文位置：将 DML/Neyman-orthogonal 框架系统化地移植到稀疏高维 Cox 比例风险模型，同时构造处理效应（标量）和高维协变量效应（向量）的根号n推断，并在率双稳健条件下证明渐近正态。这是「DML × Cox」的首次完整理论构造。

子线索聚类¶

论文引用的文献可聚类为以下 3–4 条子线索： 1. DML / Neyman-orthogonal / 效率理论基类 (Chernozhukov 2018, Bradic 2019/2024, Dukes 2019)：方法核心来源，提供正交得分构造的一般框架。这一簇的共同假设是得分函数的光滑性与独立结构。 2. 生存因果推断的加性 / 非参数迁移 (Hou 2023, Rava and Xu 2023, Cui 2023, Westling 2024, Luo 2025)：将正交得分思想用于生存数据，但分别针对不同生存模型（加性风险、非参数生存曲线、边际结构 Cox）。本文引用这几篇的核心功能是「指出 gap」——没有人同时做 Cox 模型下的处理效应与高维协变量效应推断。 3. 高维 Cox 回归的推断基类 (Fang 2017, Kong 2021, Yu 2021, Zhong 2022)：提供处理 Cox 部分似然、风险时间变化、稀疏兼容条件的技术工具（去相关得分、去稀疏 Lasso、一步去偏）。本文从 Yu et al. (2021) 直接借用了控制风险集浓度和 Hessian 波动的引理。这一簇不涉及因果识别，是纯回归推断。 4. 稀疏 logistic 回归基类 (Tibshirani 1996, Buhlmann & van de Geer 2011, Fan & Tang 2013)：为倾向得分的 Lasso 估计提供 oracle 不等式与 GIC 调参。这是一项标准工具，本文未声称贡献。

这个方向在追问的核心问题（2–4 个）¶

在 Cox 这类非光滑、含时间变化风险集的生存模型中，Neyman 正交得分是否可以构造且能移除一阶偏差？ ——本文给出了肯定答案，但代价是使用了「近」正交（approximation error an = O(sβ0 log(np)/n)）。
使根号n推断成立所需的率双稳健条件具体是什么？ ——本文要求∥Σ^{-1}ββ∥∞ s_{\mu_{a0}} s^2_{β0} log(np) = o(√n) 等乘积条件。是否可以为更慢的 nuisance 率（如非稀疏 ML 估计）放宽？
该设定下的半参数效率界（semiparametric efficiency bound）是什么？正交得分是否达到此界？ ——本文未推导效率界，仅给出可行方差估计。
如何同时推断处理效应（低维）和高维协变量效应（高维）？ ——本文通过两步法（先处理效应去偏 → 再用 CLIME 精度矩阵去偏协变量系数）实现了这一点，但效率损失未与单步全局方法比较。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：「现有生存因果推断工作（Hou 2023, Rava and Xu 2023, Westling 2024, Luo 2025）分别对应不同模型（加性风险/非参数/边际结构），但不能直接处理稀疏高维 Cox 模型下的处理效应与协变量效应联合推断」。因此，本文被定位为「显然的下一步」——将 DML 移植到 Cox 模型。

竞争路线被淡化或回避： - 淡化：加性风险模型（Hou 2023）与 Cox 模型之间的差距被描述为“本质区别”（线性 vs. 指数链接 + 风险集），但并未讨论是否可用某种 reparameterization 将加性风险的结果映射回 Cox 模型。 - 回避：直接对 Cox 偏似然做一步去偏（如 Yu et al. 2021 的框架）是否也能推广到含倾向得分的设定？ 如果可以在一步去偏中显式加入倾向得分的影响，是否就不需要 DML 的正交得分构造？本文未讨论这种可能性。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 半参数效率理论下 Cox 模型的双重稳健估计：Robins et al. (1992, 1994) 和 van der Laan & Robins (2003) 中有关生存数据效率影响函数的讨论，本文只引用到 Dukes et al. (2019)（针对风险差）。Cox 模型下的效率界推导（如 Bickel et al. 1993, Chapter 7）未被提及。 - 高维时间依赖性协变量下的因果推断（如 Aalen 模型）：可能不属于本文 scope，但类似方法是否可移植值得查。

张力¶

未见明显对立引用——所有被引工作呈互补关系（不同模型、不同目标），缺乏直接在同一设定下对峙的论文。这是一个高价值信号：说明该方向 gap 明确且尚未产生矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \(D \in \{0,1\}\)：处理指示变量。 - \(T^{(1)}\) 与 \(T^{(0)}\)：潜在失效时间（potential failure times），仅其一可观测。 - \(C\)：删失时间。观测到 \(X = \min(T, C)\) 与删失指示 \(\delta = I\{T \le C\}\)。 - \(T = D T^{(1)} + (1-D) T^{(0)}\)（在 SUTVA 下）。 - \(Z \in \mathbb{R}^p\)：p 维协变量向量，p 可随 n 指数增长（\(\log p = o(n^\alpha)\)）。 - \(\theta_0 \in \mathbb{R}\)：标量处理效应参数（log-hazard ratio）。 - \(\beta_0 \in \mathbb{R}^p\)：高维协变量系数向量，真实支撑 \(S_{\beta_0}\) 大小 \(s_{\beta_0} = |S_{\beta_0}|\)。 - \(\gamma_0 \in \mathbb{R}^p\)：logistic 倾向得分模型的回归系数向量，支撑大小 \(s_{\gamma_0}\)。 - \(\lambda_0(t)\)：基线危险函数（未知、非参数）。 - \(Y(t) = I\{X \ge t\}\)：at-risk 过程。 - \(N(t) = I\{X \le t, \delta = 1\}\)：计数过程（观测失效）。 - \(M(t) = N(t) - A(t)\)：Doob-Meyer 鞅，补偿子 \(A(t) = \int_0^t Y(u) e^{D\theta_0 + Z^\top\beta_0} \lambda_0(u) du\)。 - \(\mu_0\)（或称 \(\mu_{a0}\)）= \(\Sigma_{\beta\beta}^{-1} \Sigma_{\beta\theta}\)：正交化参数向量，\(\mu_0 \in \mathbb{R}^p\)，是平衡方程的关键量。

模型： - Cox 比例危险模型（潜在时间）：
\(\lambda_{T^{(1)}}(t|D,Z) = \lambda_0(t) \exp\{\theta_0 + Z^\top\beta_0\}\)（处理后），
\(\lambda_{T^{(0)}}(t|D,Z) = \lambda_0(t) \exp\{Z^\top\beta_0\}\)（对照）。 - logistic 倾向得分工作模型：
\(P(D=1|Z) = m_0(Z) = e^{Z^\top\gamma_0} / (1 + e^{Z^\top\gamma_0})\)。 - 强可忽略性（strong ignorability）：\((T^{(1)}, T^{(0)}) \perp D | Z\)（条件独立），且 \(0 < P(D=1|Z) < 1\) 几乎必然。 - 稀疏性：\(\beta_0, \gamma_0\) 均稀疏（非零分量数 \(s_{\beta_0}, s_{\gamma_0} = o(\sqrt{n}/\log p)\)）。

可观测数据： 研究者实际观测到：\(\{O_i\}_{i=1}^n = \{X_i, \delta_i, D_i, Z_i\}_{i=1}^n\)，即独立同分布。 - 可观测：失效时间或删失时间 \(X\)、是否失效 \(\delta\)、处理状态 \(D\)、协变量 \(Z\)。 - 潜在 / 不可观测：\(T^{(1)}, T^{(0)}\)（只能通过 \(T = D T^{(1)} + (1-D) T^{(0)}\) 与删失间接观测）、\(C\)（观测不到 \(C > T\) 时的确切值）以及计数过程的鞅增量 \(dM(t)\)（只能通过估计补偿子来近似）。关键假设是 \(T \perp C | (D,Z)\)（条件独立删失）。

第二步：讲最小内核¶

最简特例：\(p=1\)（只有一个协变量 \(Z\)），\(D\) 与 \(Z\) 均二值，且 \(\beta_0\) 和 \(\gamma_0\) 均已知（暂不考虑估计误差）。在此特例下，正交化参数 \(\mu_{a0}\) 退化为一个标量，且无需高维复杂性。

剥去一般假设后的最小内核：作者要证明的核心命题是——通过构造得分 \(\Phi(\theta, \eta) = \dot{l}_\theta(\theta, \beta) - \mu^\top \dot{l}_\beta(\theta, \beta)\)，当 \(\mu\) 取为 \(\mu_{a0} = \Sigma_{\beta\beta}^{-1} \Sigma_{\beta\theta}\) 时，该得分的期望对 \(\beta\) 的导数（Gâteaux 导数）为零（即 Neyman 正交性），从而使 \(\beta\) 的估计误差 \(b\beta - \beta_0\) 在得分方程泰勒展开中的一阶项消失。

在 \(p=1\) 的二值情形下：
- \(\Sigma_{\beta\beta} = E[\int_0^\tau (Z - U_Z(t))^2 e^{D\theta_0 + Z\beta_0} \lambda_0(t) dt]\)（标量），
- \(\Sigma_{\beta\theta} = E[\int_0^\tau (Z - U_Z(t))(D - U_D(t)) e^{D\theta_0 + Z\beta_0} \lambda_0(t) dt]\)，
则 \(\mu_{a0} = \Sigma_{\beta\theta} / \Sigma_{\beta\beta}\)，是一个简单的回归系数——类似于「用危险加权后的协变量 \(Z\) 对处理 \(D\) 做线性回归」的斜率，但权重是计数过程的补偿子。

核心思路：
1. 初始正则化估计 \(b\beta\) 收敛慢于 \(n^{-1/2}\)（Lasso 率为 \(s_{\beta_0}\sqrt{\log p / n}\)），直接用 \(b\beta\) 求解 \(\dot{l}_\theta(\theta, b\beta)=0\) 会使 \(\theta\) 有不可忽略偏差。 2. 通过减去 \(\mu^\top \dot{l}_\beta(\theta, \beta)\) 来「正交化」得分函数——其期望对 \(\beta\) 的导数为零。因此，在求解 \(\Phi(\theta, b\eta) = 0\) 时，\(b\beta\) 的估计误差只给 \(\theta\) 带来二阶小项（可被乘积条件控制到 \(o_p(n^{-1/2})\)）。 3. 在 \(p=1\) 的特例下，这个「正交化」的直观意义就是投影：将处理分量与协变量分量的部分似然得分进行线性组合，使得组合后的得分函数对协变量系数的局部变化不敏感。作者称其为 Neyman 近正交性，因为实际使用中 \(\mu_{a0}\) 本身也是估计的，存在近似误差（Proposition 4 的量化为 \(a_n = C s_{\beta_0} \log(p)/n\)）。

最终，研究者只需在这个 \(p=1\) 的例子中手动验证一次：\(\partial_\beta E[\Phi(\theta_0, \eta_{a0})] = -\Sigma_{\beta\theta} + \Sigma_{\beta\beta} \mu_{a0} = 0\)，就可以理解整篇论文的核心数学直觉——通过加权回归残差来消除高维 nuisance偏差的一阶影响。所有一般推广（高维 p、时间变化风险集、交叉拟合）只是给这个核心直觉加上层层的浓度控制与经验过程论证。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在稀疏高维 Cox 比例风险模型与高维 logistic 倾向得分工作模型下，对标量处理效应参数 \(\theta_0\) 和高维协变量效应向量 \(\beta_0\) 构造根号n一致渐近正态估计和有效置信区间。
核心工具/方法：① 构造 Neyman 近正交得分 \(\Phi = \dot{l}_\theta - \mu^\top \dot{l}_\beta\)，其中正交化参数 \(\mu_{a0} = \Sigma_{\beta\beta}^{-1} \Sigma_{\beta\theta}\) 通过测量 Cox 信息量的期望及倾向得分估计得到；② 使用 5 折交叉拟合（cross-fitting）减少过拟合偏差；③ 对 \(\beta_0\) 的推断借用 CLIME 精度矩阵估计。
主要结论：在率双稳健条件（nuisance 估计误差的乘积足够小）下，标量处理效应估计 \(\check{\theta}_1\) 与 \(\check{\theta}_2\) 满足 \(\sigma^{-1}\sqrt{n}(\check{\theta} - \theta_0) \overset{d}{\to} N(0,1)\) 且有一致的 sandwish 型方差估计（Theorem 1）；高维协变量系数向量的线性泛函具有类似结论（Theorem 2）。

关键设定与假设¶

完整设定（在第二节基础上加）： - 处理效应模型为 Cox 比例风险（式 1），趋势变量 \(Z\) 可高维。 - 倾向得分工作模型为 logistic（式 2），允许模型误设（模拟中验证了误设情形）。 - 存在时间区间 \([0, \tau]\)，\(\tau\) 为止点（\(P(Y(\tau)=1) > 0\)）。 - 计数过程 \(\{N_i(t), Y_i(t)\}_{t \in [0,\tau]}\) 满足 Doob-Meyer 分解，鞅 \(M_i(t)\) 零均值、局部平方可积。 - 各组间无干扰（SUTVA）且 \(T \perp C | (D,Z)\)。

假设（Condition 1–5，Section 4.1）： | 条件 | 统计含义 | 相较已有文献 | |------|----------|------------| | Cond 1(i) | 协变量有界（\(\|Z\|_\infty \le K_Z\)） | 简化经验过程控制，可放宽到矩条件，但需要加长论证（作者提及） | | Cond 1(ii) | 负 Hessian 的 compatibility 条件（\(\kappa_0 = O_p(1)\)）| 与 Huang et al. (2013) 标准 Cox Lasso oracle 不等式一致 | | Cond 1(iii) | \(s_{\beta_0} = o(n^{1/4}/\sqrt{\log p})\) | 比线性/广义线性模型去偏的 \(s = o(\sqrt{n}/\log p)\) 更紧——因为需要控制 Taylor 展开与风险集波动的乘积 | | Cond 2(i) | 严格重叠（\(c_0 < m_0(Z) < 1-c_0\)） | 与一般因果推断一致 | | Cond 2(ii) | 倾向得分估计的均匀收敛速度 \(\tau_n\) | 本文 Proposition 1 验证 Lasso 可得 \(\tau_n = O(s_{\gamma_0} \sqrt{\log p/n})\) | | Cond 3(i) | 处理/对照样本量同阶 | 避免退化 | | Cond 3(iii) | \(\int_0^\tau \lambda_0 < \infty\) 且 \(P(Y(\tau)=1)>0\) | 标准生存分析正则性，确保风险集非空至 \(\tau\) | | Cond 3(v) | 率双稳健条件：\(\|\Sigma_{\beta\beta}^{-1}\|_\infty s_{\mu_{a0}} s_{\beta_0}^2 \log(p) = o(\sqrt{n})\) 且 \(\tau_n \|\Sigma_{\beta\beta}^{-1}\|_\infty s_{\mu_{a0}} s_{\beta_0} \sqrt{\log p} = o(1)\) | 本文独特：允许任一 nuisance（Cox 系数或倾向得分）估计稍慢，只要另一足够准确使乘积小 | | Cond 3(vi) | \(\mu_{a0}\) 稀疏（\(s_{\mu_{a0}} = o(\sqrt{n}/\log p)\)）且有 beta-min 条件 | 确保 CLIME 可以恢复支撑 | | Cond 5 | 精度矩阵 \(\Sigma_{\beta\beta}^{-1}\) 列稀疏性（the \(h_j\)）| 与 Debiased Lasso 文献一致 |

与已有文献的放宽/强化： - 相比 Hou et al. (2023)（加性风险模型），本文需要处理指数链接与风险集，因此增加了 Condition 1(iii) 的严苛性。 - 相比 Yu et al. (2021)（不涉及因果识别），本文增加了 Condition 2（倾向得分）和 Condition 3(v)（乘积条件）。

主要结果¶

Theorem 1（标量处理效应渐近正态）：在 Condition 1–4 下，交叉拟合估计 \(\check{\theta}_1\) 和 \(\check{\theta}_2\) 以渐近概率 1 存在且位于局部邻域 \(N_{\theta_0}^*\) 内，满足
\(\sigma^{-1} \sqrt{n} (\check{\theta}_l - \theta_0) \overset{d}{\to} N(0,1)\)，
其中 \(\sigma^2 = J_0^{-1} E[n \Phi(O; \theta_0, \eta_{a0})^2] J_0^{-1}\)，\(J_0 = -\Sigma_{\theta\theta} + \mu_{a0}^\top \Sigma_{\beta\theta}\)。
方差估计 \(\hat{\sigma}_l^2\) 用 stacking 块内平方和构造，且是一致的。
技术难点：需同时控制① 风险集浓度（Lemma 7 of Yu et al. 2021）；② Neyman near-orthogonality 的近似误差（Proposition 4，量化为 \(a_n = O(s_{\beta_0} \log p / n)\)）；③ 经验过程波动的交叉拟合部分（Lemma 9，给出余项为 \(o_p(s_{\beta_0} \sqrt{\log p / n})\)）。
条件：\(\sigma^2\) 需要非退化（由 Condition 3(iv) 和 Lemma 2 保证 \(J_0\) 远离 0）。

Theorem 2（高维协变量效应线性泛函渐近正态）：在 Condition 1–5 下，对任意 \(\|c\|_1=1\) 的线性泛函，
\(\sqrt{n} c^\top (\check{\beta} - \beta_0) \overset{d}{\to} N(0, \varrho^2)\)，
其中 \(\varrho^2 = \lim c^\top [\Sigma_{\beta\beta}^{-1} + \Sigma_{\beta\beta}^{-1} \Sigma_{\beta\theta} (\Sigma_{\theta\theta} - \Sigma_{\theta\beta} \Sigma_{\beta\beta}^{-1} \Sigma_{\beta\theta})^{-1} \Sigma_{\theta\beta} \Sigma_{\beta\beta}^{-1}] c\)。
技术难点：需传播从 \(\check{\theta}\) 估计引入的额外不确定性，通过 6 个余项（\(\Pi_1\) 至 \(\Pi_6\)）控制；每一步都用 CLIME 的 \(\ell_\infty\) 误差和 Cox 部分似然的浓度。
条件：额外需要 Condition 5（precision matrix 列稀疏性）与 \(\beta\) 去偏的局部二次性。

证明路线与技术技巧¶

Theorem 1 证明主线（分三步，紧凑版）： 1. 存在性（Sign Conditions）：通过在局部邻域端点（\(\theta_0 \pm \Delta_n\)）检查得分符号，证明方程在 \(N_{\theta_0}^*\) 内有解。核心是分解得分 = R1 + R2 + R3，分别控制经验波动（Lemma 9）、水平（鞅 CLT）和期望偏移（结合 Neyman near-orthogonality）。 2. 线性化（Asymptotic Linear Representation）：在解 \(\check{\theta}_{1,k}\) 处对得分做 Taylor 展开得到
\(\sqrt{m}(\check{\theta}_{1,k} - \theta_0) = -J_0^{-1} \sqrt{m} \Phi(\text{block}_k; \theta_0, \eta_{a0}) + o_p(1)\)。
需要控制 4 个余项 I1–I4，分别涉及 Hessian 波动（Lemma 3）、期望协变导数（Proposition 4 给出的正交性）、经验导数波动（Lemma 4）和二阶 Taylor 余项（Lemma 5）。这里的关键跳跃是 Lemma 9 对交叉拟合的证明——它要求条件于 \(I_k^c\) 将 \(b\eta_k\) 视为固定，但还得处理分块内风险集权重 \(w_{k,j}(t, \cdot)\) 对 \((b\theta_k, b\beta_k)\) 的依赖，这需要额外的经验过程控制。 3. 方差一致估计（Slutsky）：证明 sandwich 形式的方差估计与 \(\sigma^2\) 之差为 \(o_p(1)\)，通过将块内「平行项」与「交叉项」分为 Q1、Q2，用风险集浓度（A.34）、倾向得分误差（τn）和 empirical process 控制（Lemma 11）。

关键引理及其作用： - Proposition 2：Cox Lasso 初始收敛率（\(s_{\beta_0}\sqrt{\log p/n}\)）。这是所有后续速率计算的基础。 - Proposition 3：CLIME 估计 \(b\mu_a\) 的 \(\ell_\infty\) 和 \(\ell_1\) 收敛率。\(\ell_1\) 率 = \(\|\Sigma_{\beta\beta}^{-1}\|_\infty s_{\mu_{a0}}(s_{\beta_0}\sqrt{\log p/n} + \tau_n)\)，直接进入二阶余项 I2–I4 和 Lemma 9 的边界。 - Proposition 4（Neyman near-orthogonality）：证明 \(\partial_\eta E\Phi = (-J_{\beta\theta} + J_{\beta\beta} \mu_{a0})^\top (\beta-\beta_0)\) 的 \(\ell_\infty\) norm 是 \(O(\sqrt{\log p/n})\)，因此与 \((\beta-\beta_0)\) 的 \(\ell_1\) 内积为 \(O(s_{\beta_0} \log p/n) = o(n^{-1/2})\)。这个引理确保了「正交化」确实起作用——尽管用的是「近」正交。 - Lemma 10（鞅 CLT）：证明 \(\sqrt{m} \Phi(\text{block}_k; \theta_0, \eta_{a0}) \overset{d}{\to} N(0, J_0^{-1} \sigma_\Phi^2 J_0^{-1})\)。其核心在于分解得分 = i.i.d. 鞅积分项 + 两个风险集近似误差项，后者方差趋于 0。

技术技巧点名： 1. Doob-Meyer 分解与鞅等距是处理 Cox 部分似然的关键工具（例如 Lemma 10 将得分转化为鞅积分）。 2. CLIME 精度矩阵估计（Cai et al. 2011）用于估计 \(b\mu_a\)，需结合 Condition 3(vi) 的 beta-min 条件进行阈值化得到 \(\ell_1\) 率。 3. 经验过程 / chaining：在 Lemma 6–9 中需要控制形如 \(\frac{1}{\sqrt{m}} \sum_i \int_0^\tau F(t, b\theta_k, b\beta_k) dN_i(t)\) 的项在不减的参数空间上的波动，主要通过建立风险集权重对参数变化的 Lipschitz 性质（式 A.68）然后应用邓氏不等式。 4. 交叉拟合的数学形式：通过将数据分割为 \(K\) 块，条件于 \(I_k^c\) 使 nuisance 固定，然后对块内观测做鞅 CLT，再跨块取平均或联立求解（式 18 vs 20），消除了 overfitting 偏差。

真实例子与应用（必讲）¶

数据：Diffuse large-B-cell lymphoma (DLBCL) 数据，原文 Rosenwald et al. (2002)，包含 7399 个基因的表达测量与化疗后生存时间。经预处理后取 GCB 组（\(n_1=115\)）和 ABC 组（\(n_0=73\)），删除 Type III 组。 如何处理：用前 50 个主成分作为协变量 \(Z\)（PCA），然后用 HSCI 框架估计处理效应（GCB vs. ABC）的 log-hazard ratio。交叉拟合 \(K=4\)，所有调参与 simulation 一致。结果： | 估计量 | 估计值 | SE | 95% CI | |-------|--------|----|--------| | Cox Lasso \(\hat{\theta}\) | -0.312 | — | — | | HSCI \(\check{\theta}_1\) | -0.536 | 0.2045 | [-0.937, -0.135] | | HSCI \(\check{\theta}_2\) | -0.527 | 0.2045 | [-0.928, -0.126] |

这个例子想说明什么： 1. Lasso 估计的效应（-0.312）绝对值小于 HSCI 估计（-0.536），且无置信区间 —— 展示正则化偏差需纠正。 2. HSCI 的置信区间完全位于 0 以下，与 Kaplan-Meier 曲线（Figure 2）定性一致（GCB 组生存优）。这是对方法实际应用性的验证。 3. \(\check{\theta}_1\) 与 \(\check{\theta}_2\) 几乎相等，说明两种交叉拟合聚合方式（先解后平均 vs. 先平均后解）在有限样本下无实质差异。

本文不含的实证内容：模拟中未做 power 分析、未与 Hou et al. (2023) 方法在同一数据上比较（因为加性风险模型设定不同）、未展示高维协变量系数推断的实证检验（Table 5-6 是仿真，非 real data）。

🔎 结论是否比证明窄¶

是，存在多处： 1. Theorem 1 的「root-n 渐近正态」在 Condition 3(v) 的率双稳健条件下严格证明，但 Discussion 部分（Section 7）提到可扩展到 machine-learning nuisance estimators。 这一扩展并未在本文证明——需要额外假设 ML 估计的收敛率（通常是非参数或慢于 Lasso）可能无法满足 Condition 3(v) 中的乘积条件。这是一个强假设的窄结论，但声称于「更广泛的 ML 估计器」是过宽的。 2. 高维协变量效应推断（Theorem 2）要求 Condition 5——精度矩阵列稀疏性。这一条件在弱相关设计下可能不成立，但作者仅在讨论中未加回避。在真实 DLBCL 数据中，PCA 后的 \(Z\) 可能近似正交，所以这一条件合理，但在一般高维基因数据中可能违反。 3. 倾向得分误设的模拟（Study 4）只验证了正确设定 Cox 模型 + 误设倾向得分的情形，并未验证 Cox 模型误设的情形（如违反比例风险假设）。作者在 Discussion 中只提到「未来工作」可研究更一般生存模型，未提及当前的 Cox 比例风险假设是限制。

四、开放问题¶

半参数效率界问题：本文未推导该设定（Cox 处理效应 + 高维 logistic 倾向得分）下的半参数效率界。正交得分估计是否达到该界？若不是，效率损失多大？扎根点：Section 1.2 引用 Dukes et al. (2019) 指出的「半参数效率理论可用于导出一致得分」，但本文未进行该推导。
更慢 nuisance 率下的可行性：Condition 3(v) 要求 \(s_{\beta_0} = o(n^{1/4}/\sqrt{\log p})\) 等。若用非参数方法（如 boosting 或 neural net）估计 \(\beta_0\)，其收敛率可能慢于 \(n^{-1/4}\)——乘积条件还能否满足？扎根点：Condition 3(v) 中的 \(\|\Sigma_{\beta\beta}^{-1}\|_\infty s_{\mu_{a0}} s_{\beta_0}^2 \log(p) / \sqrt{n} = o(1)\) 意味着 \(s_{\beta_0}\) 必须足够小，直接限制了可处理的非稀疏性。
时间依赖性协变量与时变处理：本文设定为基线协变量 \(Z\) + 单一处理 \(D\)。若存在 \(Z(t)\) 随时间变化，倾向得分模型 \(\gamma_0\) 的稀疏性假设与部分似然的鞅结构需要重新分析。扎根点：Section 7 Discussion 中明确提及「time-varying treatments and time-dependent covariates」作为 future work。
稳态可估计性（Weak identification）：当倾向得分接近 0/1（违反 Condition 2(i)）或 Cox 模型的信号太弱（\(\|\beta_0\|_1\) 过小使得信息矩阵近乎奇异）时，\(\sigma^2\) 可能发散，Theorem 1 的鞅 CLT 失效。扎根点：Condition 2(i) 的严格重叠假设与 Condition 3(iv) 的 invertibility 假设都未讨论临界情形下的推断。这是更广泛因果推断文献中的热点问题，本文未触及。

Maintained by 陈星宇 · Homepage · Source on GitHub