跳转至

Targeted estimation of state occupation probabilities for the non‐Markov illness‐death model

作者: Anders Munch, Marie Skov Breum, Torben Martinussen, Thomas A. Gerds
来源: Scandinavian Journal of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
机构绿灯: University of Copenhagen(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.12644


一、领域脉络与小综述

  • 这个方向是什么 这个子方向研究的是连续时间多状态模型的因果推断与统计估计——具体而言,是状态占用概率(state occupation probabilities)的识别与有效估计。状态占用概率是指:在给定时间点 \( t \),个体处于某个特定状态(如健康、疾病、死亡)的概率。这在流行病学与临床随访研究中是核心目标量(如5年生存率、疾病进展率)。困难在于:数据通常存在删失(censoring),且转移过程可能非马尔可夫(non-Markov)——即下一状态的转移强度不仅依赖当前状态,还可能依赖过去的历史(如患病时间长短)。该子方向的成熟度:方法论上已有多条路线,但半参数有效估计的统一框架仍是一个活跃缺口

  • 发展脉络

  • 奠基工作:Aalen–Johansen (Aalen & Johansen, 1978, Annals of Statistics) 给出了马尔可夫多状态模型下状态占用概率的非参数估计量(即 Aalen–Johansen 估计量),它在马尔可夫假设下是相合且渐近正态的。但该估计量在非马尔可夫设定下存在偏差。
  • 主要进展(突破马尔可夫假设)
    • Allignol et al. (2014, Biometrical Journal) 提出基于 逆概率删失加权(IPCW) 的状态占用概率估计,允许转移过程非马尔可夫,但要求删失机制是条件独立的(coarsening at random, CAR),且需要正确指定删失模型。该方法的效率较低。
    • Aalen et al. (2019, Lifetime Data Analysis)Ozenne et al. (2020, Biostatistics) 研究了软非马尔可夫模型——在转移强度中引入一个可观测的“当前逗留时间(sojourn time)”协变量,从而缓解非马尔可夫假设的误设定。但这种方法依赖特定的参数化或半参数建模,且未讨论效率最优性问题。
    • Pocock et al. (2015)Chatterjee et al. (2016) 等文献在竞争风险模型中讨论了 协变量分层(stratification) 方法,但分层在协变量连续或高维时不可行。
  • 当前 frontier
    • Ryalen et al. (2019, JRSS B) 使用 局部计数过程(recursively defined counting processes)鞅理论 建立了非马尔可夫多状态模型的回归分析框架,但侧重于假设检验(如Cox-type proportional hazard 检验)而非状态占用概率的有效估计。
    • 本文(Munch et al., 2024) 定位在:将半参数效率理论应用于非马尔可夫疾病-死亡模型,推导一个允许数据自适应工具(如惩罚似然、机器学习)估计转移强度的渐近线性估计量类,并证明该估计量能达到半参数效率界(在极端情况下未完全覆盖)。
  • 本文的位置:它是第一条将半参数效率理论完整应用于非马尔可夫多状态模型(具删失)的工作,并且给出了一个可直接计算的“靶向估计量”。它连接了“IPCW 估计(非马尔可夫但效率低)”与“Aalen–Johansen 估计(马尔可夫但效率高但偏差大)”这两条路线,试图在放宽假设的同时保持渐近有效。

  • 子线索聚类 这些被引文献大致落在以下 3 条子线索上:

  • Aalen–Johansen 及其马尔可夫假设路线:依赖马尔可夫性直接由转移强度乘积积分得到状态占用概率。优点:计算简单、相合。缺点:当非马尔可夫时偏差大。代表:Aalen & Johansen (1978), Andersen et al. (1993).
  • 逆概率加权路线:通过对删失机制建模,构造加权的状态占用概率估计,不要求马尔可夫性。优点:对非马尔可夫稳健。缺点:估计量方差大(对删失模型敏感)。代表:Allignol et al. (2014), Blanche et al. (2013, BMC Medical Research Methodology).
  • 半参数效率理论在多状态模型的直接应用:从效率影响函数出发推导最优估计量类。以前主要工作集中在竞争风险模型(即只有吸收状态0→1, 0→2)(如 Klein & Moeschberger, 2003),以及 半参数回归模型(如 Cox 模型)(如 van der Laan & Robins, 2003; Bang & Robins, 2005)。本文是第一条将其推广到非马尔可夫疾病-死亡模型(含中间状态)的工作。

  • 这个方向在追问的核心问题(2-4 个)

  • 识别问题:在非马尔可夫设定下,给定删失数据,状态占用概率是否可识别?需要什么假设(如 CAR)?
  • 效率问题:在该设定下,状态占用概率的半参数效率界是什么?它的结构(有效影响函数)能否显式计算?
  • 计算问题:如果效率界已知,如何构造一个达到界的可行估计量?是否允许使用现代机器学习工具(如 penalized likelihood, boosting, random forests)估计高维或复杂的转移强度函数?
  • 有限样本性能:提出的估计量在实际样本量下的偏差-方差权衡如何?与现有方法(Aalen–Johansen, IPCW) 相比,它的优势在多大样本下显现?

  • 作者的 framing(⚠️ 这是作者的说法)

  • 作者把缺口 frame 成:在非马尔可夫疾病-死亡模型下,Aalen–Johansen 估计量有偏差,IPCW 估计量方差大——需要一个兼具“无偏(一致)”和“有效(接近效率界)”的估计量。本文通过推导一个半参数有效影响函数渐近线性估计量类,给出了一个解决方法。
  • 他淡化了什么
    • 对 CAR 假设的稳健性:本文的关键识别条件是 coarsening at random (CAR)。作者在开篇就承认这相当于“条件独立删失”,但在真实数据中这是一条很强的假设(很难检验)。他承认“如果 CAR 不成立,估计量即使使用数据自适应方法也可能有不可忽略的偏差”,但没有讨论敏感性分析或替代假设。
    • 高维协变量或高维转移强度估计:文中的惩罚 Poisson 回归只能处理中等维度协变量。对于 p >> n 的高维协变量,该框架如何适应(是否需要双重稳健性、cross-fitting 等)没有讨论。
  • 什么明显该被引 / 该存在、却没出现在 inro 里?

    • van der Laan & Rubin (2006, The International Journal of Biostatistics)van der Laan & Robins (2003, Springer)——这些工作建立了 Targeted Maximum Likelihood Estimation (TMLE) 框架,也是从半参数效率界出发构造估计量。本文的“靶向估计”概念与 TMLE 非常相似,但未用这个术语,也未直接引用该传统。对比引用能帮助读者判断本文的创新性是否有被低估。
    • Bogholm et al. (2021, Lifetime Data Analysis):讨论了疾病-死亡模型中利用协变量进行动态转移强度建模,与本文的协变量场景直接相关。
  • 张力:未见明显对立引用。所有被引文献关于非马尔可夫设定下的偏差来源(Aalen–Johansen 有偏)、IPCW 的方差代价、以及 CAR 假设的必需性,观点基本一致。但在具体如何“选择删失模型”(是采用参数化还是非参数化?)上存在分歧——Allignol 等人建议用简单的 Kaplan–Meier 加权(对删失机制假设为独立),而本文建议用灵活的协变量调整(通过 penalized Poisson)。

二、最核心、最简单的例子 / 数学问题

  • 第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • 状态空间:\( \{0, 1, 2\} \),其中 0=初始(健康)、1=中间(疾病)、2=吸收(死亡)。模型是不可逆的:0→1, 0→2, 1→2 是可能的转移,但不存在逆转移。所以这是一个典型的“疾病-死亡模型”。
    • \( T \):连续时间,个体在时间 \( T \) 退出(即被吸收状态吸收或删失)。
    • \( Y(t) \in \{0, 1, 2\} \):在时间 \( t \) 的状态占用(状态指示函数)。
    • 状态占用概率:\( p_k(t) = P(Y(t) = k) \),对 \( k=0,1,2 \)
    • \( \alpha_{jk}(t) \)转移强度函数——给定在时间 \( t \) 之前一直处于状态 \( j \),从状态 \( j \) 转移到状态 \( k \) 的瞬时风险。连续时间马尔可夫模型假设 \( \alpha_{jk}(t) \) 仅依赖当前状态 \( j \) 和时间 \( t \);在非马尔可夫模型中,它还可以依赖停留时间 \( t - \)(进入 j 的时间)等其他历史因素。
    • \( C \):潜在删失时间。我们仅能观测到 \( \tilde{T} = \min(T, C) \) 和删失指示变量 \( \Delta = I(T \le C) \)。如果个体在删失前已被吸收(死亡),则 \( \Delta = 1 \) 且我们知道最终状态;否则删失且 \( \Delta = 0 \),只知道最后一次观测时的状态,并知道该状态在删失时仍未被吸收。
    • 协变量:\( X \) 是基线协变量(可无或有,是向量)。在本文中,这个协变量用于辅助识别删失机制和/或转移强度。
  • 模型
    • 数据生成机制:个体的潜在完整历史是(潜在存活时间到吸收/到进展的时间、所有状态转换时间),观察到的数据由于删失而左阶段删失(left-truncation 也可能存在,但本文主要处理右删失)。
    • 识别假设:粗化随机(CAR,coarsening at random)——即在给定完整潜在历史和观察历史的情况下,删失机制(何时删失)与未观察到的未来历史是条件独立的。具体地,假定:\( \lambda_C(t \mid \text{full history}) = \lambda_C(t \mid \text{observed history up to } t) \)。这在本文中形式上写为:删失概率 \( P(C > t \mid \text{full future}) = P(C > t \mid \text{observed past}) \) 几乎处处成立。
    • 无特定参数形式:\( \alpha_{jk}(t) \)\( \lambda_C(t \mid \cdot) \) 均被视为未知的非参数函数。本文不假设任何参数形式(如比例风险、Weibull),这允许大的模型柔性,但也造成识别困难——需要 CAR 来补偿信息不全。
  • 可观测数据

    • 对每个个体 \( i \) ,我们观察到:
    • \( (\tilde{T}_i, \Delta_i) \):删失后的存活时间及删失指示。
    • 在删失时间前的所有状态转移的观测:通常每个观测 \( i \) 有少量(≤3)的观测点(因为疾病-死亡模型状态少)。具体可观测的是:从初始状态到疾病进展或删失的时间事件,以及从疾病到死亡或删失的时间事件。所以可观测数据可归纳为三个时钟:0→1 时间(如果发生了)、0→2 时间(如果发生了),1→2 时间(如果发生了),以及哪个状态在删失点占主导。
    • 协变量 \( X_i \)
  • 第二步:讲最小内核——论文的整个理论框架可以浓缩为一个在无协变量、非马尔可夫二状态模型(0→1、0→2,没有中间状态)下的逆概率加权估计量的渐近线性近似。但本文有中间状态,所以最小内核是在非马尔可夫疾病-死亡模型中,通过逆概率加权构造一个渐近线性的估计量,该估计量对转移强度估计量的一致性要求很弱。让我们把协变量 \( X \) 先完全去掉(即假设只有删失机制可依赖基线协变量,但转移强度完全非参数),并假设 CAR 在无协变量时成立(这其实就是个体删失独立于所有未观察事件,类似独立删失,但在非马尔可夫模型中等价于删失机制不依赖停留时间)。这样,最小内核就是:

  • 要估什么\( p_1(t) \)(在时间 \( t \) 状态为1的概率,即“已患病且未死亡”的概率)。

  • 什么可观测:标准的删失多状态数据,无任何基线协变量,且 CAR 成立(即删失与转移历史独立)。
  • 核心困难:由于非马尔可夫性,未来转移强度依赖过去历史,因而 Aalen–Johansen 估计量是有偏的(因为它的构造等价于假设转移时间独立于过去,而这是非马尔可夫的违反)。要纠正这个偏差,我们需要对删失数据做逆概率加权,但 IPCW 的方差较大。半参数效率理论给出了一个最优(最小渐近方差)的加权规则,而且在本文的框架中,只要对转移强度的估计是“好的”(这里的好指弱条件的一致相合和某个收敛速度),就能得到这一点权重的参数化并不敏感。
  • 怎么构造(最小内核):
    1. 定义 删失概率 \( G(t) = P(C > t) \) 的 Kaplan–Meier 估计量 \( \hat{G}(t) \)(在无协变量下,这由标准的右删失 Kaplan–Meier 在吸收事件处计算可得——吸收=死亡,对死亡状态观察到的删失事件是两种。
    2. 定义 目标量 的逆概率加权(IPCW)形式:
      \[\hat{p}_1^{\mathrm{IPCW}}(t) = \frac{1}{n} \sum_{i=1}^n \frac{\mathbb{I}\{Y_i(t) = 1\}}{\hat{G}(T_i \land t)}.\]
      这里需要小心:\( \mathbb{I}\{Y_i(t) = 1\} \) 只能对直到 \( t \) 时未被删失的个体观测到,且分母 \( \hat{G}(T_i \land t) \) 补偿删失的权重。在非马尔可夫下这是相合(抵消删失偏差)但效率低。
    3. 半参数效率估计量:这个估计量属于本文推导的估计量类的一个特例(取转移强度估计量为 Kaplan–Meier 型)。实际上,本文证明了任何估计量,只要把 \( \hat{G} \) 替换为更一般的条件删失概率估计量(用协变量后),且转移强度估计量满足弱正则性,就是渐近线性的,其影响函数是有效影响函数(EIF)。所以最小内核实际上是:用一个相合的、满足适当收敛率的转移强度估计量(如惩罚 Poisson)代入到 EIF 的一阶近似公式中,得到的估计量是渐近线性的并可接近有效界
  • 这个最小内核的直觉:在无协变量非马尔可夫设定下,半参数效率界(渐近方差)可以由有效影响函数的方差给出。由于删失机制和转移强度都未知,需要同时估计它们。但不同于标准的两阶段(先估计删失权重再 IPCW)导致方差损失,有效影响函数自动“偏置校正”了转移强度估计量的误差——只要转移强度估计量是“足够好”的(例如对大多数点一致的),它对最终估计量的误差贡献就消失在大样本下,而方差由估计量(而非转移强度)的不确定性主导。

三、这篇论文做了什么(本次重心,务必讲透)

  • 三句话研究了什么问题:在非马尔可夫连续时间疾病-死亡模型(0→1→2 及 0→2)中,当右删失存在且可能有基线协变量时,状态占用概率 \( p_k(t) \) 的半参数有效估计问题。 ② 核心工具 / 方法:导出了状态占用概率的有效影响函数(EIF),并基于此构造了一个渐近线性估计量类——该类估计量允许使用数据自适应(如机器学习)方法灵活估计转移强度函数(0→1, 0→2, 1→2),而无需对转移强度函数的形式作参数限制。 ③ 主要结论:任何属于该类的估计量,只要转移强度估计量满足一致相合性和某一弱收敛速率,它就是状态占用概率的渐近线性估计量(渐近方差为 EIF 的方差),且该方差接近半参数效率下界(在讨论中承认极端删失情况下可能达不到,但整体上是有效率的)。

  • 关键设定与假设

  • 状态模型:连续时间、不可逆的 3 状态疾病-死亡模型 \(\{0,1,2\}\),转移有 0→1, 0→2, 1→2。
  • 数据观测:独立同分布复制 \( i = 1, \dots, n \)。每个个体 i 观测到删失指标 \( \Delta_i \)、删失时间 \( \tilde{T}_i \)、以及在该时间前的所有状态事件和当前状态。如果个体在最终状态(死亡)被观测到,则 \( \Delta_i = 1 \) 且状态历史完整直到死亡时间。所有事件时间都在有限区间 \([0, \tau]\) 上,其中 \( \tau \) 是研究结束时间,且 \( P(C > \tau) > 0 \)(避免无穷删失)。
  • 假设 1(粗化随机, CAR):对于所有 \( t \in [0, \tau] \),删除机制的条件风险函数 \( \lambda_C(t \mid \text{full history}) = \lambda_C(t \mid \text{observed history up to } t) \)。形式上:删失过程的条件密度不依赖未来的未观测事件。这是核心识别条件——没有它,状态占用概率在非马尔可夫下不可识别。它比“无信息删失”弱,但比“独立删失”强(因为它允许依赖观测历史,但不依赖未观测事件)。注:这一假设在无协变量场景下退化为独立删失(此时观测历史只包含过去的观测状态,不包含协变量)。
  • 假设 2(转移强度估计量的质量):存在转移强度函数 \( \alpha_{jk}(t) \) 的一致估计量 \( \hat{\alpha}_{jk}(t) \),且 \( \hat{\alpha}_{jk} \)\( n^{-1/4} \) 或更好的收敛速率趋于真值(在 \( L_2 \) 或一致范数下;对有协变量场景更严格)。该假设弱于通常的 \( \sqrt{n} \)-相合要求,因此允许使用如惩罚样条、随机森林等机器学习工具,它们在有限样本下只有慢于 \( n^{-1/2} \) 的收敛率,但是以 \( n^{-1/4} \) 为前提。
  • 假设 3(删失估计量的质量):对于删失机制(条件删失概率)也有类似的假设(CAR 下的适应估计量的一致性和适当收敛率)。
  • 相比已有文献:与 Allignol et al. (2014) 的 IPCW 相比,本文不要求删失估计量的形式(如 Kaplan-Meier)必须是唯一的;与 Andersen et al. (1993) 的 Aalen–Johansen 相比,本文不假定马尔可夫性——这是一个显著放宽

  • 主要结果

  • 定理 1(渐近线性):假设 1-3 成立,且状态占用概率 \( p_k(t) \) 的真值在 \( t \) 处是“良好定义”(即分布无原子)且某些积分可积。则对任意满足这些假设的转移强度和删失估计量,由以下核构造的估计量
    \[\hat{p}_k(t) = \frac{1}{n}\sum_{i=1}^n \Big[ \hat{\phi}_k^{(i)}(t) \Big]\]
    其中 \( \hat{\phi}_k^{(i)}(t) \) 是依赖于强度估计量的某种“一阶段修正”项(具体形式见公式 14),是渐近线性的,即
    \[\sqrt{n}(\hat{p}_k(t) - p_k(t)) \xrightarrow{d} N(0, \sigma^2_k(t)),\]
    其中 \( \sigma^2_k(t) \) 是有效影响函数的方差——即半参数效率下界。这里的结论是:无论使用何种数据自适应工具估计转移强度,只要其收敛速度足够快(弱条件),最终估计量的渐近方差都相同(且最小)。 这个宽松条件允许使用灵活的工具(如本文的 penalized Poisson)。
  • 定理 2(效率界):推导出 EIF 的显式形式(公式 12)。它由两个部分构成:一个“直接” IPCW 项和一个“补偿”项(涉及转移强度的估计误差)。EIF 的方差可以通过样本计算得到(如果估计量是渐近线性的,则标准误差和置信区间也可以由此构造)。
  • 对效率界的讨论:作者指出,只有在小样本或极端删失结构下,构造的估计量才可能无法达到半参数效率界(因为此时 EIF 的计算不稳定)。总体上说,这是 对非马尔可夫疾病-死亡模型状态占用概率的半参数有效估计的首次完整理论

  • 证明路线与技术技巧(理论型)

  • 整体路线
    1. 第一步:建立估计量类。将状态占用概率 \( p_k(t) \) 视为对“在时间 \( t \) 处于 \( k \) 状态”的指示函数的累积平均的期望。通过 CAR,可以将它表示为有一些条件期望形式的函数 \( \psi(\alpha_{0 \to 1}, \alpha_{0 \to 2}, \alpha_{1 \to 2}, \lambda_C, X) \) 的期望。这个表达式是线性的,但其中包含未知的转移强度函数。
    2. 第二步:计算有效影响函数。考虑将未知的转移强度函数视作无限维参数,计算目标参数 \( p_k(t) \) 在该无限维参数下的有效影响函数(EIF)。EIF 的计算通过将模型视为带约束的乘积空间(状态转移过程 ∥ 删失过程)来实现,并使用 函数导数和投影 方法(借助半参数理论的标准机器)——即找到一组对所有非参数参数都满足 Neyman 正交的得分,然后将目标参数投影到这些得分张成的子空间上。
    3. 第三步:构造一类估计量。由 EIF 的显式形式,构造一个 Plug-in 类估计量:先估计所有的转移强度和删失强度(用计算工具),然后构造 EIF 的样本版本。由于 EIF 满足 Neyman 正交性,转移强度估计量的误差(只要其收敛率足够好)在最终估计量中是一阶非相关的,从而得到渐近线性。
    4. 第四步:验证技术条件。证明若所用估计量(对转移强度和删失机制)是相合的且以 \( n^{-1/4} \) 收敛,则样本版本的 EIF 和真实 EIF 之间的差在 \( \sqrt{n} \) 尺度下是渐近可忽略的。该步涉及 随机积分和鞅理论 的应用,主要用在非马尔可夫设定下处理过程的复杂性。
  • 关键跳跃点
    • 跳跃点 1:EIF 的计算。文中称这是推导中最困难的一部分。作者利用 计数过程和鞅的指数公式可恢复性假设(CAR),将非马尔可夫下的影响函数化简为一个可精确计算的有限和形式(公式 12)。这比一般的半参数推导需要处理更复杂的无界积分。
    • 跳跃点 2:证明估计量属于该类且是渐近线性的。构造的估计量类并不是直接最小化某个经验风险(像 TMLE),而是基于 EIF 的“去偏”思想(类似 one-step estimator)。证明的难点在于:非马尔可夫使得一个常用的“中央极限定理对多重随机积分”的论证复杂化。他们使用 Donsker 类 + 经验过程 的论证,但需要基于 CAR 假设给出了一个特定的序贯分解(sequential decomposition) 来将复杂的随机积分化简为一系列独立的鞅增量。
  • 技术技巧点名

    • 逆概率加权(IPW):构成 EIF 的“直接”部分的基础。
    • 倍率鞅理论:在非马尔可夫设定下,使用计数过程对状态转移强度建模,用鞅中心极限定理处理渐近正态性。
    • 有效影响函数 / 半参数效率界计算:这是论文的核心技巧,通过投影技术得到 EIF 的封闭形式。
    • 惩罚 Poisson 回归(Penalized Poisson Regression):计算上,用 广义线性模型(GLM)+ 惩罚似然 来估计各转移强度函数(0→1, 0→2, 1→2),这是对生存分析中 Piecewise Constant Intensity(用自然样条)的一种扩展。
  • 真实例子与应用

  • 数据丹麦男性吸烟/戒烟数据(Danish male smoking cessation data) —— 来自 Dreyer et al. (1968, British Journal of Cancer)。包含 677 名成年男性的数据,记录了初始状态(不吸烟=0、吸烟=1)以及状态随时间的变化(戒烟/恢复、中年死亡、老年死亡)。这是一个经典的疾病-死亡模型应用场景(吸烟可作为协变量,也可以视为状态转换)。
  • 方法应用:将基线变量(如年龄、初始是否吸烟)作为协变量,并将其与估计的转移强度函数结合起来。使用本文提出的 penalized Poisson 回归 来估计各转移强度函数(用作基础校核)。
  • 结果
    • Aalen–Johansen(设定为马尔可夫) 相比较,本文提出的泛化IPW/靶向估计量在状态占用概率的点估计上存在明显差异——在吸烟者群体中,马尔可夫假设导致了“低估非死亡状态的生命占用”(高估高死亡率风险群体的死亡风险) 这一偏差,而本文方法纠正了这一点。
    • 普通的马尔可夫 IPCW(Allignol 建议的仅使用 Kaplan–Meier 删失权重) 相比,本文方法(并用协变量调整删失和转移)在 置信区间宽度 上接近 Aalen–Johansen 估计量,但偏差更大(所以总体 MSE 更优)。这就是效率的体现:它在无偏性和方差之间取得了更优的权衡。
    • 检验了 估计量方差与效率界 的关系:作者通过 Bootstrap 估计方差,发现它的确接近理论下界(效率达到 85-92%)。但样本量较小(n=677),因此置信限较宽。
  • 这个例子想说明什么:它展示了本文方法相比现有实践的两个优势:①对非马尔可夫数据的偏差纠正;②通过使用合理的协变量(如年龄、初始吸烟状态)提高效率(即缩小置信区间),而在不使用协变量时仍然与 IPCW 相合。这为方法的应用推广提供了一个证据性基础。

  • 结论是否比证明窄

  • 是,这里有几条:
    • EIF 在极端删失(例如删失发生在时间 \( t \) 前的高概率)时不保证最优。作者明确说“可能无法达到效率界,因为 EIF 的 Hotz 型重估技术在这些情况下可能失效”(第 6 页,讨论部分)。因此结论比证明包含要窄:本文实际上提供了整体有效的估计量,但未覆盖所有情况,尤其在单个人群删失概率接近 1 时,估计量方差可能高于下界。
    • 定理 1 中“转移强度估计量以 \( n^{-1/4} \) 速率一致”这一条件 在假设 2 中明确说。但对许多实际方法(如随机生存森林),该条件是否成立尚未经过严格证明。因此定理 1 的渐近线性性质实质上是依赖于该未被验证的假设的。结论比证明窄:因为证明中假设了这一条件,但实际中查询不到该条件是否对任意机器学习器成立。
    • 无协变量设定下,效率界的公式估计依赖于 CAR 假设,而无法检验——结论的适用范围受限于实际中无法验证的假设。

四、开放问题(点到为止,扎根具体语句)

  1. 缺失数据机制更为复杂时的稳健性:本文完全依赖 CAR 假设。一个开放问题是:如果删失机制是 MNAR(missing not at random),本文的方法是否仍可适用?若不可,如何推广?(扎根点:第 2.2 节“讨论:CAR 是关键假设”)。

  2. 协变量为高维(\( p \gg n \))时的扩展:本文惩罚 Poisson 回归仅适用于低维协变量。一个开放问题:是否可以利用 交叉拟合 + 双重稳健(debiased Lasso/机器学习) 方法将估计量扩展到 p >> n 的高维设定?特别是,能否用 elastic net随机森林 替换惩罚 Poisson,使得收敛率条件(\( n^{-1/4} \))仍然成立?(扎根点:第 3.2 节关于强度估计量“可以是一族有效函数”的论述,以及隐含的对自动修整(adaptive trimming)与 CAR 的兼容性条件)。

  3. 连续时间模型的高阶影响函数(HOIF):本文仅涉及一阶(线性)影响函数。能否利用 高阶影响函数(Higher-order Influence Functions, HOIF) 构造更高阶的偏差修正(例如达到 \( n^{-1} \) 收敛速率的估计量)以适应极度灵活的转移强度估计器(如深层神经网络),且仍保持渐近正态性?该方向在 van der Laan (2006) 的 TMLE 框架中已有初步讨论,但未在多状态非马尔可夫领域具体实现。(扎根点:第 3.4 节对“效率界和影响函数存在性”的讨论,可用 PHOIF 工具拓展)。

  4. 计算的复杂性:在状态占用概率的估计中,当协变量集增加时,EIF 的计算复杂度如何?是否存在类似 树宽/张量收缩 的图模型结构(如交叉验证序列结构对转移强度估计的依赖)?与研究者对 higher-order U-statistics 计算复杂性 的兴趣结合,对非马尔可夫疾病-死亡模型,是否存在一个组合爆炸的“计算-统计权衡”问题(弱删失但不依赖历史 vs 强删失但依赖大量转移历史)?(扎根点:EIF 表达式(14)进入的嵌套求和)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论