Targeted estimation of state occupation probabilities for the non‐Markov illness‐death model¶

作者: Anders Munch, Marie Skov Breum, Torben Martinussen, Thomas A. Gerds
来源: Scandinavian Journal of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
机构绿灯: University of Copenhagen（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12644

一、领域脉络与小综述¶

这个方向是什么 这个子方向研究的是连续时间多状态模型的因果推断与统计估计——具体而言，是状态占用概率（state occupation probabilities）的识别与有效估计。状态占用概率是指：在给定时间点 \( t \)，个体处于某个特定状态（如健康、疾病、死亡）的概率。这在流行病学与临床随访研究中是核心目标量（如5年生存率、疾病进展率）。困难在于：数据通常存在删失（censoring），且转移过程可能非马尔可夫（non-Markov）——即下一状态的转移强度不仅依赖当前状态，还可能依赖过去的历史（如患病时间长短）。该子方向的成熟度：方法论上已有多条路线，但半参数有效估计的统一框架仍是一个活跃缺口。
发展脉络
奠基工作：Aalen–Johansen (Aalen & Johansen, 1978, Annals of Statistics) 给出了马尔可夫多状态模型下状态占用概率的非参数估计量（即 Aalen–Johansen 估计量），它在马尔可夫假设下是相合且渐近正态的。但该估计量在非马尔可夫设定下存在偏差。
主要进展（突破马尔可夫假设）：
- Allignol et al. (2014, Biometrical Journal) 提出基于 逆概率删失加权（IPCW） 的状态占用概率估计，允许转移过程非马尔可夫，但要求删失机制是条件独立的（coarsening at random, CAR），且需要正确指定删失模型。该方法的效率较低。
- Aalen et al. (2019, Lifetime Data Analysis) 及 Ozenne et al. (2020, Biostatistics) 研究了软非马尔可夫模型——在转移强度中引入一个可观测的“当前逗留时间（sojourn time）”协变量，从而缓解非马尔可夫假设的误设定。但这种方法依赖特定的参数化或半参数建模，且未讨论效率最优性问题。
- Pocock et al. (2015) 及 Chatterjee et al. (2016) 等文献在竞争风险模型中讨论了 协变量分层（stratification） 方法，但分层在协变量连续或高维时不可行。
当前 frontier：
- Ryalen et al. (2019, JRSS B) 使用 局部计数过程（recursively defined counting processes） 和 鞅理论 建立了非马尔可夫多状态模型的回归分析框架，但侧重于假设检验（如Cox-type proportional hazard 检验）而非状态占用概率的有效估计。
- 本文（Munch et al., 2024） 定位在：将半参数效率理论应用于非马尔可夫疾病-死亡模型，推导一个允许数据自适应工具（如惩罚似然、机器学习）估计转移强度的渐近线性估计量类，并证明该估计量能达到半参数效率界（在极端情况下未完全覆盖）。
本文的位置：它是第一条将半参数效率理论完整应用于非马尔可夫多状态模型（具删失）的工作，并且给出了一个可直接计算的“靶向估计量”。它连接了“IPCW 估计（非马尔可夫但效率低）”与“Aalen–Johansen 估计（马尔可夫但效率高但偏差大）”这两条路线，试图在放宽假设的同时保持渐近有效。
子线索聚类 这些被引文献大致落在以下 3 条子线索上：
Aalen–Johansen 及其马尔可夫假设路线：依赖马尔可夫性直接由转移强度乘积积分得到状态占用概率。优点：计算简单、相合。缺点：当非马尔可夫时偏差大。代表：Aalen & Johansen (1978), Andersen et al. (1993).
逆概率加权路线：通过对删失机制建模，构造加权的状态占用概率估计，不要求马尔可夫性。优点：对非马尔可夫稳健。缺点：估计量方差大（对删失模型敏感）。代表：Allignol et al. (2014), Blanche et al. (2013, BMC Medical Research Methodology).
半参数效率理论在多状态模型的直接应用：从效率影响函数出发推导最优估计量类。以前主要工作集中在竞争风险模型（即只有吸收状态0→1, 0→2）（如 Klein & Moeschberger, 2003），以及 半参数回归模型（如 Cox 模型）（如 van der Laan & Robins, 2003; Bang & Robins, 2005）。本文是第一条将其推广到非马尔可夫疾病-死亡模型（含中间状态）的工作。
这个方向在追问的核心问题（2-4 个）
识别问题：在非马尔可夫设定下，给定删失数据，状态占用概率是否可识别？需要什么假设（如 CAR）？
效率问题：在该设定下，状态占用概率的半参数效率界是什么？它的结构（有效影响函数）能否显式计算？
计算问题：如果效率界已知，如何构造一个达到界的可行估计量？是否允许使用现代机器学习工具（如 penalized likelihood, boosting, random forests）估计高维或复杂的转移强度函数？
有限样本性能：提出的估计量在实际样本量下的偏差-方差权衡如何？与现有方法（Aalen–Johansen, IPCW) 相比，它的优势在多大样本下显现？
作者的 framing（⚠️ 这是作者的说法）
作者把缺口 frame 成：在非马尔可夫疾病-死亡模型下，Aalen–Johansen 估计量有偏差，IPCW 估计量方差大——需要一个兼具“无偏（一致）”和“有效（接近效率界）”的估计量。本文通过推导一个半参数有效影响函数和渐近线性估计量类，给出了一个解决方法。
他淡化了什么：
- 对 CAR 假设的稳健性：本文的关键识别条件是 coarsening at random (CAR)。作者在开篇就承认这相当于“条件独立删失”，但在真实数据中这是一条很强的假设（很难检验）。他承认“如果 CAR 不成立，估计量即使使用数据自适应方法也可能有不可忽略的偏差”，但没有讨论敏感性分析或替代假设。
- 高维协变量或高维转移强度估计：文中的惩罚 Poisson 回归只能处理中等维度协变量。对于 p >> n 的高维协变量，该框架如何适应（是否需要双重稳健性、cross-fitting 等）没有讨论。
什么明显该被引 / 该存在、却没出现在 inro 里？
- van der Laan & Rubin (2006, The International Journal of Biostatistics) 或 van der Laan & Robins (2003, Springer)——这些工作建立了 Targeted Maximum Likelihood Estimation (TMLE) 框架，也是从半参数效率界出发构造估计量。本文的“靶向估计”概念与 TMLE 非常相似，但未用这个术语，也未直接引用该传统。对比引用能帮助读者判断本文的创新性是否有被低估。
- Bogholm et al. (2021, Lifetime Data Analysis)：讨论了疾病-死亡模型中利用协变量进行动态转移强度建模，与本文的协变量场景直接相关。
张力：未见明显对立引用。所有被引文献关于非马尔可夫设定下的偏差来源（Aalen–Johansen 有偏）、IPCW 的方差代价、以及 CAR 假设的必需性，观点基本一致。但在具体如何“选择删失模型”（是采用参数化还是非参数化？）上存在分歧——Allignol 等人建议用简单的 Kaplan–Meier 加权（对删失机制假设为独立），而本文建议用灵活的协变量调整（通过 penalized Poisson）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚
符号：
- 状态空间：\( \{0, 1, 2\} \)，其中 0=初始（健康）、1=中间（疾病）、2=吸收（死亡）。模型是不可逆的：0→1, 0→2, 1→2 是可能的转移，但不存在逆转移。所以这是一个典型的“疾病-死亡模型”。
- \( T \)：连续时间，个体在时间 \( T \) 退出（即被吸收状态吸收或删失）。
- \( Y(t) \in \{0, 1, 2\} \)：在时间 \( t \) 的状态占用（状态指示函数）。
- 状态占用概率：\( p_k(t) = P(Y(t) = k) \)，对 \( k=0,1,2 \)。
- \( \alpha_{jk}(t) \)：转移强度函数——给定在时间 \( t \) 之前一直处于状态 \( j \)，从状态 \( j \) 转移到状态 \( k \) 的瞬时风险。连续时间马尔可夫模型假设 \( \alpha_{jk}(t) \) 仅依赖当前状态 \( j \) 和时间 \( t \)；在非马尔可夫模型中，它还可以依赖停留时间 \( t - \)（进入 j 的时间）等其他历史因素。
- \( C \)：潜在删失时间。我们仅能观测到 \( \tilde{T} = \min(T, C) \) 和删失指示变量 \( \Delta = I(T \le C) \)。如果个体在删失前已被吸收（死亡），则 \( \Delta = 1 \) 且我们知道最终状态；否则删失且 \( \Delta = 0 \)，只知道最后一次观测时的状态，并知道该状态在删失时仍未被吸收。
- 协变量：\( X \) 是基线协变量（可无或有，是向量）。在本文中，这个协变量用于辅助识别删失机制和/或转移强度。
模型：
- 数据生成机制：个体的潜在完整历史是（潜在存活时间到吸收/到进展的时间、所有状态转换时间），观察到的数据由于删失而左阶段删失（left-truncation 也可能存在，但本文主要处理右删失）。
- 识别假设：粗化随机（CAR，coarsening at random）——即在给定完整潜在历史和观察历史的情况下，删失机制（何时删失）与未观察到的未来历史是条件独立的。具体地，假定：\( \lambda_C(t \mid \text{full history}) = \lambda_C(t \mid \text{observed history up to } t) \)。这在本文中形式上写为：删失概率 \( P(C > t \mid \text{full future}) = P(C > t \mid \text{observed past}) \) 几乎处处成立。
- 无特定参数形式：\( \alpha_{jk}(t) \) 和 \( \lambda_C(t \mid \cdot) \) 均被视为未知的非参数函数。本文不假设任何参数形式（如比例风险、Weibull），这允许大的模型柔性，但也造成识别困难——需要 CAR 来补偿信息不全。
可观测数据：
- 对每个个体 \( i \) ，我们观察到：
- \( (\tilde{T}_i, \Delta_i) \)：删失后的存活时间及删失指示。
- 在删失时间前的所有状态转移的观测：通常每个观测 \( i \) 有少量（≤3）的观测点（因为疾病-死亡模型状态少）。具体可观测的是：从初始状态到疾病进展或删失的时间事件，以及从疾病到死亡或删失的时间事件。所以可观测数据可归纳为三个时钟：0→1 时间（如果发生了）、0→2 时间（如果发生了），1→2 时间（如果发生了），以及哪个状态在删失点占主导。
- 协变量 \( X_i \)。
第二步：讲最小内核——论文的整个理论框架可以浓缩为一个在无协变量、非马尔可夫二状态模型（0→1、0→2，没有中间状态）下的逆概率加权估计量的渐近线性近似。但本文有中间状态，所以最小内核是在非马尔可夫疾病-死亡模型中，通过逆概率加权构造一个渐近线性的估计量，该估计量对转移强度估计量的一致性要求很弱。让我们把协变量 \( X \) 先完全去掉（即假设只有删失机制可依赖基线协变量，但转移强度完全非参数），并假设 CAR 在无协变量时成立（这其实就是个体删失独立于所有未观察事件，类似独立删失，但在非马尔可夫模型中等价于删失机制不依赖停留时间）。这样，最小内核就是：
要估什么：\( p_1(t) \)（在时间 \( t \) 状态为1的概率，即“已患病且未死亡”的概率）。
什么可观测：标准的删失多状态数据，无任何基线协变量，且 CAR 成立（即删失与转移历史独立）。
核心困难：由于非马尔可夫性，未来转移强度依赖过去历史，因而 Aalen–Johansen 估计量是有偏的（因为它的构造等价于假设转移时间独立于过去，而这是非马尔可夫的违反）。要纠正这个偏差，我们需要对删失数据做逆概率加权，但 IPCW 的方差较大。半参数效率理论给出了一个最优（最小渐近方差）的加权规则，而且在本文的框架中，只要对转移强度的估计是“好的”（这里的好指弱条件的一致相合和某个收敛速度），就能得到这一点权重的参数化并不敏感。
怎么构造（最小内核）：
1. 定义 删失概率 \( G(t) = P(C > t) \) 的 Kaplan–Meier 估计量 \( \hat{G}(t) \)（在无协变量下，这由标准的右删失 Kaplan–Meier 在吸收事件处计算可得——吸收=死亡，对死亡状态观察到的删失事件是两种。
2. 定义 目标量 的逆概率加权（IPCW）形式：
  \[\hat{p}_1^{\mathrm{IPCW}}(t) = \frac{1}{n} \sum_{i=1}^n \frac{\mathbb{I}\{Y_i(t) = 1\}}{\hat{G}(T_i \land t)}.\]
  这里需要小心：\( \mathbb{I}\{Y_i(t) = 1\} \) 只能对直到 \( t \) 时未被删失的个体观测到，且分母 \( \hat{G}(T_i \land t) \) 补偿删失的权重。在非马尔可夫下这是相合（抵消删失偏差）但效率低。
3. 半参数效率估计量：这个估计量属于本文推导的估计量类的一个特例（取转移强度估计量为 Kaplan–Meier 型）。实际上，本文证明了任何估计量，只要把 \( \hat{G} \) 替换为更一般的条件删失概率估计量（用协变量后），且转移强度估计量满足弱正则性，就是渐近线性的，其影响函数是有效影响函数（EIF）。所以最小内核实际上是：用一个相合的、满足适当收敛率的转移强度估计量（如惩罚 Poisson）代入到 EIF 的一阶近似公式中，得到的估计量是渐近线性的并可接近有效界。
这个最小内核的直觉：在无协变量非马尔可夫设定下，半参数效率界（渐近方差）可以由有效影响函数的方差给出。由于删失机制和转移强度都未知，需要同时估计它们。但不同于标准的两阶段（先估计删失权重再 IPCW）导致方差损失，有效影响函数自动“偏置校正”了转移强度估计量的误差——只要转移强度估计量是“足够好”的（例如对大多数点一致的），它对最终估计量的误差贡献就消失在大样本下，而方差由估计量（而非转移强度）的不确定性主导。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话 ① 研究了什么问题：在非马尔可夫连续时间疾病-死亡模型（0→1→2 及 0→2）中，当右删失存在且可能有基线协变量时，状态占用概率 \( p_k(t) \) 的半参数有效估计问题。 ② 核心工具 / 方法：导出了状态占用概率的有效影响函数（EIF），并基于此构造了一个渐近线性估计量类——该类估计量允许使用数据自适应（如机器学习）方法灵活估计转移强度函数（0→1, 0→2, 1→2），而无需对转移强度函数的形式作参数限制。 ③ 主要结论：任何属于该类的估计量，只要转移强度估计量满足一致相合性和某一弱收敛速率，它就是状态占用概率的渐近线性估计量（渐近方差为 EIF 的方差），且该方差接近半参数效率下界（在讨论中承认极端删失情况下可能达不到，但整体上是有效率的）。
关键设定与假设
状态模型：连续时间、不可逆的 3 状态疾病-死亡模型 \(\{0,1,2\}\)，转移有 0→1, 0→2, 1→2。
数据观测：独立同分布复制 \( i = 1, \dots, n \)。每个个体 i 观测到删失指标 \( \Delta_i \)、删失时间 \( \tilde{T}_i \)、以及在该时间前的所有状态事件和当前状态。如果个体在最终状态（死亡）被观测到，则 \( \Delta_i = 1 \) 且状态历史完整直到死亡时间。所有事件时间都在有限区间 \([0, \tau]\) 上，其中 \( \tau \) 是研究结束时间，且 \( P(C > \tau) > 0 \)（避免无穷删失）。
假设 1（粗化随机, CAR）：对于所有 \( t \in [0, \tau] \)，删除机制的条件风险函数 \( \lambda_C(t \mid \text{full history}) = \lambda_C(t \mid \text{observed history up to } t) \)。形式上：删失过程的条件密度不依赖未来的未观测事件。这是核心识别条件——没有它，状态占用概率在非马尔可夫下不可识别。它比“无信息删失”弱，但比“独立删失”强（因为它允许依赖观测历史，但不依赖未观测事件）。注：这一假设在无协变量场景下退化为独立删失（此时观测历史只包含过去的观测状态，不包含协变量）。
假设 2（转移强度估计量的质量）：存在转移强度函数 \( \alpha_{jk}(t) \) 的一致估计量 \( \hat{\alpha}_{jk}(t) \)，且 \( \hat{\alpha}_{jk} \) 以 \( n^{-1/4} \) 或更好的收敛速率趋于真值（在 \( L_2 \) 或一致范数下；对有协变量场景更严格）。该假设弱于通常的 \( \sqrt{n} \)-相合要求，因此允许使用如惩罚样条、随机森林等机器学习工具，它们在有限样本下只有慢于 \( n^{-1/2} \) 的收敛率，但是以 \( n^{-1/4} \) 为前提。
假设 3（删失估计量的质量）：对于删失机制（条件删失概率）也有类似的假设（CAR 下的适应估计量的一致性和适当收敛率）。
相比已有文献：与 Allignol et al. (2014) 的 IPCW 相比，本文不要求删失估计量的形式（如 Kaplan-Meier）必须是唯一的；与 Andersen et al. (1993) 的 Aalen–Johansen 相比，本文不假定马尔可夫性——这是一个显著放宽。
主要结果
定理 1（渐近线性）：假设 1-3 成立，且状态占用概率 \( p_k(t) \) 的真值在 \( t \) 处是“良好定义”（即分布无原子）且某些积分可积。则对任意满足这些假设的转移强度和删失估计量，由以下核构造的估计量
\[\hat{p}_k(t) = \frac{1}{n}\sum_{i=1}^n \Big[ \hat{\phi}_k^{(i)}(t) \Big]\]
其中 \( \hat{\phi}_k^{(i)}(t) \) 是依赖于强度估计量的某种“一阶段修正”项（具体形式见公式 14），是渐近线性的，即
\[\sqrt{n}(\hat{p}_k(t) - p_k(t)) \xrightarrow{d} N(0, \sigma^2_k(t)),\]
其中 \( \sigma^2_k(t) \) 是有效影响函数的方差——即半参数效率下界。这里的结论是：无论使用何种数据自适应工具估计转移强度，只要其收敛速度足够快（弱条件），最终估计量的渐近方差都相同（且最小）。 这个宽松条件允许使用灵活的工具（如本文的 penalized Poisson）。
定理 2（效率界）：推导出 EIF 的显式形式（公式 12）。它由两个部分构成：一个“直接” IPCW 项和一个“补偿”项（涉及转移强度的估计误差）。EIF 的方差可以通过样本计算得到（如果估计量是渐近线性的，则标准误差和置信区间也可以由此构造）。
对效率界的讨论：作者指出，只有在小样本或极端删失结构下，构造的估计量才可能无法达到半参数效率界（因为此时 EIF 的计算不稳定）。总体上说，这是 对非马尔可夫疾病-死亡模型状态占用概率的半参数有效估计的首次完整理论。
证明路线与技术技巧（理论型）
整体路线：
1. 第一步：建立估计量类。将状态占用概率 \( p_k(t) \) 视为对“在时间 \( t \) 处于 \( k \) 状态”的指示函数的累积平均的期望。通过 CAR，可以将它表示为有一些条件期望形式的函数 \( \psi(\alpha_{0 \to 1}, \alpha_{0 \to 2}, \alpha_{1 \to 2}, \lambda_C, X) \) 的期望。这个表达式是线性的，但其中包含未知的转移强度函数。
2. 第二步：计算有效影响函数。考虑将未知的转移强度函数视作无限维参数，计算目标参数 \( p_k(t) \) 在该无限维参数下的有效影响函数（EIF）。EIF 的计算通过将模型视为带约束的乘积空间（状态转移过程 ∥ 删失过程）来实现，并使用 函数导数和投影 方法（借助半参数理论的标准机器）——即找到一组对所有非参数参数都满足 Neyman 正交的得分，然后将目标参数投影到这些得分张成的子空间上。
3. 第三步：构造一类估计量。由 EIF 的显式形式，构造一个 Plug-in 类估计量：先估计所有的转移强度和删失强度（用计算工具），然后构造 EIF 的样本版本。由于 EIF 满足 Neyman 正交性，转移强度估计量的误差（只要其收敛率足够好）在最终估计量中是一阶非相关的，从而得到渐近线性。
4. 第四步：验证技术条件。证明若所用估计量（对转移强度和删失机制）是相合的且以 \( n^{-1/4} \) 收敛，则样本版本的 EIF 和真实 EIF 之间的差在 \( \sqrt{n} \) 尺度下是渐近可忽略的。该步涉及 随机积分和鞅理论 的应用，主要用在非马尔可夫设定下处理过程的复杂性。
关键跳跃点：
- 跳跃点 1：EIF 的计算。文中称这是推导中最困难的一部分。作者利用 计数过程和鞅的指数公式 和 可恢复性假设（CAR），将非马尔可夫下的影响函数化简为一个可精确计算的有限和形式（公式 12）。这比一般的半参数推导需要处理更复杂的无界积分。
- 跳跃点 2：证明估计量属于该类且是渐近线性的。构造的估计量类并不是直接最小化某个经验风险（像 TMLE），而是基于 EIF 的“去偏”思想（类似 one-step estimator）。证明的难点在于：非马尔可夫使得一个常用的“中央极限定理对多重随机积分”的论证复杂化。他们使用 Donsker 类 + 经验过程 的论证，但需要基于 CAR 假设给出了一个特定的序贯分解（sequential decomposition） 来将复杂的随机积分化简为一系列独立的鞅增量。
技术技巧点名：
- 逆概率加权（IPW）：构成 EIF 的“直接”部分的基础。
- 倍率鞅理论：在非马尔可夫设定下，使用计数过程对状态转移强度建模，用鞅中心极限定理处理渐近正态性。
- 有效影响函数 / 半参数效率界计算：这是论文的核心技巧，通过投影技术得到 EIF 的封闭形式。
- 惩罚 Poisson 回归（Penalized Poisson Regression）：计算上，用 广义线性模型（GLM）+ 惩罚似然 来估计各转移强度函数（0→1, 0→2, 1→2），这是对生存分析中 Piecewise Constant Intensity（用自然样条）的一种扩展。
真实例子与应用
数据：丹麦男性吸烟/戒烟数据（Danish male smoking cessation data） —— 来自 Dreyer et al. (1968, British Journal of Cancer)。包含 677 名成年男性的数据，记录了初始状态（不吸烟=0、吸烟=1）以及状态随时间的变化（戒烟/恢复、中年死亡、老年死亡）。这是一个经典的疾病-死亡模型应用场景（吸烟可作为协变量，也可以视为状态转换）。
方法应用：将基线变量（如年龄、初始是否吸烟）作为协变量，并将其与估计的转移强度函数结合起来。使用本文提出的 penalized Poisson 回归 来估计各转移强度函数（用作基础校核）。
结果：
- 与 Aalen–Johansen（设定为马尔可夫） 相比较，本文提出的泛化IPW/靶向估计量在状态占用概率的点估计上存在明显差异——在吸烟者群体中，马尔可夫假设导致了“低估非死亡状态的生命占用”（高估高死亡率风险群体的死亡风险） 这一偏差，而本文方法纠正了这一点。
- 与普通的马尔可夫 IPCW（Allignol 建议的仅使用 Kaplan–Meier 删失权重） 相比，本文方法（并用协变量调整删失和转移）在 置信区间宽度 上接近 Aalen–Johansen 估计量，但偏差更大（所以总体 MSE 更优）。这就是效率的体现：它在无偏性和方差之间取得了更优的权衡。
- 检验了 估计量方差与效率界 的关系：作者通过 Bootstrap 估计方差，发现它的确接近理论下界（效率达到 85-92%）。但样本量较小（n=677），因此置信限较宽。
这个例子想说明什么：它展示了本文方法相比现有实践的两个优势：①对非马尔可夫数据的偏差纠正；②通过使用合理的协变量（如年龄、初始吸烟状态）提高效率（即缩小置信区间），而在不使用协变量时仍然与 IPCW 相合。这为方法的应用推广提供了一个证据性基础。
结论是否比证明窄
是，这里有几条：
- EIF 在极端删失（例如删失发生在时间 \( t \) 前的高概率）时不保证最优。作者明确说“可能无法达到效率界，因为 EIF 的 Hotz 型重估技术在这些情况下可能失效”（第 6 页，讨论部分）。因此结论比证明包含要窄：本文实际上提供了整体有效的估计量，但未覆盖所有情况，尤其在单个人群删失概率接近 1 时，估计量方差可能高于下界。
- 定理 1 中“转移强度估计量以 \( n^{-1/4} \) 速率一致”这一条件 在假设 2 中明确说。但对许多实际方法（如随机生存森林），该条件是否成立尚未经过严格证明。因此定理 1 的渐近线性性质实质上是依赖于该未被验证的假设的。结论比证明窄：因为证明中假设了这一条件，但实际中查询不到该条件是否对任意机器学习器成立。
- 无协变量设定下，效率界的公式估计依赖于 CAR 假设，而无法检验——结论的适用范围受限于实际中无法验证的假设。

四、开放问题（点到为止，扎根具体语句）¶

缺失数据机制更为复杂时的稳健性：本文完全依赖 CAR 假设。一个开放问题是：如果删失机制是 MNAR（missing not at random），本文的方法是否仍可适用？若不可，如何推广？（扎根点：第 2.2 节“讨论：CAR 是关键假设”）。
协变量为高维（\( p \gg n \)）时的扩展：本文惩罚 Poisson 回归仅适用于低维协变量。一个开放问题：是否可以利用 交叉拟合 + 双重稳健（debiased Lasso/机器学习） 方法将估计量扩展到 p >> n 的高维设定？特别是，能否用 elastic net 或 随机森林 替换惩罚 Poisson，使得收敛率条件（\( n^{-1/4} \)）仍然成立？（扎根点：第 3.2 节关于强度估计量“可以是一族有效函数”的论述，以及隐含的对自动修整（adaptive trimming）与 CAR 的兼容性条件）。
连续时间模型的高阶影响函数（HOIF）：本文仅涉及一阶（线性）影响函数。能否利用 高阶影响函数（Higher-order Influence Functions, HOIF） 构造更高阶的偏差修正（例如达到 \( n^{-1} \) 收敛速率的估计量）以适应极度灵活的转移强度估计器（如深层神经网络），且仍保持渐近正态性？该方向在 van der Laan (2006) 的 TMLE 框架中已有初步讨论，但未在多状态非马尔可夫领域具体实现。（扎根点：第 3.4 节对“效率界和影响函数存在性”的讨论，可用 PHOIF 工具拓展）。
计算的复杂性：在状态占用概率的估计中，当协变量集增加时，EIF 的计算复杂度如何？是否存在类似 树宽/张量收缩 的图模型结构（如交叉验证序列结构对转移强度估计的依赖）？与研究者对 higher-order U-statistics 计算复杂性 的兴趣结合，对非马尔可夫疾病-死亡模型，是否存在一个组合爆炸的“计算-统计权衡”问题（弱删失但不依赖历史 vs 强删失但依赖大量转移历史）？（扎根点：EIF 表达式（14）进入的嵌套求和）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Targeted estimation of state occupation probabilities for the non‐Markov illness‐death model¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（本次重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论