Conditional Aalen–Johansen estimation¶

作者: Martin Bladt, Christian Furrer
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究的是在多状态模型下，如何非参数地估计条件状态占据概率。其根本统计问题是：给定个体的外部（baseline）或内部（landmark/历史）协变量信息，该个体在时刻 \(t\) 处于各个状态的概率是什么？当前该方向的成熟度处于“非参数无条件估计已基本定型（Aalen-Johansen），半参数条件估计在特定模型（如illness-death）有突破，但通用非参数条件估计的理论（尤其是渐近分布）尚在建立中”的阶段。

发展脉络： - 奠基工作：Aalen & Johansen (1978) 提出了非参数的 Aalen-Johansen 估计量，用于估计无条件状态占据概率。其核心是在非 Markov 设定下，通过矩阵乘积积分重构转移概率。这留下了“如何引入协变量进行条件估计”的口子。 - 主要进展（无条件非 Markov 理论的夯实）：Overgaard (2019) 通过区间函数的加性与乘性变换，为非 Markov 下的 Aalen-Johansen 估计量的一致性提供了新证明路线；Bathke & Christiansen (2024) 引入前向/后向转移率，试图在非 Markov 框架下处理条件矩计算。作者引用后者时指出：“This follows from a suitable application of the Banach fixed-point theorem”，暗示其乘积积分的收敛性论证借鉴了不动点定理的思想。 - 主要进展（条件估计的早期尝试）：Siriwardhana et al. (2018) 与 Mostajabi & Datta (2023) 使用了逆概率 censoring 加权（IPCW）来估计条件占据概率。作者对此的判断是：“inverse probability of censoring weighting has been used in simpler setup than ours, for instance considering only progressive jump processes”——明确指出了 IPCW 路线受限于“渐进跳过程”（不可逆转移），无法处理一般的多状态往返转移。 - 当前 frontier（半参数效率理论介入）：Munch et al. (2023) 针对不可逆 illness-death 模型，利用半参数效率理论推导了状态占据概率的一步估计/靶向估计。作者虽未在 intro 中直接点名 Munch (2023)，但该工作代表了当前条件估计的 frontier：用 influence function 构造渐近线性估计量。其留下的口子是：理论仅限于 3 状态不可逆模型，且依赖 censoring at random 的识别假设。 - 本文的位置：本文填补了“通用非参数条件估计”的空白。不依赖 IPCW（从而允许往返转移），不依赖 Markov 性，不限于特定状态空间图结构，直接在乘积积分框架下引入局部协变量权重，构造了条件 Aalen-Johansen 估计量，并给出了强一致性与渐近正态性。

子线索聚类： 1. 乘积积分与非 Markov 路线：Aalen-Johansen (1978) → Overgaard (2019) → Bathke & Christiansen (2024) → 本文。这一簇坚持用矩阵乘积积分刻画转移概率，通过加性/乘性变换或不动点定理处理非 Markov 依赖。 2. IPCW 与条件估计路线：Siriwardhana (2018) → Mostajabi & Datta (2023)。这一簇用 censoring 逆概率加权重构条件分布，但受限于渐进过程（无往返转移）。 3. 半参数效率与靶向估计路线：Munch et al. (2023)。这一簇在特定低维模型（illness-death）下推导 efficient influence function，构造一步估计量，允许 data-adaptive 估计 nuisance，但尚未推广到一般多状态模型。

这个方向在追问的核心问题： 1. 非 Markov 依赖如何刻画与估计？ 多状态过程的未来转移依赖过去历史，无条件估计掩盖了这种依赖，条件估计必须显式处理它。 2. 条件状态占据概率的渐近分布是什么？ 要做置信区间或构造一步估计量，必须知道估计量的渐近正态性及其方差结构。 3. 往返转移（非渐进过程）如何处理？ 真实数据（如疾病复发）存在状态往返，IPCW 路线在此失效，需要乘积积分路线的推广。

⚠️ 作者的 framing： - 作者把缺口 frame 成：现有条件估计要么只处理渐进过程（IPCW 路线），要么只处理特定低维模型，缺乏一个像 Aalen-Johansen 那样“通用、非参数、支持往返转移与内部/外部协变量”的估计量。这让本文的“条件 Aalen-Johansen”成为显然的下一步。 - 被淡化的竞争路线：半参数效率路线（Munch et al. 2023）未被 intro 讨论。作者选择了纯非参数路线，回避了 nuisance 估计与 coarsening at random 的识别难题，代价是条件估计的维度灾难（本文理论要求协变量离散或局部常数假设）。 - 缺失的引用：intro 中未出现任何关于半参数效率界或efficient influence function在多状态模型下的工作（如 Munch 2023）。这值得研究者去查：是作者刻意回避了半参数路线的竞争，还是认为非参数与半参数解决的是不同层面的问题？

张力：未见明显对立引用。各路线（乘积积分 vs IPCW vs 半参数）在不同设定下给出不同结论，但未在同一设定下直接冲突。IPCW 在渐进模型下成立，乘积积分在一般模型下成立，两者在渐进模型特例下应等价，但本文未显式论证这种等价退化的极限。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(p_{ij}(s, t \mid x)\)：条件转移概率，给定协变量 \(x\)，过程在时刻 \(s\) 处于状态 \(i\)，在时刻 \(t\) 处于状态 \(j\) 的概率。
\(P(s, t \mid x)\)：条件转移概率矩阵，元素为 \(p_{ij}(s, t \mid x)\)。
\(\pi_j(t \mid x)\)：条件状态占据概率（核心 estimand），给定协变量 \(x\)，过程在时刻 \(t\) 处于状态 \(j\) 的概率。\(\pi_j(t \mid x) = \sum_i P(0, t \mid x)_{ij} \mu_i(x)\)，其中 \(\mu_i(x)\) 是给定 \(x\) 时初始状态 \(i\) 的概率。
随机变量 / 样本：
\(X\)：协变量（外部 baseline 或内部 landmark）。
\(N_{ij}(t)\)：从状态 \(i\) 到 \(j\) 的计数过程，记录个体在 \((0, t]\) 内发生 \(i \to j\) 转移的次数。
\(Y_i(t)\)：状态 \(i\) 的 at-risk 过程，\(Y_i(t) = 1\) 表示个体在时刻 \(t\) 处于状态 \(i\) 且未被 censoring。
\(C\)：右 censoring 时间，\(T\) 为真实过程时间，观测时间 \(U = \min(T, C)\)，\(\Delta = I(T \le C)\)。
维数 / 指标：
\(\mathcal{S} = \{1, \ldots, K\}\)：有限状态空间，\(K\) 为状态数。
\(n\)：样本量。
潜在 / 不可观测量：
真实转移时间 \(T\)（若被 censoring 则不可观测）。
真实转移强度矩阵 \(A(t \mid x)\)（不可观测，需估计）。

模型：数据生成机制为有限状态跳过程，给定协变量 \(X=x\)，过程由条件转移强度矩阵 \(A(t \mid x)\) 驱动，\(A(t \mid x)_{ij} = \lim_{h \to 0} P(X \text{ 在 } t+h \text{ 处于 } j \mid X \text{ 在 } t \text{ 处于 } i, x) / h\)（\(i \ne j\)），\(A(t \mid x)_{ii} = -\sum_{j \ne i} A(t \mid x)_{ij}\)。过程不假设 Markov 性（强度可依赖历史）。观测受独立右 censoring 截断。目标是估计 \(\pi_j(t \mid x)\)。

可观测数据：对每个个体 \(k\)，观测到 \((X_k, U_k, \Delta_k, \{N_{ij}^{(k)}(t)\}_{i \ne j}, \{Y_i^{(k)}(t)\}_i)\)。即：协变量、观测时间、censoring 指标、各转移的计数过程轨迹、各状态的 at-risk 过程轨迹。不可观测的是被 censoring 截断后的转移路径。

第二步：最小内核——二状态生存模型（条件 Kaplan-Meier）

整篇论文的内核是矩阵乘积积分的局部协变量加权。最简特例是 \(K=2\)（生存模型，状态 1=存活，2=死亡），此时矩阵退化为标量，乘积积分退化为普通积分。

特例设定：状态空间 \(\{1, 2\}\)，只有 \(1 \to 2\) 转移。条件生存概率 \(S(t \mid x) = 1 - \pi_2(t \mid x)\)。条件累积强度 \(A(t \mid x) = \int_0^t \alpha(s \mid x) ds\)。
无条件 Aalen-Johansen / Kaplan-Meier：估计 \(A(t)\) 用 \(\hat{A}(t) = \int_0^t \frac{\sum_k dN_{12}^{(k)}(s)}{\sum_k Y_1^{(k)}(s)}\)，然后 \(\hat{S}(t) = \prod_{(0, t]} (1 - d\hat{A}(s))\)（乘积积分）。
条件版本（本文内核）：引入局部协变量权重 \(W_k(s, x)\)（例如核权重 \(K_h(X_k - x)\) 或 landmark 指示子）。构造条件累积强度估计：
\[\hat{A}(t \mid x) = \int_0^t \frac{\sum_k W_k(s, x) dN_{12}^{(k)}(s)}{\sum_k W_k(s, x) Y_1^{(k)}(s)}\]
然后通过乘积积分重构条件生存概率：
\[\hat{S}(t \mid x) = \prod_{(0, t]} (1 - d\hat{A}(s \mid x))\]
为什么成立：在 \(K=2\) 时，乘积积分是标量指数 \(\exp(-\hat{A}(t \mid x))\) 的离散近似。局部权重 \(W_k(s, x)\) 使得只有协变量接近 \(x\) 的个体在时刻 \(s\) 贡献强度估计，从而 \(\hat{A}(t \mid x)\) 逼近真实 \(A(t \mid x)\)，乘积积分保持一致性。
一般情形的“加壳”：当 \(K > 2\) 且有往返转移时，标量 \(1 - d\hat{A}\) 变为矩阵 \(I - d\hat{A}(s \mid x)\)（\(\hat{A}(s \mid x)\) 是 \(K \times K\) 条件累积强度矩阵估计），乘积积分变为矩阵乘积积分 \(\prod_{(0, t]} (I - d\hat{A}(s \mid x))\)。核心数学困难从“标量指数逼近”变为“非 Markov 下矩阵乘积积分的一致性与渐近正态性”，因为矩阵乘积积分不可交换，且非 Markov 导致 \(A(t \mid x)\) 依赖历史。

三、这篇论文做了什么¶

三句话： ① 研究了有限状态非 Markov 跳过程下，给定外部/内部协变量的条件状态占据概率的非参数估计问题。 ② 核心工具是局部协变量加权的条件累积强度矩阵估计 + 矩阵乘积积分（条件 Aalen-Johansen 估计量）。 ③ 主要结论是在宽松矩条件（允许转移数无界）下，建立了该估计量的强一致性与渐近正态性，且证明路线通过 Banach 不动点定理与 Volterra 型积分方程绕过了非 Markov 依赖的障碍。

关键设定与假设： - 条件 Aalen-Johansen 估计量构造： - 条件累积强度矩阵估计：\(\hat{A}(t \mid x) = \int_0^t \frac{\sum_k W_k(s, x) dN^{(k)}(s)}{\sum_k W_k(s, x) Y^{(k)}(s)}\)，其中 \(dN^{(k)}(s)\) 是转移计数矩阵增量，\(W_k(s, x)\) 是局部权重（支持外部 baseline 协变量或内部 landmark 协变量）。 - 条件转移概率矩阵估计：\(\hat{P}(s, t \mid x) = \prod_{(s, t]} (I - d\hat{A}(u \mid x))\)（矩阵乘积积分）。 - 条件状态占据概率估计：\(\hat{\pi}_j(t \mid x) = \sum_i \hat{\mu}_i(x) \hat{P}(0, t \mid x)_{ij}\)，\(\hat{\mu}_i(x)\) 是条件初始状态概率估计。 - 假设： - H1（局部常数假设）：条件转移强度 \(A(t \mid x)\) 在 \(x\) 的邻域内足够平滑（对连续协变量需核权重带宽 \(h \to 0\)；对离散协变量此假设自动满足）。 - H2（宽松矩条件）：多变量计数过程的矩条件宽松，允许转移数无界（不假设有限最大转移数，这是对经典多状态文献的放宽）。 - H3（Censoring 与 Positivity）：独立右 censoring，且 at-risk 过程的局部加权求和满足 positivity（\(\sum_k W_k(s, x) Y^{(k)}(s)\) 不为零）。 - 统计含义：H1 是非参数局部估计的标准假设；H2 允许疾病复发等往返转移过程；H3 是 censoring 下的识别条件。相比已有文献（如 Overgaard 2019 要求有限转移数），H2 是实质性放宽。

主要结果： - 定理1（强一致性）：\(\sup_{t \in [0, \tau]} \|\hat{P}(s, t \mid x) - P(s, t \mid x)\| \to 0\) 几乎必然成立，\(\sup_{t \in [0, \tau]} |\hat{\pi}_j(t \mid x) - \pi_j(t \mid x)| \to 0\) 几乎必然成立。 - 直觉：局部加权强度估计 \(\hat{A}(t \mid x)\) 一致逼近真实 \(A(t \mid x)\)，乘积积分作为连续映射保持一致性。 - 必要条件：H1-H3，带宽 \(h \to 0\) 且 \(nh \to \infty\)（连续协变量时）。 - 技术难点：非 Markov 下 \(P(s, t \mid x)\) 不是 \(A(t \mid x)\) 的简单函数，而是依赖历史的路径积分。一致性不能直接从 \(\hat{A} \to A\) 推导，需通过 Volterra 方程绕路。 - 定理2（渐近正态性）：\(\sqrt{n}(\hat{\pi}_j(t \mid x) - \pi_j(t \mid x))\) 弱收敛到零均值高斯过程。 - 直觉：局部加权强度估计的渐近正态性通过乘积积分的线性化（influence function 展开）传递到占据概率。 - 必要条件：H1-H3，带宽 \(h\) 的最优选择（连续协变量时需 \(nh^2 \to 0\) 以消除偏差项）。 - 技术难点：矩阵乘积积分的渐近展开涉及非交换矩阵的泛函导数，且非 Markov 依赖导致 influence function 包含历史路径的积分。

证明路线与技术技巧： - 整体路线： 1. 局部强度估计的一致性：证明 \(\hat{A}(t \mid x) \to A(t \mid x)\)（利用局部权重的核回归性质与计数过程的矩条件）。 2. Volterra 型积分方程的建立：非 Markov 下，转移概率 \(P(s, t \mid x)\) 满足 Volterra 积分方程 \(P(s, t \mid x) = I + \int_s^t P(s, u \mid x) A(u \mid x) du\)（前向方程）。 3. Banach 不动点定理的应用：将 Volterra 方程视为算子方程，证明其解在合适空间中是唯一不动点。估计量 \(\hat{P}(s, t \mid x)\) 满足同样的 Volterra 方程（用 \(\hat{A}\) 替代 \(A\)），通过不动点定理的稳定性论证 \(\hat{A} \to A\) 蕴含 \(\hat{P} \to P\)。 4. 渐近正态性的泛函 Delta 方法：将 \(\hat{P}\) 视为 \(\hat{A}\) 的泛函（乘积积分），对 Volterra 方程做线性化展开，得到 \(\hat{P} - P\) 的渐近表达式（涉及 \(\hat{A} - A\) 的加权积分）。 5. 计数过程的渐近正态性传递：局部加权计数过程 \(\sqrt{n}(\hat{A} - A)\) 的渐近正态性（由鞅中心极限定理保证）通过线性化传递到 \(\sqrt{n}(\hat{P} - P)\) 与 \(\sqrt{n}(\hat{\pi} - \pi)\)。 - 关键跳跃点： - 非 Markov 依赖下的乘积积分一致性：经典 Markov 情形下 \(P(s, t) = \prod (I - dA)\) 是 \(A\) 的确定性函数，一致性直接由 \(\hat{A} \to A\) 得到。非 Markov 下此关系不成立，作者通过 Volterra 方程 + 不动点定理绕过此障碍。这是最吃功夫的引理。 - 渐近展开中的历史依赖项：线性化展开时，influence function 包含 \(\int P(s, u \mid x) d(\hat{A} - A)(u \mid x) P(u, t \mid x)\) 形式的项，矩阵不可交换导致展开比标量情形复杂得多。 - 技术技巧点名： - Banach fixed-point theorem：用在 Volterra 积分方程的解的存在性与稳定性论证，确保 \(\hat{A} \to A\) 时解 \(\hat{P} \to P\)。 - Volterra integral equation：非 Markov 转移概率的前向/后向方程，替代 Markov 情形的微分方程。 - Functional Delta method (乘积积分的线性化)：对矩阵乘积积分泛函做渐近展开，得到 influence function。 - Martingale central limit theorem：用于证明局部加权计数过程的渐近正态性（鞅增量 \(dM_{ij}(s) = dN_{ij}(s) - Y_i(s) A_{ij}(s) ds\) 的加权求和）。 - Doukhan & Lang (2009) 的矩比界：作者引用此技巧处理局部加权比式 \(\frac{\sum W dN}{\sum W Y}\) 的矩收敛，引用句：“The following assumptions on the local behavior around x are routine... confer with Doukhan and Lang (2009)”。

真实例子与应用：本文为纯理论 / 无实证例子。论文未包含真实数据分析或模拟实验，所有结果均为理论定理与证明。

🔎 结论是否比证明窄： - 论文在连续协变量下的渐近正态性定理（定理2）要求带宽 \(h\) 满足 \(nh^2 \to 0\) 以消除偏差。这是非参数估计的标准条件，但作者在 abstract 与 intro 中泛泛 claim “asymptotic normality are established under lax moment conditions”，未显式强调带宽条件的限制性。研究者需注意：渐近正态性的“宽松”仅针对矩条件，带宽条件仍是紧约束。 - 论文声称估计量“supports conditioning on internal covariate information (landmark)”，但理论证明中 landmark 权重的处理依赖“局部常数假设”（H1），对连续 landmark 变量的平滑性要求未在 abstract 中显式说明。

四、开放问题（点到为止）¶

条件状态占据概率的半参数效率界是什么？ 本文给出了非参数条件估计的渐近正态性，但未推导 efficient influence function 与效率界。扎根点：Munch et al. (2023) 在 illness-death 模型下推导了效率界，本文在一般多状态模型下给出了渐近线性估计量，其方差是否达到效率界？需查本文定理2的渐近方差表达式是否匹配 Munch (2023) 的效率界特例。
连续协变量下的维度灾难如何突破？ 本文局部常数假设（H1）在连续协变量下导致维度灾难（带宽条件随协变量维数指数收紧）。扎根点：intro 中未讨论半参数/降维方法（如 single-index 或 sieve）如何与条件 Aalen-Johansen 结合，这是 Siriwardhana et al. (2018) 尝试过但未在一般多状态模型下解决的问题。
依赖 censoring（非独立 censoring）下的识别与估计如何处理？ 本文假设独立右 censoring（H3），但实际数据常存在依赖 censoring。扎根点：Munch et al. (2023) 讨论了 coarsening at random 的识别，本文 intro 完全回避了此问题，未提及依赖 censoring 的处理路线。
非 Markov 依赖的显式刻画与检验：本文的理论允许非 Markov，但估计量 \(\hat{P}(s, t \mid x)\) 仍通过 \(A(t \mid x)\) 的乘积积分构造，未显式利用历史路径信息。扎根点：Overgaard (2019) 与 Bathke & Christiansen (2024) 引入区间函数与前向/后向率来刻画非 Markov 依赖，本文的乘积积分是否隐含了某种 Markov 近似？需查证明中 Volterra 方程的解是否等价于前向转移率的积分。

Maintained by 陈星宇 · Homepage · Source on GitHub

Conditional Aalen–Johansen estimation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论