Conditional Aalen–Johansen estimation¶
作者: Martin Bladt, Christian Furrer
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向研究的是在多状态模型下,如何非参数地估计条件状态占据概率。其根本统计问题是:给定个体的外部(baseline)或内部(landmark/历史)协变量信息,该个体在时刻 \(t\) 处于各个状态的概率是什么?当前该方向的成熟度处于“非参数无条件估计已基本定型(Aalen-Johansen),半参数条件估计在特定模型(如illness-death)有突破,但通用非参数条件估计的理论(尤其是渐近分布)尚在建立中”的阶段。
发展脉络: - 奠基工作:Aalen & Johansen (1978) 提出了非参数的 Aalen-Johansen 估计量,用于估计无条件状态占据概率。其核心是在非 Markov 设定下,通过矩阵乘积积分重构转移概率。这留下了“如何引入协变量进行条件估计”的口子。 - 主要进展(无条件非 Markov 理论的夯实):Overgaard (2019) 通过区间函数的加性与乘性变换,为非 Markov 下的 Aalen-Johansen 估计量的一致性提供了新证明路线;Bathke & Christiansen (2024) 引入前向/后向转移率,试图在非 Markov 框架下处理条件矩计算。作者引用后者时指出:“This follows from a suitable application of the Banach fixed-point theorem”,暗示其乘积积分的收敛性论证借鉴了不动点定理的思想。 - 主要进展(条件估计的早期尝试):Siriwardhana et al. (2018) 与 Mostajabi & Datta (2023) 使用了逆概率 censoring 加权(IPCW)来估计条件占据概率。作者对此的判断是:“inverse probability of censoring weighting has been used in simpler setup than ours, for instance considering only progressive jump processes”——明确指出了 IPCW 路线受限于“渐进跳过程”(不可逆转移),无法处理一般的多状态往返转移。 - 当前 frontier(半参数效率理论介入):Munch et al. (2023) 针对不可逆 illness-death 模型,利用半参数效率理论推导了状态占据概率的一步估计/靶向估计。作者虽未在 intro 中直接点名 Munch (2023),但该工作代表了当前条件估计的 frontier:用 influence function 构造渐近线性估计量。其留下的口子是:理论仅限于 3 状态不可逆模型,且依赖 censoring at random 的识别假设。 - 本文的位置:本文填补了“通用非参数条件估计”的空白。不依赖 IPCW(从而允许往返转移),不依赖 Markov 性,不限于特定状态空间图结构,直接在乘积积分框架下引入局部协变量权重,构造了条件 Aalen-Johansen 估计量,并给出了强一致性与渐近正态性。
子线索聚类: 1. 乘积积分与非 Markov 路线:Aalen-Johansen (1978) → Overgaard (2019) → Bathke & Christiansen (2024) → 本文。这一簇坚持用矩阵乘积积分刻画转移概率,通过加性/乘性变换或不动点定理处理非 Markov 依赖。 2. IPCW 与条件估计路线:Siriwardhana (2018) → Mostajabi & Datta (2023)。这一簇用 censoring 逆概率加权重构条件分布,但受限于渐进过程(无往返转移)。 3. 半参数效率与靶向估计路线:Munch et al. (2023)。这一簇在特定低维模型(illness-death)下推导 efficient influence function,构造一步估计量,允许 data-adaptive 估计 nuisance,但尚未推广到一般多状态模型。
这个方向在追问的核心问题: 1. 非 Markov 依赖如何刻画与估计? 多状态过程的未来转移依赖过去历史,无条件估计掩盖了这种依赖,条件估计必须显式处理它。 2. 条件状态占据概率的渐近分布是什么? 要做置信区间或构造一步估计量,必须知道估计量的渐近正态性及其方差结构。 3. 往返转移(非渐进过程)如何处理? 真实数据(如疾病复发)存在状态往返,IPCW 路线在此失效,需要乘积积分路线的推广。
⚠️ 作者的 framing: - 作者把缺口 frame 成:现有条件估计要么只处理渐进过程(IPCW 路线),要么只处理特定低维模型,缺乏一个像 Aalen-Johansen 那样“通用、非参数、支持往返转移与内部/外部协变量”的估计量。这让本文的“条件 Aalen-Johansen”成为显然的下一步。 - 被淡化的竞争路线:半参数效率路线(Munch et al. 2023)未被 intro 讨论。作者选择了纯非参数路线,回避了 nuisance 估计与 coarsening at random 的识别难题,代价是条件估计的维度灾难(本文理论要求协变量离散或局部常数假设)。 - 缺失的引用:intro 中未出现任何关于半参数效率界或efficient influence function在多状态模型下的工作(如 Munch 2023)。这值得研究者去查:是作者刻意回避了半参数路线的竞争,还是认为非参数与半参数解决的是不同层面的问题?
张力: 未见明显对立引用。各路线(乘积积分 vs IPCW vs 半参数)在不同设定下给出不同结论,但未在同一设定下直接冲突。IPCW 在渐进模型下成立,乘积积分在一般模型下成立,两者在渐进模型特例下应等价,但本文未显式论证这种等价退化的极限。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(p_{ij}(s, t \mid x)\):条件转移概率,给定协变量 \(x\),过程在时刻 \(s\) 处于状态 \(i\),在时刻 \(t\) 处于状态 \(j\) 的概率。
- \(P(s, t \mid x)\):条件转移概率矩阵,元素为 \(p_{ij}(s, t \mid x)\)。
- \(\pi_j(t \mid x)\):条件状态占据概率(核心 estimand),给定协变量 \(x\),过程在时刻 \(t\) 处于状态 \(j\) 的概率。\(\pi_j(t \mid x) = \sum_i P(0, t \mid x)_{ij} \mu_i(x)\),其中 \(\mu_i(x)\) 是给定 \(x\) 时初始状态 \(i\) 的概率。
- 随机变量 / 样本:
- \(X\):协变量(外部 baseline 或内部 landmark)。
- \(N_{ij}(t)\):从状态 \(i\) 到 \(j\) 的计数过程,记录个体在 \((0, t]\) 内发生 \(i \to j\) 转移的次数。
- \(Y_i(t)\):状态 \(i\) 的 at-risk 过程,\(Y_i(t) = 1\) 表示个体在时刻 \(t\) 处于状态 \(i\) 且未被 censoring。
- \(C\):右 censoring 时间,\(T\) 为真实过程时间,观测时间 \(U = \min(T, C)\),\(\Delta = I(T \le C)\)。
- 维数 / 指标:
- \(\mathcal{S} = \{1, \ldots, K\}\):有限状态空间,\(K\) 为状态数。
- \(n\):样本量。
- 潜在 / 不可观测量:
- 真实转移时间 \(T\)(若被 censoring 则不可观测)。
- 真实转移强度矩阵 \(A(t \mid x)\)(不可观测,需估计)。
模型: 数据生成机制为有限状态跳过程,给定协变量 \(X=x\),过程由条件转移强度矩阵 \(A(t \mid x)\) 驱动,\(A(t \mid x)_{ij} = \lim_{h \to 0} P(X \text{ 在 } t+h \text{ 处于 } j \mid X \text{ 在 } t \text{ 处于 } i, x) / h\)(\(i \ne j\)),\(A(t \mid x)_{ii} = -\sum_{j \ne i} A(t \mid x)_{ij}\)。过程不假设 Markov 性(强度可依赖历史)。观测受独立右 censoring 截断。目标是估计 \(\pi_j(t \mid x)\)。
可观测数据: 对每个个体 \(k\),观测到 \((X_k, U_k, \Delta_k, \{N_{ij}^{(k)}(t)\}_{i \ne j}, \{Y_i^{(k)}(t)\}_i)\)。即:协变量、观测时间、censoring 指标、各转移的计数过程轨迹、各状态的 at-risk 过程轨迹。不可观测的是被 censoring 截断后的转移路径。
第二步:最小内核——二状态生存模型(条件 Kaplan-Meier)
整篇论文的内核是矩阵乘积积分的局部协变量加权。最简特例是 \(K=2\)(生存模型,状态 1=存活,2=死亡),此时矩阵退化为标量,乘积积分退化为普通积分。
- 特例设定:状态空间 \(\{1, 2\}\),只有 \(1 \to 2\) 转移。条件生存概率 \(S(t \mid x) = 1 - \pi_2(t \mid x)\)。条件累积强度 \(A(t \mid x) = \int_0^t \alpha(s \mid x) ds\)。
- 无条件 Aalen-Johansen / Kaplan-Meier:估计 \(A(t)\) 用 \(\hat{A}(t) = \int_0^t \frac{\sum_k dN_{12}^{(k)}(s)}{\sum_k Y_1^{(k)}(s)}\),然后 \(\hat{S}(t) = \prod_{(0, t]} (1 - d\hat{A}(s))\)(乘积积分)。
- 条件版本(本文内核):引入局部协变量权重 \(W_k(s, x)\)(例如核权重 \(K_h(X_k - x)\) 或 landmark 指示子)。构造条件累积强度估计:
\[\hat{A}(t \mid x) = \int_0^t \frac{\sum_k W_k(s, x) dN_{12}^{(k)}(s)}{\sum_k W_k(s, x) Y_1^{(k)}(s)}\]然后通过乘积积分重构条件生存概率:\[\hat{S}(t \mid x) = \prod_{(0, t]} (1 - d\hat{A}(s \mid x))\]
- 为什么成立:在 \(K=2\) 时,乘积积分是标量指数 \(\exp(-\hat{A}(t \mid x))\) 的离散近似。局部权重 \(W_k(s, x)\) 使得只有协变量接近 \(x\) 的个体在时刻 \(s\) 贡献强度估计,从而 \(\hat{A}(t \mid x)\) 逼近真实 \(A(t \mid x)\),乘积积分保持一致性。
- 一般情形的“加壳”:当 \(K > 2\) 且有往返转移时,标量 \(1 - d\hat{A}\) 变为矩阵 \(I - d\hat{A}(s \mid x)\)(\(\hat{A}(s \mid x)\) 是 \(K \times K\) 条件累积强度矩阵估计),乘积积分变为矩阵乘积积分 \(\prod_{(0, t]} (I - d\hat{A}(s \mid x))\)。核心数学困难从“标量指数逼近”变为“非 Markov 下矩阵乘积积分的一致性与渐近正态性”,因为矩阵乘积积分不可交换,且非 Markov 导致 \(A(t \mid x)\) 依赖历史。
三、这篇论文做了什么¶
三句话: ① 研究了有限状态非 Markov 跳过程下,给定外部/内部协变量的条件状态占据概率的非参数估计问题。 ② 核心工具是局部协变量加权的条件累积强度矩阵估计 + 矩阵乘积积分(条件 Aalen-Johansen 估计量)。 ③ 主要结论是在宽松矩条件(允许转移数无界)下,建立了该估计量的强一致性与渐近正态性,且证明路线通过 Banach 不动点定理与 Volterra 型积分方程绕过了非 Markov 依赖的障碍。
关键设定与假设: - 条件 Aalen-Johansen 估计量构造: - 条件累积强度矩阵估计:\(\hat{A}(t \mid x) = \int_0^t \frac{\sum_k W_k(s, x) dN^{(k)}(s)}{\sum_k W_k(s, x) Y^{(k)}(s)}\),其中 \(dN^{(k)}(s)\) 是转移计数矩阵增量,\(W_k(s, x)\) 是局部权重(支持外部 baseline 协变量或内部 landmark 协变量)。 - 条件转移概率矩阵估计:\(\hat{P}(s, t \mid x) = \prod_{(s, t]} (I - d\hat{A}(u \mid x))\)(矩阵乘积积分)。 - 条件状态占据概率估计:\(\hat{\pi}_j(t \mid x) = \sum_i \hat{\mu}_i(x) \hat{P}(0, t \mid x)_{ij}\),\(\hat{\mu}_i(x)\) 是条件初始状态概率估计。 - 假设: - H1(局部常数假设):条件转移强度 \(A(t \mid x)\) 在 \(x\) 的邻域内足够平滑(对连续协变量需核权重带宽 \(h \to 0\);对离散协变量此假设自动满足)。 - H2(宽松矩条件):多变量计数过程的矩条件宽松,允许转移数无界(不假设有限最大转移数,这是对经典多状态文献的放宽)。 - H3(Censoring 与 Positivity):独立右 censoring,且 at-risk 过程的局部加权求和满足 positivity(\(\sum_k W_k(s, x) Y^{(k)}(s)\) 不为零)。 - 统计含义:H1 是非参数局部估计的标准假设;H2 允许疾病复发等往返转移过程;H3 是 censoring 下的识别条件。相比已有文献(如 Overgaard 2019 要求有限转移数),H2 是实质性放宽。
主要结果: - 定理1(强一致性):\(\sup_{t \in [0, \tau]} \|\hat{P}(s, t \mid x) - P(s, t \mid x)\| \to 0\) 几乎必然成立,\(\sup_{t \in [0, \tau]} |\hat{\pi}_j(t \mid x) - \pi_j(t \mid x)| \to 0\) 几乎必然成立。 - 直觉:局部加权强度估计 \(\hat{A}(t \mid x)\) 一致逼近真实 \(A(t \mid x)\),乘积积分作为连续映射保持一致性。 - 必要条件:H1-H3,带宽 \(h \to 0\) 且 \(nh \to \infty\)(连续协变量时)。 - 技术难点:非 Markov 下 \(P(s, t \mid x)\) 不是 \(A(t \mid x)\) 的简单函数,而是依赖历史的路径积分。一致性不能直接从 \(\hat{A} \to A\) 推导,需通过 Volterra 方程绕路。 - 定理2(渐近正态性):\(\sqrt{n}(\hat{\pi}_j(t \mid x) - \pi_j(t \mid x))\) 弱收敛到零均值高斯过程。 - 直觉:局部加权强度估计的渐近正态性通过乘积积分的线性化(influence function 展开)传递到占据概率。 - 必要条件:H1-H3,带宽 \(h\) 的最优选择(连续协变量时需 \(nh^2 \to 0\) 以消除偏差项)。 - 技术难点:矩阵乘积积分的渐近展开涉及非交换矩阵的泛函导数,且非 Markov 依赖导致 influence function 包含历史路径的积分。
证明路线与技术技巧: - 整体路线: 1. 局部强度估计的一致性:证明 \(\hat{A}(t \mid x) \to A(t \mid x)\)(利用局部权重的核回归性质与计数过程的矩条件)。 2. Volterra 型积分方程的建立:非 Markov 下,转移概率 \(P(s, t \mid x)\) 满足 Volterra 积分方程 \(P(s, t \mid x) = I + \int_s^t P(s, u \mid x) A(u \mid x) du\)(前向方程)。 3. Banach 不动点定理的应用:将 Volterra 方程视为算子方程,证明其解在合适空间中是唯一不动点。估计量 \(\hat{P}(s, t \mid x)\) 满足同样的 Volterra 方程(用 \(\hat{A}\) 替代 \(A\)),通过不动点定理的稳定性论证 \(\hat{A} \to A\) 蕴含 \(\hat{P} \to P\)。 4. 渐近正态性的泛函 Delta 方法:将 \(\hat{P}\) 视为 \(\hat{A}\) 的泛函(乘积积分),对 Volterra 方程做线性化展开,得到 \(\hat{P} - P\) 的渐近表达式(涉及 \(\hat{A} - A\) 的加权积分)。 5. 计数过程的渐近正态性传递:局部加权计数过程 \(\sqrt{n}(\hat{A} - A)\) 的渐近正态性(由鞅中心极限定理保证)通过线性化传递到 \(\sqrt{n}(\hat{P} - P)\) 与 \(\sqrt{n}(\hat{\pi} - \pi)\)。 - 关键跳跃点: - 非 Markov 依赖下的乘积积分一致性:经典 Markov 情形下 \(P(s, t) = \prod (I - dA)\) 是 \(A\) 的确定性函数,一致性直接由 \(\hat{A} \to A\) 得到。非 Markov 下此关系不成立,作者通过 Volterra 方程 + 不动点定理绕过此障碍。这是最吃功夫的引理。 - 渐近展开中的历史依赖项:线性化展开时,influence function 包含 \(\int P(s, u \mid x) d(\hat{A} - A)(u \mid x) P(u, t \mid x)\) 形式的项,矩阵不可交换导致展开比标量情形复杂得多。 - 技术技巧点名: - Banach fixed-point theorem:用在 Volterra 积分方程的解的存在性与稳定性论证,确保 \(\hat{A} \to A\) 时解 \(\hat{P} \to P\)。 - Volterra integral equation:非 Markov 转移概率的前向/后向方程,替代 Markov 情形的微分方程。 - Functional Delta method (乘积积分的线性化):对矩阵乘积积分泛函做渐近展开,得到 influence function。 - Martingale central limit theorem:用于证明局部加权计数过程的渐近正态性(鞅增量 \(dM_{ij}(s) = dN_{ij}(s) - Y_i(s) A_{ij}(s) ds\) 的加权求和)。 - Doukhan & Lang (2009) 的矩比界:作者引用此技巧处理局部加权比式 \(\frac{\sum W dN}{\sum W Y}\) 的矩收敛,引用句:“The following assumptions on the local behavior around x are routine... confer with Doukhan and Lang (2009)”。
真实例子与应用: 本文为纯理论 / 无实证例子。论文未包含真实数据分析或模拟实验,所有结果均为理论定理与证明。
🔎 结论是否比证明窄: - 论文在连续协变量下的渐近正态性定理(定理2)要求带宽 \(h\) 满足 \(nh^2 \to 0\) 以消除偏差。这是非参数估计的标准条件,但作者在 abstract 与 intro 中泛泛 claim “asymptotic normality are established under lax moment conditions”,未显式强调带宽条件的限制性。研究者需注意:渐近正态性的“宽松”仅针对矩条件,带宽条件仍是紧约束。 - 论文声称估计量“supports conditioning on internal covariate information (landmark)”,但理论证明中 landmark 权重的处理依赖“局部常数假设”(H1),对连续 landmark 变量的平滑性要求未在 abstract 中显式说明。
四、开放问题(点到为止)¶
- 条件状态占据概率的半参数效率界是什么? 本文给出了非参数条件估计的渐近正态性,但未推导 efficient influence function 与效率界。扎根点:Munch et al. (2023) 在 illness-death 模型下推导了效率界,本文在一般多状态模型下给出了渐近线性估计量,其方差是否达到效率界?需查本文定理2的渐近方差表达式是否匹配 Munch (2023) 的效率界特例。
- 连续协变量下的维度灾难如何突破? 本文局部常数假设(H1)在连续协变量下导致维度灾难(带宽条件随协变量维数指数收紧)。扎根点:intro 中未讨论半参数/降维方法(如 single-index 或 sieve)如何与条件 Aalen-Johansen 结合,这是 Siriwardhana et al. (2018) 尝试过但未在一般多状态模型下解决的问题。
- 依赖 censoring(非独立 censoring)下的识别与估计如何处理? 本文假设独立右 censoring(H3),但实际数据常存在依赖 censoring。扎根点:Munch et al. (2023) 讨论了 coarsening at random 的识别,本文 intro 完全回避了此问题,未提及依赖 censoring 的处理路线。
- 非 Markov 依赖的显式刻画与检验:本文的理论允许非 Markov,但估计量 \(\hat{P}(s, t \mid x)\) 仍通过 \(A(t \mid x)\) 的乘积积分构造,未显式利用历史路径信息。扎根点:Overgaard (2019) 与 Bathke & Christiansen (2024) 引入区间函数与前向/后向率来刻画非 Markov 依赖,本文的乘积积分是否隐含了某种 Markov 近似?需查证明中 Volterra 方程的解是否等价于前向转移率的积分。
Maintained by 陈星宇 · Homepage · Source on GitHub