Variable Selection in Multistate Models for Correlated Data With Application in a COVID ‐19 Vaccination Study¶

作者: Jason Mao, Yang Li, Wanzhu Tu
来源: Statistics in Medicine
主题: 流行病学
相关性: 3/10
机构绿灯: Purdue University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70623

一、领域脉络与小综述¶

这个方向是什么：多状态模型是刻画个体在多个临床状态间转移时间与概率的统计框架，其根本科学问题在于：当个体在同一研究期内经历多条不同路径的转移时，如何对大量可能存在的转移路径与协变量进行稀疏化建模与有效推断，同时正确处理同一个体不同转移时间之间的组内相关性。当前该方向在应用端已高度成熟（广泛用于流行病学、临床随访），但在高维参数下的变量选择理论、半参数效率界、以及相关性结构下的推断保证方面，仍处于相对初级的阶段。

发展脉络： - 奠基工作：多状态转移建模的基础是连续时间 Markov 链与计数过程框架。Andersen & Keiding 等人将计数过程与 Martingale 理论引入转移强度的估计，奠定了 Cox-type 多状态模型的似然与推断基础。 - 主要进展（相关性）：传统 MSM 假设同一个体的不同转移时间独立。后续工作意识到该假设在临床数据中常被违背。引用中涉及的处理方式通常包括：引入共享随机效应或脆弱项来刻画组内相关性，或在似然中直接对转移时间联合分布建模。 - 主要进展（变量选择）：随着 MSM 参数量随状态数与协变量数急剧膨胀，变量选择被引入。主流路线是 L1 (Lasso) 及其变体，但 L1 惩罚项在 \(|x|=0\) 处不可导，导致目标函数非光滑，在多状态模型复杂的似然曲面下极易引发数值优化不稳定。 - 当前 frontier 与本文位置：作者将缺口 frame 为"相关性下的 MSM 变量选择缺乏数值稳定且理论可用的方法"，并提出用光滑函数近似非光滑惩罚项以规避数值困难。本文处于应用统计方法改进的位置，未触及半参数效率或高维推断的统计理论 frontier。

子线索聚类： 1. 相关性建模线索：聚焦于如何打破个体内转移时间独立的假设。常见手段为共享 frailty 或联合似然构造。本论文走联合似然路线，通过对转移参数的重新参数化来显式引入相关性。 2. 惩罚变量选择线索：聚焦于 MSM 的稀疏化。经典路线为 L1 惩罚；改进路线包括 SCAD、MCP 等具有 Oracle 性质的非凸惩罚，以及本文提出的双曲正切近似。 3. 流行病学应用线索：聚焦于具体疾病队列中的状态转移刻画（如 COVID-19、肿瘤进展等），关注数据结构如何映射到 MSM 的状态图与转移矩阵。

这个方向在追问的核心问题： 1. 如何在同一个体存在多条相关转移路径时，既保证参数估计的相合性与效率，又避免共享 frailty 估计常面临的计算瓶颈？ 2. 在转移路径数与协变量数导致参数维数膨胀时，如何实现变量选择，且保证优化算法的数值稳定性与收敛？ 3. 变量选择后的 MSM，其推断（置信区间、假设检验）如何不受选择步骤的扭曲（Post-selection inference 问题）？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为 MSM 同时面临"参数过多导致解释与计算困难"与"组内相关性导致估计低效与推断可疑"的双重挑战，并声称现有 L1 惩罚在 MSM 复杂似然下数值不稳定，因此光滑近似是"显然的下一步"。 - 被淡化或回避的竞争路线：作者未讨论非凸惩罚（SCAD/MCP）在 MSM 中的适用性，也未提及基于计数过程 Martingale 的部分似然路线是否可避开全似然重参数化的计算负担。更重要的是，Post-selection inference 这一在惩罚变量选择领域已被广泛讨论的理论问题，在文中完全缺席。 - 明显该被引却未出现的：高维推断与半参数效率领域的标准文献（如 debiased Lasso、部分似然效率界等）未出现在 intro 中。这提示研究者：若要在此方向做理论推进，需自行补查高维 MSM 推断的现有文献。

张力：未见明显对立引用。不同线索（frailty vs. 联合似然、L1 vs. 光滑近似）更多是技术路线的平行选择，而非在同一设定下得出相反统计结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(S\)：离散状态空间，本文特例中取 \(S = \{1, 2, 3, 4\}\)（1=健康，2=感染，3=急诊/住院，4=死亡）。
\(r, s\)：状态标号，\(r, s \in S\)，\(r \neq s\)。
\(T_{rs}\)：潜在转移时间，表示从状态 \(r\) 转移到状态 \(s\) 所需的时间。对同一个体，\(\{T_{rs}\}\) 构成一个随机向量。
\(Z\)：基线协变量向量，维度为 \(p\)。
\(X_{rs}\)：对应于 \(r \to s\) 转移的协变量子集（可为 \(Z\) 的子集或变换），是模型要选择与估计的对象。
\(\beta_{rs}\)：对应于 \(r \to s\) 转移的回归系数向量，维度为 \(p_{rs}\)。所有转移的系数拼接成全局参数向量 \(\beta\)。
\(\theta\)：刻画同一个体不同转移时间之间相关性的参数（如联合分布中的相关系数或重参数化后的参数）。
\(\lambda_{rs}(t|X_{rs})\)：从 \(r\) 到 \(s\) 的转移强度（hazard），模型假设其服从参数形式，如 \(\lambda_{rs}(t|X_{rs}) = \lambda_{rs,0}(t) \exp(X_{rs}^\top \beta_{rs})\) 或直接假设指数分布使得转移时间有参数分布。
可观测数据：对 \(n\) 个独立个体，观测到每个个体的状态转移轨迹 \((r_0, r_1, \dots, r_K)\)、各次转移的观测时间 \((t_1, \dots, t_K)\)、以及基线协变量 \(Z\)。由于多状态结构，同一个体可提供多条转移时间的观测或右截断信息。
不可观测 / 需靠假设识别：潜在转移时间 \(T_{rs}\) 中未被经历的路径是右截断的；同一个体不同 \(T_{rs}\) 之间的联合依赖结构无法仅从边际转移时间识别，必须通过参数化假设（如给定脆弱项下的独立性、或特定联合参数分布）来识别 \(\theta\)。

第二步：最小内核——两状态转移与光滑惩罚

剥掉多状态与多路径的复杂性，取最简特例：个体只有一条转移路径（状态 1 \(\to\) 状态 2），转移时间 \(T\) 服从指数分布 \(\text{Exp}(\lambda)\)，且 \(\lambda = \exp(X^\top \beta)\)。此时无相关性问题（\(\theta\) 消失），MSM 退化为单一的生存分析参数模型。

要估的参数：\(\beta\)（维度 \(p\)）。
似然函数：基于观测的转移时间与截断时间，对数似然为 \(\ell(\beta) = \sum_{i=1}^n \left[ \delta_i X_i^\top \beta - \exp(X_i^\top \beta) Y_i \right]\)，其中 \(\delta_i\) 为转移指示，\(Y_i\) 为观测时间。
变量选择问题：当 \(p\) 大时，需将部分 \(\beta_j\) 压缩为 0。传统 Lasso 加 L1 惩罚：\(\ell(\beta) - \gamma \sum_{j=1}^p |\beta_j|\)。
核心数学困难：\(|\beta_j|\) 在 \(\beta_j=0\) 处不可导，导致目标函数在零点附近产生"尖角"。在多参数、似然曲面本身非凸的 MSM 中，梯度下降类算法在尖角处震荡，无法稳定收敛到精确零点。
本文的破法（最小内核）：用双曲正切函数 \(\tanh(\cdot)\) 的缩放版近似绝对值函数。令 \(P_\gamma(\beta_j) = \gamma \tanh(\beta_j / \gamma)\)。当 \(\gamma \to 0\) 时，\(\tanh(\beta_j / \gamma) \to \text{sign}(\beta_j)\)，即退化为 L1；但对任意有限 \(\gamma > 0\)，\(\tanh\) 处处无穷可导，且在 \(\beta_j=0\) 处导数为 \(1/\gamma\)（有限值），彻底消除了非光滑性。最终目标函数为 \(\ell(\beta) - \sum_{j=1}^p \gamma \tanh(\beta_j / \gamma)\)，是一个光滑的优化问题，可直接使用标准牛顿法或拟牛顿法求解，且随着迭代进行，\(\gamma\) 逐步减小，逼近 L1 的稀疏效果，同时数值路径平稳。

三、这篇论文做了什么¶

三句话： ① 研究了具有组内相关转移时间的多状态模型中的变量选择与参数估计问题。 ② 核心工具是对联合似然进行重参数化以引入相关性参数，并用光滑的双曲正切函数近似 L1 惩罚项以实现稀疏化。 ③ 主要结论是该方法在模拟中能准确选择变量并恢复参数，且在 COVID-19 疫苗接种队列的四状态转移数据中给出了可解释的稀疏模型。

关键设定与假设： - 联合似然与重参数化：不再假设同一体的 \(T_{rs}\) 独立，而是构建包含所有可能转移时间的联合分布。通过重参数化，将边际转移参数（\(\beta_{rs}\) 与基底强度参数）与刻画相关性的参数 \(\theta\) 分离，使得似然可拆解为可逐项计算的形式。 - 参数化转移强度：假设各转移时间服从特定的参数分布（如指数、Weibull 等），使得联合似然有显式表达式，避开了半参数 Cox 模型中基底强度无穷维估计的困难。 - 光滑惩罚假设：惩罚项 \(P_\gamma(\beta_j) = \gamma \tanh(\beta_j / \gamma)\) 依赖于调谐参数 \(\gamma\)。假设 \(\gamma\) 在优化过程中从较大值逐步衰减至较小值（类似 warm-start 或 pathwise 算法），以保证收敛与稀疏性。 - 与已有文献对比：相比独立 MSM+Lasso，本文放宽了转移时间独立假设并解决了 L1 非光滑性；但相比半参数 MSM 效率理论，本文的参数化分布假设是更强的限制。

主要结果： - 理论结果：本文为纯方法与应用型论文，未提供任何相合性、收敛速率或 Oracle 性质的定理。优化算法的收敛仅以数值实验展示，缺乏 M-estimation 理论下的相合性与渐近正态性保证。 - 模拟结果：模拟设定了不同样本量 \(n\) 与协变量维度 \(p\) 的组合，评估了真阳性率（选入正确变量）与真阴性率（排除冗余变量），以及参数估计的偏差与均方误差。结果显示，在相关性存在时，本文的联合似然+光滑惩罚方法在变量选择准确性上优于忽略相关性的独立模型，在数值收敛稳定性上优于 L1 惩罚。 - 无效率界或 minimax 结果：未涉及半参数效率界或高维推断的任何量化结论。

证明路线与技术技巧：本文无严格数学证明，其"技术技巧"主要体现在算法设计与数值优化层面： - 似然重参数化技巧：将联合分布的参数拆分为边际参数与相关参数，使得在给定相关参数下，边际似然可分解，降低了同时估计所有参数的计算维数。 - 光滑近似技巧：用 \(\tanh\) 近似 \(|\cdot|\)，本质上是构造了一个光滑的代理惩罚。其数学性质是：\(\tanh(x/\gamma)\) 的导数在 \(x=0\) 处为 \(1/\gamma\)，随 \(\gamma \to 0\) 趋向无穷，模拟了 L1 在零点的"陡峭"，但始终保持连续可导，避免了次梯度(subgradient)的引入。 - Pathwise optimization：沿 \(\gamma\) 的递减序列依次求解光滑优化问题，利用前一个 \(\gamma\) 的解作为下一个的初始值，这是 Lasso 路径算法在光滑惩罚下的对应物。

真实例子与应用： - 数据：COVID-19 疫苗接种者的观察性队列数据。 - 状态空间：四状态 \(\{1=\text{健康}, 2=\text{感染}, 3=\text{急诊/住院}, 4=\text{死亡}\}\)。状态转移图允许 \(1\to 2, 1\to 3, 1\to 4, 2\to 3, 2\to 4, 3\to 4\) 等路径。 - 如何应用：将年龄、性别、疫苗类型、接种次数等基线协变量映射到各转移路径的 \(X_{rs}\)，用本文方法估计 \(\beta_{rs}\) 与相关性参数 \(\theta\)，并通过 \(\gamma\) 调谐实现部分 \(\beta_{rs, j}\) 精确为零。 - 结果：筛选出对特定转移路径有显著影响的协变量（如年龄对 \(1\to 3\) 转移的影响），同时给出了同一体不同转移时间之间相关性的估计值。 - 想说明什么：展示该方法在真实复杂多状态数据中能完成从估计到变量选择的完整 pipeline，并给出比独立模型更符合数据相关性结构的解释。

🔎 结论是否比证明窄：本文的结论（变量选择准确、参数估计有效）完全基于模拟与单次真实数据分析，没有任何渐近理论支撑。文中声称"避免了 L1 的数值不稳定"与" accommodating correlations may lead to efficient estimation"，这些 claim 在本文设定下缺乏定理级别的证明，仅是数值观察与直觉陈述。研究者若要引用其"效率"结论，必须自行补上 M-estimation 或半参数效率的理论验证。

四、开放问题（点到为止）¶

光滑惩罚估计的渐近分布与 Post-selection inference：本文未给出 \(\hat{\beta}\) 的渐近正态性或置信区间。要证什么：在 \(\gamma \to 0\) 的渐近序列下，\(\hat{\beta}\) 的非零分量是否具有 Oracle 性质，其分布是否可被 Debiasing 修正？扎根点：文中模拟仅评估了偏差与 MSE，完全未触及标准误与覆盖概率。
半参数设定下的效率界与相关性刻画：本文假设转移时间服从参数分布以获得显式联合似然。若放宽为非参数基底强度（Cox-type MSM），联合似然无显式表达式，此时相关性参数 \(\theta\) 的可识别性与半参数效率界是什么？扎根点：Intro 声称"inefficient estimation"源于忽略相关性，但未引用任何效率界文献来量化这一损失。
高维设定下的计算与统计 Tradeoff：当协变量维度 \(p\) 远超样本量 \(n\) 时，多状态模型参数总量（\(\sum p_{rs}\)）急剧膨胀，光滑惩罚的牛顿法在 \(p \gg n\) 下是否仍可行？是否存在统计-计算 Gap？扎根点：文中模拟的 \(p\) 相对较小，未讨论高维优化瓶颈。

提醒：要确认上述第 2 条（半参数 MSM 效率界）是否为真 gap，建议检索近期 5 篇多状态模型半参数推断的 intro——若均指向"联合建模下的效率界缺失"，则为共识真 gap；若已有文献解决，则本文只是未跟进。

Maintained by 陈星宇 · Homepage · Source on GitHub

Variable Selection in Multistate Models for Correlated Data With Application in a COVID ‐19 Vaccination Study¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论