Factor-augmented transformation models for interval-censored failure time data¶

作者: Hongxi Li, Shuwei Li, Liuquan Sun, Xinyuan Song
来源: Biometrics
主题: 其他
相关性: 4/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae078

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在生存分析中，当协变量维度高且高度相关（多重共线性）时，如何同时实现降维和失效时间建模，特别是当失效时间只能被观测到落在一个区间内（区间删失数据）时。当前成熟度属于“方法整合与推广”阶段——将已有的降维技术（因子分析）与已有的生存模型（半参数变换模型）结合，并适配到区间删失这一特定数据缺失模式上。其核心统计挑战在于：降维步骤（因子分析）与生存建模步骤的联合推断，以及区间删失带来的非标准似然函数和计算复杂性。

发展脉络（history）¶

从引言和参考文献中，可以梳理出以下发展脉络：

奠基工作：区间删失数据的半参数回归模型
- Finkelstein (1986)：首次将比例风险模型（Cox模型）推广到区间删失数据，提出了基于非参数最大似然（NPMLE）的估计方法。这是该领域的基石，确立了区间删失数据下Cox模型的基本分析框架。
- Sun (1996)：进一步研究了区间删失数据下的加性风险模型。这些工作奠定了区间删失数据下参数/半参数回归模型的理论和计算基础。
主要进展：变换模型的引入与推广
- Zeng, Lin & Lin (2006) 和 Zeng & Lin (2007)：将区间删失数据的分析从比例风险模型推广到更一般的半参数变换模型。变换模型族包含比例风险模型和比例优势模型作为特例，提供了更大的灵活性。他们证明了NPMLE的相合性和渐近正态性，并开发了EM算法。这是本文直接依赖的核心方法论基础。
- Zhang, Sun & Sun (2005) 和 Ma, Qiu & Sun (2015)：进一步研究了区间删失数据下变换模型的变量选择问题，例如使用LASSO惩罚。这标志着该领域开始关注高维协变量问题，但处理的是“稀疏”高维（即大部分协变量效应为零），而非“稠密”高维（即协变量间高度相关）。
当前Frontier：处理高维相关协变量
- Tibshirani (1996) 和 Fan & Li (2001)：提出了LASSO和SCAD等惩罚方法，用于高维稀疏模型的变量选择和估计。这些方法在区间删失数据中已有应用（如上述Ma et al. 2015），但它们假设协变量效应是稀疏的，即只有少数协变量对失效时间有影响。当协变量间存在强相关（多重共线性）且效应并非稀疏时，这些方法表现不佳。
- 本文的位置：本文明确指出了上述惩罚方法的局限性——当协变量高度相关时，它们无法有效处理多重共线性问题。本文提出的因子增强变换模型，通过引入因子分析模型，将多个相关的观测变量压缩为少数几个不相关的潜因子，从而在不依赖稀疏性假设的前提下解决降维和多重共线性问题。这是将因子分析这一经典降维技术，与区间删失数据下的变换模型进行系统性整合的尝试。

子线索聚类¶

这些被引文献大致落在以下两条子线索上：

线索一：区间删失数据下的生存模型与推断
- 核心工作：Finkelstein (1986), Sun (1996), Zeng, Lin & Lin (2006), Zeng & Lin (2007)。
- 目标：为区间删失数据建立可靠的回归模型（比例风险、加性风险、变换模型），并发展相应的NPMLE理论和计算算法（EM算法）。
- 当前状态：理论（相合性、渐近正态性）和计算（EM算法）已相对成熟，是本文的“地基”。
线索二：高维协变量的降维与变量选择
- 核心工作：Tibshirani (1996), Fan & Li (2001), Zhang, Sun & Sun (2005), Ma, Qiu & Sun (2015)。
- 目标：处理高维协变量，避免过拟合和多重共线性。
- 当前状态：主流方法是基于稀疏性假设的惩罚似然法。本文指出其不足，并引入因子分析作为替代方案。因子分析本身是经典方法（如Lawley & Maxwell, 1971），但将其与区间删失生存模型联合建模并给出理论性质，是本文的增量贡献。

这个方向在追问的核心问题¶

如何在高维、相关协变量下进行有效的降维？ 稀疏性假设是否总是合理？当协变量效应是“稠密”但“低秩”时（即由少数潜因子驱动），因子分析是否比惩罚方法更合适？
如何对降维后的潜因子进行统计推断？ 潜因子本身是估计得到的，其不确定性如何传递到后续的生存模型参数估计中？如何构造正确的置信区间？
区间删失数据下的联合模型估计是否可行？ 因子模型和生存模型的联合似然函数复杂，其NPMLE的渐近性质（特别是潜因子得分估计的相合性）是否成立？
计算上如何实现？ 联合模型的EM算法是否稳定、高效？能否处理大量观测变量和中等样本量？

⚠️ 作者的 framing¶

作者的缺口frame：作者将缺口定位为“现有处理高维协变量的方法（如LASSO）无法有效处理多重共线性问题，而因子分析可以”。因此，本文的“显然的下一步”就是将因子分析与区间删失变换模型整合成一个联合建模框架，并证明其NPMLE的渐近性质。作者淡化了其他降维方法（如主成分分析PCA、稀疏PCA、或基于核的方法）的可能性，也回避了与这些方法的直接比较。
被淡化或回避的竞争路线：
- 主成分分析（PCA）：PCA也是经典的降维方法，且计算更简单。作者在引言中仅用一句话提到“PCA只关注协方差结构，不关注与响应变量的关系”，这构成了一个合理的批评，但并未在模拟或实证中与PCA进行系统比较。
- 稀疏PCA或监督PCA：这些方法试图结合降维与预测，可能比无监督的因子分析更有效。作者未提及。
- 贝叶斯方法：贝叶斯因子分析模型在心理学、经济学中很常见，可以自然地处理不确定性传播。作者未讨论。
什么明显该被引/该存在、却没出现在intro里？
- 与PCA的直接比较：既然作者批评了PCA，那么在引言或方法部分应该更详细地讨论PCA的局限性，并解释为什么因子分析是更好的选择。目前只是简单带过。
- 关于潜变量模型在生存分析中的应用：更广泛的“潜变量生存模型”文献（如共享脆弱模型、联合模型）应该被提及，以定位本文的贡献。本文的因子模型本质上是一种特殊的潜变量模型，但作者没有将其与更一般的潜变量生存模型文献联系起来。
- 关于因子分析中因子数选择的问题：这是一个关键的实际问题，但引言中未提及。作者在方法部分假设因子数已知，这在实际应用中很少成立。

张力¶

未见明显对立引用。所有被引工作都在各自的设定下成立，没有出现“在相同条件下得出相反结论”的情况。本文的贡献是增量式的，而非颠覆性的。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( T \)：失效时间（failure time），是一个随机变量。这是想要但观测不到的潜在量，因为我们只能观测到它落在哪个区间。
- \( C \)：检查时间（examination time），是一个随机变量。
- \( U, V \)：两次连续检查的时间点，满足 \( U < V \)。我们观测到的是 \( (U, V, \Delta) \)，其中 \( \Delta \) 是一个指示变量：
  - \( \Delta = 1 \) 表示 \( T \le U \)（失效发生在第一次检查前）。
  - \( \Delta = 2 \) 表示 \( U < T \le V \)（失效发生在两次检查之间）。
  - \( \Delta = 3 \) 表示 \( T > V \)（失效发生在第二次检查后，即被右删失）。
- 可观测数据：对于每个个体 \( i \)，我们观测到 \( (U_i, V_i, \Delta_i) \)，以及一组高维观测变量 \( \mathbf{X}_i = (X_{i1}, \ldots, X_{ip})^\top \)，其中 \( p \) 很大（例如几十到几百），且这些变量之间高度相关。
- 潜因子：\( \mathbf{f}_i = (f_{i1}, \ldots, f_{iq})^\top \)，其中 \( q \ll p \)。这些是不可观测的潜在变量，是本文的核心工具。我们假设 \( \mathbf{X}_i \) 是由 \( \mathbf{f}_i \) 和一些独立噪声生成的。
- 参数：
  - \( \mathbf{\Lambda} \)：\( p \times q \) 的因子载荷矩阵（factor loading matrix）。
  - \( \mathbf{\Psi} \)：\( p \times p \) 的对角矩阵，对角线元素是 \( \mathbf{X}_i \) 中每个观测变量的特异性方差（uniqueness variance）。
  - \( \boldsymbol{\beta} \)：\( q \times 1 \) 的回归系数向量，表示潜因子 \( \mathbf{f}_i \) 对失效时间 \( T \) 的影响。
  - \( \boldsymbol{\gamma} \)：\( r \times 1 \) 的回归系数向量，表示其他可直接观测的协变量 \( \mathbf{Z}_i \) 对失效时间 \( T \) 的影响。
  - \( H(t) \)：一个未知的、单调递增的累积基线风险函数（cumulative baseline hazard function）。
- estimand：我们想要估计的是 \( \boldsymbol{\beta} \)、\( \boldsymbol{\gamma} \) 和 \( H(t) \)。\( \boldsymbol{\beta} \) 和 \( \boldsymbol{\gamma} \) 是有限维参数，\( H(t) \) 是无穷维参数。
模型：
1. 因子分析模型（测量模型）：
  \[\mathbf{X}_i = \boldsymbol{\mu} + \mathbf{\Lambda} \mathbf{f}_i + \boldsymbol{\epsilon}_i\]
  其中 \( \boldsymbol{\mu} \) 是均值向量，\( \boldsymbol{\epsilon}_i \) 是均值为0、协方差矩阵为 \( \mathbf{\Psi} \) 的独立噪声向量。通常假设 \( \mathbf{f}_i \sim N(0, \mathbf{I}_q) \)，\( \boldsymbol{\epsilon}_i \sim N(0, \mathbf{\Psi}) \)，且 \( \mathbf{f}_i \) 与 \( \boldsymbol{\epsilon}_i \) 独立。
2. 半参数变换模型（生存模型）：
  \[g(T_i) = - \boldsymbol{\beta}^\top \mathbf{f}_i - \boldsymbol{\gamma}^\top \mathbf{Z}_i + \varepsilon_i\]
  其中 \( g(\cdot) \) 是一个已知的、严格递增的变换函数（例如，\( g(t) = \log(t) \) 对应比例风险模型，\( g(t) = \log(e^t - 1) \) 对应比例优势模型），\( \varepsilon_i \) 是一个服从已知极值分布（如Gumbel分布）的随机误差项。这个模型等价于：
  \[\lambda(t | \mathbf{f}_i, \mathbf{Z}_i) = \lambda_0(t) \exp(\boldsymbol{\beta}^\top \mathbf{f}_i + \boldsymbol{\gamma}^\top \mathbf{Z}_i)\]
  对于比例风险模型，其中 \( \lambda_0(t) \) 是基线风险函数，\( H(t) = \int_0^t \lambda_0(s) ds \)。
可观测数据：
- 研究者实际能观测到的是：\( (U_i, V_i, \Delta_i, \mathbf{X}_i, \mathbf{Z}_i) \)。
- 想要但观测不到的是：\( T_i \)（失效时间）和 \( \mathbf{f}_i \)（潜因子）。\( T_i \) 的缺失由区间删失机制描述。\( \mathbf{f}_i \) 的缺失是因子分析的核心，我们只能通过 \( \mathbf{X}_i \) 来推断它。

第二步：讲最小内核¶

本文的核心思路可以简化为一个两步走的联合建模问题，其最小内核是：如何在一个EM算法中，同时处理“潜因子缺失”和“失效时间区间删失”这两个缺失数据问题？

最简特例：假设我们只有 \( p=2 \) 个观测变量 \( X_1, X_2 \)，它们由一个潜因子 \( f \) 生成（\( q=1 \)），且没有其他协变量 \( \mathbf{Z} \)。失效时间 \( T \) 服从一个简单的比例风险模型，且只被检查一次（即 \( U=0 \)，\( V \) 是唯一的检查时间，\( \Delta \) 指示 \( T \le V \) 或 \( T > V \)）。这被称为“Case I”区间删失。

模型退化为：
1. \( X_1 = \mu_1 + \lambda_1 f + \epsilon_1 \)，\( X_2 = \mu_2 + \lambda_2 f + \epsilon_2 \)，其中 \( f \sim N(0,1) \)，\( \epsilon_1, \epsilon_2 \sim N(0, \psi_1), N(0, \psi_2) \)。
2. \( \lambda(t | f) = \lambda_0(t) e^{\beta f} \)。观测数据是 \( (V_i, \Delta_i, X_{1i}, X_{2i}) \)，其中 \( \Delta_i = I(T_i \le V_i) \)。
核心思路：我们想最大化观测数据的似然函数 \( L(\boldsymbol{\theta} | \text{data}) \)，其中 \( \boldsymbol{\theta} = (\lambda_1, \lambda_2, \psi_1, \psi_2, \beta, H(\cdot)) \)。这个似然函数需要对缺失的 \( f_i \) 和 \( T_i \) 进行积分，形式复杂。EM算法通过迭代以下两步来简化问题：
1. E步：在给定当前参数估计 \( \boldsymbol{\theta}^{(k)} \) 和观测数据下，计算完整数据对数似然的条件期望。完整数据包括 \( (V_i, \Delta_i, X_{1i}, X_{2i}, f_i, T_i) \)。这个期望需要对 \( f_i \) 和 \( T_i \) 的联合后验分布进行积分。
  - 关键跳跃：由于 \( f_i \) 和 \( T_i \) 在给定 \( f_i \) 下是条件独立的（因子模型决定 \( X_i \)，生存模型决定 \( T_i \)），这个联合后验可以分解。E步的核心是计算关于 \( f_i \) 的后验期望，以及关于 \( T_i \) 在给定 \( f_i \) 和区间删失信息下的条件期望。这通常需要数值积分（如高斯-埃尔米特求积）来近似。
2. M步：最大化这个条件期望，得到新的参数估计 \( \boldsymbol{\theta}^{(k+1)} \)。由于完整数据对数似然通常可以分解为因子模型部分和生存模型部分，M步可以分别进行：
  - 因子模型部分：更新 \( \lambda_1, \lambda_2, \psi_1, \psi_2 \)。这类似于对“填充”后的 \( f_i \) 进行线性回归。
  - 生存模型部分：更新 \( \beta \) 和 \( H(\cdot) \)。这类似于对“填充”后的失效时间数据（但仍然是区间删失的）进行标准的区间删失Cox模型估计。
为什么成立：这个EM算法之所以可行，是因为完整数据对数似然的结构是可分解的。因子模型和生存模型通过潜因子 \( f \) 耦合，但在给定 \( f \) 后，它们是独立的。EM算法通过E步巧妙地处理了这种耦合，将复杂的联合估计问题分解为两个相对简单的子问题。本文的一般情形只是这个特例的“加壳”：更多的观测变量 \( p \)、更多的潜因子 \( q \)、更一般的变换函数 \( g(\cdot) \)、以及更复杂的区间删失模式（Case II，即有两个检查时间 \( U, V \)）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文研究了当协变量维度高且高度相关时，如何对区间删失失效时间数据进行有效的回归建模，以避免多重共线性问题。
核心工具/方法：提出了一个因子增强变换模型，该模型联合了因子分析模型（用于降维）和半参数变换模型（用于生存分析），并采用非参数最大似然估计（NPMLE） 和EM算法进行参数估计。
主要结论：证明了所提出的NPMLE估计量（包括回归系数和累积基线风险函数）具有相合性和渐近正态性。模拟研究和ADNI实际数据分析表明，该方法在有限样本下表现良好，优于忽略相关性的朴素方法。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

设定：
- 数据：\( n \) 个独立同分布的个体。对于个体 \( i \)，观测数据为 \( (U_i, V_i, \Delta_i, \mathbf{X}_i, \mathbf{Z}_i) \)，其中 \( U_i < V_i \) 是两次检查时间，\( \Delta_i \) 如前述定义。\( \mathbf{X}_i \) 是 \( p \) 维相关观测变量，\( \mathbf{Z}_i \) 是 \( r \) 维可直接观测的协变量（假设与 \( \mathbf{X}_i \) 不相关或相关性可忽略）。
- 模型：
  1. 因子分析模型：\( \mathbf{X}_i = \boldsymbol{\mu} + \mathbf{\Lambda} \mathbf{f}_i + \boldsymbol{\epsilon}_i \)，其中 \( \mathbf{f}_i \sim N(0, \mathbf{I}_q) \)，\( \boldsymbol{\epsilon}_i \sim N(0, \mathbf{\Psi}) \)，\( \mathbf{\Psi} \) 是对角矩阵。\( \mathbf{f}_i \) 与 \( \boldsymbol{\epsilon}_i \) 独立。
  2. 半参数变换模型：\( g(T_i) = - \boldsymbol{\beta}^\top \mathbf{f}_i - \boldsymbol{\gamma}^\top \mathbf{Z}_i + \varepsilon_i \)，其中 \( g(\cdot) \) 是已知的、严格递增的变换函数，\( \varepsilon_i \) 的分布已知（如极值分布、逻辑分布），其生存函数为 \( S_\varepsilon(s) \)。这等价于：
    \[\lambda(t | \mathbf{f}_i, \mathbf{Z}_i) = \lambda_0(t) \exp(\boldsymbol{\beta}^\top \mathbf{f}_i + \boldsymbol{\gamma}^\top \mathbf{Z}_i)\]
    对于比例风险模型（\( g(t) = \log(t) \)）。
- 可观测数据：\( (U_i, V_i, \Delta_i, \mathbf{X}_i, \mathbf{Z}_i) \)。不可观测：\( T_i \) 和 \( \mathbf{f}_i \)。
关键假设：
1. 条件独立删失：给定协变量 \( (\mathbf{f}_i, \mathbf{Z}_i) \)，检查时间 \( (U_i, V_i) \) 与失效时间 \( T_i \) 独立。这是区间删失数据下进行有效推断的标准假设。
2. 因子模型可识别性：通常需要对因子载荷矩阵 \( \mathbf{\Lambda} \) 施加约束，例如 \( \mathbf{\Lambda}^\top \mathbf{\Psi}^{-1} \mathbf{\Lambda} \) 是对角矩阵，或 \( \mathbf{\Lambda} \) 的上三角部分为0等。本文采用了后者。
3. 变换函数 \( g(\cdot) \) 已知：这是半参数变换模型的标准设定，允许模型包含比例风险和比例优势模型作为特例。
4. 正则条件：为了保证NPMLE的渐近性质，需要一系列技术性正则条件，包括参数空间的有界性、Fisher信息矩阵的非奇异性、以及检查时间分布的支持等。这些条件在Zeng & Lin (2007) 等文献中已有详细讨论，本文直接沿用。

主要结果¶

本文是理论型论文，主要结果是两个定理：

定理1（相合性）：在正则条件下，NPMLE估计量 \( \hat{\boldsymbol{\theta}}_n = (\hat{\boldsymbol{\beta}}_n, \hat{\boldsymbol{\gamma}}_n, \hat{H}_n(\cdot)) \) 是相合的。具体地，\( \hat{\boldsymbol{\beta}}_n \) 和 \( \hat{\boldsymbol{\gamma}}_n \) 依概率收敛到真值 \( \boldsymbol{\beta}_0 \) 和 \( \boldsymbol{\gamma}_0 \)，且 \( \hat{H}_n(t) \) 在 \( [0, \tau] \) 上一致收敛到 \( H_0(t) \)，其中 \( \tau \) 是研究结束时间。
- 直觉：证明依赖于将NPMLE视为一个无穷维M估计量，并利用经验过程理论（empirical process theory）来证明其相合性。关键难点在于，潜因子 \( \mathbf{f}_i \) 是缺失的，因此似然函数需要对 \( \mathbf{f}_i \) 积分，这破坏了标准M估计量的结构。作者通过将积分后的似然函数视为一个关于 \( \boldsymbol{\theta} \) 的“剖面似然”（profile likelihood），并证明其满足标准相合性条件来绕过这个难点。
- 必要条件：因子数 \( q \) 已知且固定，\( p \) 可以随 \( n \) 增长，但增长速度受限于正则条件（例如 \( p = o(n^{1/2}) \) 或类似条件，具体需查原文）。
定理2（渐近正态性）：在更强的正则条件下，\( \sqrt{n}(\hat{\boldsymbol{\beta}}_n - \boldsymbol{\beta}_0, \hat{\boldsymbol{\gamma}}_n - \boldsymbol{\gamma}_0) \) 依分布收敛到一个均值为0的正态分布，其协方差矩阵是半参数效率界（semiparametric efficiency bound）的逆。
- 直觉：证明依赖于将NPMLE视为一个“近似”的Z估计量，并利用Zeng & Lin (2007) 中发展的关于区间删失数据下NPMLE渐近正态性的理论框架。关键难点在于，由于潜因子的存在，需要证明信息算子（information operator）是可逆的。作者通过将因子模型视为一个“测量误差”模型，并证明其信息算子与标准区间删失变换模型的信息算子具有类似的结构，从而借用已有的理论结果。
- 解决的技术难点：证明信息算子的可逆性。这通常需要证明一个“最小二乘”型方程的解的唯一性。作者通过构造一个辅助的“潜因子预测”问题，将信息算子的可逆性与该预测问题的可识别性联系起来。

证明路线与技术技巧¶

整体路线：
1. 定义NPMLE：将 \( H(t) \) 视为一个在观测到的检查时间点上有跳跃的阶梯函数，其跳跃幅度是待估参数。这样，无穷维参数 \( H \) 被离散化为有限维（但维数随 \( n \) 增长）参数。
2. 构造剖面似然：由于潜因子 \( \mathbf{f}_i \) 是缺失的，完整数据似然函数需要对 \( \mathbf{f}_i \) 积分。这个积分后的似然函数 \( L_n(\boldsymbol{\theta}) \) 是NPMLE的目标函数。
3. 证明相合性（定理1）：
  - 利用Kullback-Leibler信息不等式，证明 \( \hat{\boldsymbol{\theta}}_n \) 是某个“极限”目标函数的唯一最大值点。
  - 利用经验过程理论（特别是Glivenko-Cantelli定理的推广），证明 \( n^{-1} \log L_n(\boldsymbol{\theta}) \) 一致收敛到其期望。
  - 结合以上两点，证明 \( \hat{\boldsymbol{\theta}}_n \) 收敛到真值。
4. 证明渐近正态性（定理2）：
  - 将NPMLE的得分函数（score function）在真值处进行泰勒展开。
  - 证明信息算子 \( \tilde{\mathbf{I}} \) 是可逆的。这是证明的核心。
  - 利用Zeng & Lin (2007) 的框架，将问题转化为证明一个“最小二乘”型方程的解的唯一性。作者通过构造一个辅助的“潜因子预测”问题，并证明该预测问题的可识别性，从而证明了信息算子的可逆性。
  - 最后，利用经验过程理论中的Donsker定理，证明得分函数的弱收敛性，从而得到NPMLE的渐近正态性。
关键跳跃点：
- 信息算子的可逆性证明：这是整个渐近理论中最吃功夫的部分。标准区间删失变换模型的信息算子可逆性依赖于协变量的非退化性。本文中，协变量是潜因子 \( \mathbf{f}_i \)，而 \( \mathbf{f}_i \) 本身是缺失的，只能通过 \( \mathbf{X}_i \) 来估计。作者需要证明，即使 \( \mathbf{f}_i \) 是缺失的，信息算子仍然是可逆的。他们通过将问题转化为一个“带测量误差的生存模型”来绕过这个难点，并利用了因子模型的可识别性条件。
技术技巧点名：
- 经验过程理论（Empirical Process Theory）：用于证明似然函数的一致收敛性（Glivenko-Cantelli）和得分函数的弱收敛性（Donsker）。这是处理NPMLE渐近性质的标准工具。
- 剖面似然（Profile Likelihood）：用于处理无穷维参数 \( H(t) \)。通过将 \( H \) 视为一个“讨厌参数”，并构造关于有限维参数 \( (\boldsymbol{\beta}, \boldsymbol{\gamma}) \) 的剖面似然，可以简化渐近分析。
- 信息算子（Information Operator）：用于刻画NPMLE的渐近方差。证明其可逆性是渐近正态性的关键。
- EM算法：用于实际计算。E步需要对潜因子 \( \mathbf{f}_i \) 进行数值积分（高斯-埃尔米特求积），M步则分解为因子模型更新和生存模型更新。

真实例子与应用¶

使用的数据/场景：阿尔茨海默病神经影像学计划（ADNI）研究。目标是分析哪些因素与轻度认知障碍（MCI）向阿尔茨海默病（AD）的转化时间相关。失效事件是“从MCI转化为AD”。由于患者是定期随访（例如每6个月或12个月），转化时间只能被观测到落在两次随访之间，因此是区间删失数据。
如何把本文方法用上去：
- 协变量：使用了ADNI数据中的多个神经心理学测试得分（如ADAS-Cog, MMSE, CDR-SB等）作为高维相关观测变量 \( \mathbf{X} \)。这些测试得分之间通常高度相关。
- 潜因子：通过因子分析，从这些测试得分中提取了 \( q=2 \) 个潜因子，分别解释为“认知功能”和“日常功能”。
- 其他协变量：\( \mathbf{Z} \) 包括年龄、性别、教育水平、APOE ε4基因型等。
- 模型：使用了比例优势模型（proportional odds model）作为变换模型，因为作者认为该模型更适合描述疾病进展。
得到什么结果：
- 因子分析结果显示，两个潜因子能够解释大部分观测变量的变异。
- 生存模型结果显示，“认知功能”潜因子得分越低（认知功能越差），“日常功能”潜因子得分越低（日常功能越差），以及携带APOE ε4基因型，都与更快的MCI-to-AD转化风险显著相关。
- 与一个“朴素”模型（直接将所有观测变量 \( \mathbf{X} \) 作为协变量放入生存模型）相比，本文提出的因子增强模型在AIC/BIC等模型选择准则上表现更好，且估计的回归系数标准误更小（即更高效），这验证了其处理多重共线性的有效性。
这个例子想说明什么：
- 验证理论：展示了所提出的方法在真实数据上是可用的，并且结果在医学上是合理的。
- 展示相对baseline的优势：通过与忽略相关性的朴素模型对比，展示了因子增强模型在模型拟合和估计效率上的优势，从而实证地支持了其处理多重共线性的能力。

🔎 结论是否比证明窄¶

窄结论：定理1和定理2的证明依赖于因子数 \( q \) 已知且固定的假设。然而，在实际应用中，\( q \) 通常是未知的，需要通过数据驱动的方法（如碎石图、平行分析）来选择。作者在模拟和实证中使用了已知的 \( q \)，但并未在理论上证明当 \( q \) 被估计时，其渐近性质仍然成立。这是一个明显的窄结论。
泛泛claim：作者在引言和结论中声称该方法能“有效处理多重共线性”，但理论证明并未直接处理“多重共线性”的严重程度（如条件数）与估计量表现之间的关系。模拟研究虽然展示了在特定相关结构下的优势，但并未给出一个普适的理论保证。因此，这个claim的强度可能超过了理论证明所能覆盖的范围。

四、开放问题¶

因子数 \( q \) 的未知性：本文假设因子数 \( q \) 已知。一个直接的开放问题是：当 \( q \) 未知且需要从数据中估计时，NPMLE的渐近性质（相合性、渐近正态性）是否仍然成立？ 这扎根于本文定理1和定理2的假设条件（\( q \) 固定且已知）。这是一个重要的实际和理论问题，因为因子数选择是因子分析的核心难题。
高维 \( p \) 下的理论性质：本文的渐近理论假设 \( p \) 固定或增长缓慢。一个更挑战性的问题是：当观测变量数 \( p \) 远大于样本量 \( n \)（即 \( p \gg n \)）时，本文的方法和理论是否仍然有效？ 这扎根于本文的正则条件（通常隐含 \( p = o(n^{1/2}) \) 或类似条件）。在高维 \( p \) 下，因子载荷矩阵的估计本身就是一个高维问题，需要引入稀疏性或低秩结构等正则化手段。
与惩罚方法的理论比较：本文在引言中批评了LASSO等惩罚方法在处理多重共线性时的不足，但并未给出一个严格的理论比较。一个开放问题是：在什么条件下（如协方差结构、效应大小、稀疏性程度），因子增强模型比惩罚方法（如LASSO、弹性网）具有更优的统计性质（如更小的估计误差、更高的预测精度）？这扎根于本文引言中对竞争方法的批评。一个严谨的理论比较（例如，在某个非稀疏但低秩的模型下，推导出两种方法的minimax风险）将是一个有价值的贡献。
计算-统计权衡：本文的EM算法需要对潜因子进行数值积分，计算复杂度随 \( q \) 增长而指数增长（维度诅咒）。一个开放问题是：是否存在更高效的计算方法（如变分贝叶斯、随机梯度MCMC）来近似NPMLE，并分析其统计性质与计算成本之间的权衡？ 这扎根于本文的计算部分（EM算法）。对于研究者而言，这是一个潜在的连接点，因为其武器库中的“计算-统计权衡”和“高阶U统计量”知识可能用于分析此类近似算法的误差。

Maintained by 陈星宇 · Homepage · Source on GitHub