跳转至

Correcting Measurement Error and Zero Inflation in Functional Covariates for Scalar‐on‐Function Quantile Regression

作者: Caihong Qin, Lan Xue, Ufuk Beyaztas, Roger S. Zoh, Mark Benden et al.
来源: Statistics in Medicine
主题: 流行病学
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:当功能型协变量同时被测量误差与零膨胀污染时,如何对标量响应进行分位回归,并恢复潜在真实功能轨迹对响应的因果/关联效应。典型科学场景是流行病学中的可穿戴设备数据(如步数),其零值可能来自设备未佩戴(结构零)或真实久坐(真实零),且设备读数本身带有异质性测量误差。当前该方向处于方法初步成型但理论性质尚不明确的阶段:已有分别处理测量误差或零膨胀的回归方法,但缺乏在同一框架下联合校正两者的分位回归工具,且渐近性质、效率界与识别条件几乎未被探讨。

发展脉络: - 奠基工作(功能回归与分位回归的交汇):Cardot et al (2005) 与 Kato (2012) 将分位回归引入标量-函数回归,奠定了斜率函数的估计与收敛率基础。Wei & Carroll (2009) 首次在标量协变量分位回归中处理测量误差,通过联合多个分位水平的估计方程修正偏差并保证单调性,成为后续联合分位估计的思想源头。 - 主要进展(功能数据的测量误差校正):Crainiceanu et al (2009) 提出多水平功能线性模型(GMFLM),将功能暴露结构嵌入混合效应框架;Goldsmith et al (2012) 针对功能主成分分析中的测量误差与分解不确定性提出校正置信带;Tekwe et al (2019) 引入工具变量法处理标量-函数回归中的测量误差,在无分布假设下获得 \(L_2\) 相合性;Chen et al (2024) 进一步在功能分位回归中同时处理功能与标量协变量的测量误差,采用 SIMEX 与混合效应回归。 - 当前 frontier(零膨胀与异质性误差的联合挑战):可穿戴设备数据的零膨胀现象被流行病学大量记录(Cho et al 2021; Choi et al 2011),但现有测量误差校正方法(如 P-LMM)假设误差为白噪声或共享过程,无法处理个体特异、时变的零膨胀与结构零/真实零的混淆。作者明确指出:"Current statistical methods fail to address these issues simultaneously"(摘要),且传统非佩戴时间阈值法(20/30/60分钟等)因阈值选择随意性而影响久坐时间估计。 - 本文的位置:填补"零膨胀+测量误差+功能分位回归"的三重空白,引入个体特异时变有效性指示变量区分结构零与真实零,通过基展开+LMM迭代最大似然校正测量误差,再用联合分位回归评估校正后协变量的效应。

子线索聚类: 1. 功能分位回归的估计与理论:Cardot et al (2005) [ spline 估计与相合性 ] → Kato (2012) [ 主成分基估计与收敛率 ] → Ma et al (2019) [ 超高维部分线性功能分位回归的双惩罚变量选择 ]。这一簇在建立功能分位回归的估计框架与渐近理论。 2. 功能数据的测量误差校正:Crainiceanu et al (2009) [ 多水平混合模型 ] → Goldsmith et al (2012) [ FPC 分解不确定性校正 ] → Tekwe et al (2019) [ IV 方法识别与 \(L_2\) 相合 ] → Chen et al (2024) [ SIMEX + 混合效应回归处理功能与标量协变量误差 ]。这一簇在逐步放宽误差结构假设(从白噪声到异质性到复杂协方差),但均未触及零膨胀。 3. 可穿戴设备数据的零膨胀与数据质量:Choi et al (2011) 与 Aadland et al (2018) [ 非佩戴时间阈值算法的验证与比较 ] → Cho et al (2021) [ 数据质量挑战的系统综述,明确指出零膨胀来自非佩戴/久坐/连接问题 ]。这一簇在流行病学层面刻画零膨胀的来源与影响,但未提供统计建模框架。

这个方向在追问的核心问题: 1. 识别问题:在功能协变量存在零膨胀与测量误差时,潜在真实功能轨迹 \(X_i(t)\) 与标量响应 \(Y_i\) 的条件分位函数 \(\Pr(Y_i \le y | X_i)\) 如何被非参数/半参数识别?需要何种外部信息(如有效性指示变量的分布假设、工具变量)? 2. 估计问题:如何联合估计潜在轨迹、零膨胀概率与分位回归斜率函数,使得估计在有限样本下偏差可控、且跨分位水平的估计保持单调性与效率? 3. 理论性质问题:联合估计框架下,斜率函数估计的收敛率是什么?是否达到半参数效率界?测量误差与零膨胀的校正是否引入额外不确定性,如何量化? 4. 计算问题:迭代最大似然与联合分位回归的优化是否在多项式时间内可解?基展开维数 \(K\) 与分位水平数 \(Q\) 的选择如何影响计算复杂度?

当前主流方法(P-LMM, SIMEX, IV)的已知瓶颈:只能处理测量误差,无法区分结构零与真实零,且假设误差过程跨个体共享或为白噪声(作者引用 Crainiceanu et al 2009 与 Goldsmith et al 2012 时明确指出此点)。

⚠️ 作者的 framing: - 作者将缺口 frame 为"零膨胀与测量误差必须同时处理,否则结构零被当作真实值会引入不可校正的偏差",这使得引入有效性指示变量成为"显然的下一步"。 - 被淡化的竞争路线:工具变量方法(Tekwe et al 2019)在识别上更稳健(无需分布假设),但作者仅在引用中提及其处理测量误差的能力,未讨论为何不采用 IV 路线处理零膨胀(可能因 IV 需要额外工具变量,而零膨胀的识别更依赖分布假设)。阈值法(Choi et al 2011)被明确批评为阈值选择随意,但未讨论阈值法在特定场景下可能更稳健(无需参数化零膨胀概率)。 - 明显该被引却未出现的半参数测量误差模型的效率界文献(如 Ma & Li 2010 虽被引但仅用于变量选择,未触及效率界);零膨胀功能数据的非参数识别理论(如潜在变量模型的识别条件);因果推断中功能协变量的代理变量方法(Proximal causal inference 可处理未观测混淆与测量误差,但完全未出现)。

张力: 未见明显对立引用。各被引工作在不同假设下处理不同子问题,结论互补而非矛盾。但存在隐含张力:Wei & Carroll (2009) 的联合分位估计依赖参数化测量误差分布,而 Tekwe et al (2019) 的 IV 方法声称无需分布假设——本文同时采用联合分位估计与参数化零膨胀模型,在识别上可能继承了 Wei & Carroll 的分布依赖性,但未讨论此限制。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(i\):个体指标,\(i = 1, \ldots, N\)(样本量)。
  • \(t\):时间点,\(t \in [0, T]\)(功能域)。
  • \(Y_i\):标量响应(如 BMI 或能量消耗 EE)——可观测
  • \(X_i(t)\):个体 \(i\) 在时间 \(t\) 的潜在真实功能协变量(如真实步数曲线)——不可观测,要估的对象
  • \(W_i(t)\):个体 \(i\) 在时间 \(t\) 的观测功能协变量(如设备记录的步数)——可观测,但被测量误差与零膨胀污染。
  • \(V_i(t)\):有效性指示变量,取值 \(\{0, 1\}\)——不可观测\(V_i(t) = 1\) 表示设备在 \(t\) 时有效佩戴(观测值反映真实值加测量误差),\(V_i(t) = 0\) 表示设备未佩戴或连接问题(观测值为结构零)。
  • \(U_i(t)\):测量误差,假设 \(U_i(t) \sim N(0, \sigma^2_{U_i}(t))\),个体特异、时变方差——不可观测
  • \(\pi_i(t)\):零膨胀概率,\(\pi_i(t) = \Pr(V_i(t) = 0 | b_i)\),通过随机效应 \(b_i\) 产生个体特异时变变异——不可观测,要估
  • \(b_i\):个体特异随机效应(控制零膨胀概率与潜在轨迹的个体变异)——不可观测
  • \(\beta_\tau(t)\):分位水平 \(\tau \in (0,1)\) 下的斜率函数——estimand,要估的因果/关联效应参数。
  • \(K\):基展开维数(如 B-spline 基的个数)。
  • \(Q\):联合分位回归的分位水平数。

模型(数据生成机制): 观测数据 \(W_i(t)\) 的生成遵循零膨胀测量误差模型:

\[W_i(t) = V_i(t) \cdot [X_i(t) + U_i(t)], \quad V_i(t) \in \{0, 1\}\]
- 当 \(V_i(t) = 1\)(有效佩戴):\(W_i(t) = X_i(t) + U_i(t)\),观测值为真实值加测量误差。 - 当 \(V_i(t) = 0\)(无效佩戴):\(W_i(t) = 0\),观测值为结构零(不反映真实步数)。

潜在轨迹 \(X_i(t)\) 与有效性 \(V_i(t)\) 通过基展开与随机效应参数化:

\[X_i(t) = \mu_X(t) + \sum_{k=1}^K c_{ik} \phi_k(t), \quad c_{ik} \text{ 为个体特异随机系数}\]
\[\logit(\pi_i(t)) = \mu_\pi(t) + \sum_{k=1}^K d_{ik} \psi_k(t), \quad \pi_i(t) = \Pr(V_i(t)=0 | d_i)\]
其中 \(\phi_k(t), \psi_k(t)\) 为 B-spline 基函数,\(c_{ik}, d_{ik}\) 服从个体特异随机效应分布。

标量响应 \(Y_i\) 与潜在轨迹 \(X_i(t)\) 的关系通过分位回归建模:

\[Q_\tau(Y_i | X_i) = \alpha_\tau + \int_0^T X_i(t) \beta_\tau(t) dt\]
其中 \(Q_\tau\) 为条件分位函数,\(\beta_\tau(t)\) 为斜率函数(estimand)。

可观测数据:研究者实际能观测到的是 \(\{(Y_i, W_i(t_j)) : i=1,\ldots,N, j=1,\ldots,T_i\}\),即标量响应与离散时间点上的污染功能观测。不可观测的\(X_i(t), V_i(t), U_i(t), b_i\),只能通过参数化假设与基展开去识别与估计。

第二步:最小内核——最简特例(单一时间点 \(t\),单一分位水平 \(\tau\)

剥掉所有功能域、基展开与联合分位的复杂性,考虑单一时间点 \(t=t_0\)单一分位水平 \(\tau=0.5\)(中位回归)。此时功能协变量退化为标量 \(X_i\),斜率函数退化为标量 \(\beta\),模型简化为:

\[W_i = V_i \cdot (X_i + U_i), \quad V_i \in \{0,1\}, \quad U_i \sim N(0, \sigma_U^2)\]
\[Q_{0.5}(Y_i | X_i) = \alpha + X_i \beta\]

核心数学困难:观测 \(W_i\) 中存在两类零——结构零(\(V_i=0\),设备未佩戴)与真实零(\(V_i=1, X_i+U_i=0\),真实久坐或测量误差恰为零)。若不区分,将结构零当作真实零纳入分位回归,会引入不可消除的偏差;若仅处理测量误差(如 P-LMM 校正 \(U_i\)),仍无法校正结构零带来的偏差。

本文关键想法怎么破:引入有效性指示变量 \(V_i\) 的参数化模型 \(\Pr(V_i=0) = \pi_i\),通过零膨胀概率 \(\pi_i\) 将观测 \(W_i=0\) 分解为 \(\Pr(W_i=0) = \pi_i + (1-\pi_i)\Pr(X_i+U_i \le 0)\)。在最大似然框架下,联合估计 \(\pi_i, X_i, \sigma_U^2\),使得结构零被显式剥离,校正后的 \(\hat{X}_i\) 仅包含真实值信息。然后将 \(\hat{X}_i\) 代入分位回归 \(Q_{0.5}(Y_i | \hat{X}_i) = \alpha + \hat{X}_i \beta\),获得 \(\beta\) 的无偏估计。

为什么成立:零膨胀模型的似然函数在 \(W_i=0\) 处为 \(\pi_i + (1-\pi_i)F_{X+U}(0)\),在 \(W_i>0\) 处为 \((1-\pi_i)f_{X+U}(W_i)\),其中 \(F_{X+U}, f_{X+U}\)\(X_i+U_i\) 的分布与密度。通过参数化 \(X_i\)(如 \(X_i \sim N(\mu_X, \sigma_X^2)\))与 \(U_i\),似然可解,\(\pi_i\)\(X_i\) 可识别(需 \(X_i+U_i\) 的分布非退化且 \(\pi_i < 1\))。识别的关键条件是:\(X_i+U_i\) 的分布支撑包含正值区域,使得 \(W_i>0\) 的观测提供 \(V_i=1\) 的信息,从而区分结构零与真实零。


三、这篇论文做了什么

三句话: ① 研究了标量-函数分位回归中功能协变量同时存在测量误差与零膨胀的校正问题; ② 核心方法是引入个体特异时变有效性指示变量,通过基展开+线性混合模型迭代最大似然联合估计潜在轨迹与零膨胀概率,再用联合分位回归评估校正后协变量的效应; ③ 主要结论是:该方法在模拟中显著优于仅处理测量误差的方法(P-LMM),且联合分位估计在多个分位水平上比单独拟合有实质性改进,在儿童肥胖数据中校正后的步数与能量消耗高度一致。

关键设定与假设: 在第二节最小记号基础上补全完整设定: - 零膨胀测量误差模型\(W_i(t) = V_i(t)[X_i(t) + U_i(t)]\)\(V_i(t) \in \{0,1\}\)\(U_i(t) \sim N(0, \sigma^2_{U_i}(t))\)。 - 有效性指示变量的参数化\(\logit(\pi_i(t)) = \mu_\pi(t) + \sum_{k=1}^K d_{ik} \psi_k(t)\)\(d_i \sim N(0, \Sigma_d)\)。假设零膨胀概率通过 B-spline 基展开与个体特异随机效应参数化,允许个体间与时点间变异。 - 潜在轨迹的参数化\(X_i(t) = \mu_X(t) + \sum_{k=1}^K c_{ik} \phi_k(t)\)\(c_i \sim N(0, \Sigma_c)\)。假设真实轨迹通过 B-spline 基展开与个体特异随机效应参数化。 - 测量误差的假设\(U_i(t)\) 为高斯、个体特异方差、与 \(X_i(t)\)\(V_i(t)\) 独立。相比已有文献(Crainiceanu et al 2009 假设共享误差过程;Goldsmith et al 2012 假设白噪声),本文放宽为个体特异时变方差,但仍依赖高斯假设。 - 分位回归模型\(Q_\tau(Y_i | X_i) = \alpha_\tau + \int_0^T X_i(t) \beta_\tau(t) dt\),斜率函数 \(\beta_\tau(t)\) 通过 B-spline 基展开 \(\beta_\tau(t) = \sum_{k=1}^K \gamma_{\tau k} \phi_k(t)\)。 - 联合分位估计:同时估计 \(\{\beta_\tau(t)\}_{\tau \in \mathcal{T}}\)\(\mathcal{T} = \{\tau_1, \ldots, \tau_Q\}\),通过联合损失函数确保跨分位水平的单调性(非交叉)。 - 识别条件(隐含但未显式陈述):\(X_i(t)+U_i(t)\) 的分布支撑需包含正值区域,使得 \(W_i(t)>0\) 的观测提供 \(V_i(t)=1\) 的信息;\(\pi_i(t) < 1\)(非完全零膨胀);基函数 \(\phi_k, \psi_k\) 的选择需满足线性独立性。

主要结果: 1. 联合估计框架的构建(方法型核心结果):提出三步迭代算法——(i) 初始化潜在轨迹 \(\hat{X}_i(t)\)(如用 P-LMM 或观测值 \(W_i(t)\));(ii) 基于当前 \(\hat{X}_i(t)\) 更新零膨胀概率 \(\hat{\pi}_i(t)\) 与测量误差方差 \(\hat{\sigma}^2_{U_i}(t)\),通过最大似然估计 LMM 参数;(iii) 基于更新后的 \(\hat{\pi}_i(t)\)\(\hat{\sigma}^2_{U_i}(t)\) 重新估计 \(\hat{X}_i(t)\),迭代至收敛。然后将 \(\hat{X}_i(t)\) 代入联合分位回归。 2. 模拟比较(应用型核心结果):在多种零膨胀比例(10%-50%)与测量误差方差设定下,本文方法的斜率函数估计误差(MISE)显著低于 P-LMM(仅处理测量误差)与 Naive 方法(不校正),尤其在零膨胀比例高时差异更大。联合分位估计比单独拟合各分位水平的估计在单调性保持与效率上有改进(均方误差降低约 15-30%,具体数值见原文 Table 2-3)。 3. 真实数据应用:在儿童肥胖研究数据(Benden et al 2014,374 名小学生,18 个月追踪)中,校正零膨胀与测量误差后的步数曲线 \(\hat{X}_i(t)\) 与能量消耗 EE 的关联在多个分位水平上显著且方向一致(步数增加 → EE 增加),而未校正的步数与 EE 的关联在低分位水平上不显著或方向相反,支持步数作为体力活动代理指标的有效性。

证明路线与技术技巧: 本文为方法型论文,无严格渐近定理证明,但算法设计包含关键技术技巧: - 整体路线: 1. 参数化建模:将 \(X_i(t), V_i(t), U_i(t)\) 全部参数化为基展开+随机效应,使得零膨胀测量误差模型的似然函数可写出。 2. 迭代最大似然:交替更新 \(\hat{X}_i(t)\)\(\hat{\pi}_i(t), \hat{\sigma}^2_{U_i}(t)\),类似 EM 算法的思想,但未显式使用 EM 的 E 步(因 \(V_i(t)\) 的后验分布通过零膨胀概率直接参数化,无需显式计算期望)。 3. 联合分位回归:采用 Wei & Carroll (2009) 的联合估计方程思想,跨 \(Q\) 个分位水平同时估计 \(\beta_\tau(t)\),通过惩罚项或约束确保单调性。 - 关键跳跃点:零膨胀概率 \(\pi_i(t)\) 与潜在轨迹 \(X_i(t)\) 的联合可识别性——在观测 \(W_i(t)=0\) 时,似然贡献为 \(\pi_i(t) + (1-\pi_i(t))\Phi(-X_i(t)/\sigma_{U_i}(t))\),两者耦合使得单独估计 \(\pi_i(t)\)\(X_i(t)\) 不可行,必须联合求解。本文通过迭代最大似然绕过此耦合,但未提供收敛性证明或唯一性条件。 - 技术技巧点名: - 基展开:用 B-spline 基 \(\phi_k(t), \psi_k(t)\) 将无限维函数 \(X_i(t), \beta_\tau(t), \pi_i(t)\) 降维至有限维参数 \(c_{ik}, \gamma_{\tau k}, d_{ik}\),解决功能数据的维度问题。 - 线性混合模型:将 \(c_i \sim N(0, \Sigma_c), d_i \sim N(0, \Sigma_d)\) 嵌入 LMM 框架,利用 LMM 的最大似然估计工具(如 lme4nlme)处理个体特异随机效应与测量误差方差。 - 联合分位估计方程:借鉴 Wei & Carroll (2009),跨分位水平构建联合估计方程,通过迭代算法求解,确保非交叉分位函数。 - 有效性指示变量的参数化:将 \(V_i(t)\) 的分布通过 \(\logit(\pi_i(t))\) 与 B-spline 基参数化,使得零膨胀概率可随时间与个体平滑变化,而非固定常数或简单阈值。

真实例子与应用: - 数据:儿童肥胖研究(Benden et al 2014),374 名小学生,站立式课桌干预,18 个月追踪。可穿戴设备记录步数(SC,功能协变量,零膨胀+测量误差)与能量消耗(EE,标量响应)。 - 怎么用上去:将每日步数曲线作为 \(W_i(t)\),通过本文方法校正零膨胀(非佩戴时间产生的结构零)与测量误差,获得 \(\hat{X}_i(t)\)(真实步数轨迹)。然后将 EE 作为 \(Y_i\),对 \(\hat{X}_i(t)\) 进行联合分位回归,估计步数对 EE 在不同分位水平的效应 \(\beta_\tau(t)\)。 - 得到什么结果:校正后的步数与 EE 在 \(\tau = 0.1, 0.25, 0.5, 0.75, 0.9\) 五个分位水平上均呈显著正相关,斜率函数 \(\beta_\tau(t)\) 在日间活跃时段(上午 9-11 点,下午 2-4 点)为正值峰值。未校正的步数(Naive 方法)在低分位水平(\(\tau=0.1, 0.25\))上与 EE 关联不显著或为负,因结构零(非佩戴)被误认为真实久坐,稀释了步数-EE 的正向关联。 - 想说明什么:验证本文方法在真实数据中能有效校正零膨胀与测量误差,使得步数作为体力活动代理指标的效度得到支持;同时展示联合分位回归比单独拟合在低分位水平上的优势(更稳定、非交叉)。

🔎 结论是否比证明窄: - 联合估计的收敛性与唯一性:本文声称迭代最大似然可联合估计 \(\pi_i(t), X_i(t), \sigma^2_{U_i}(t)\),但未提供收敛性证明或唯一性条件。在零膨胀比例高(\(\pi_i(t) > 0.5\))或测量误差方差大时,似然函数可能多峰,迭代可能不收敛或收敛到局部最优——此点被泛泛 claim 为"迭代至收敛",但未严格证明。 - 斜率函数估计的渐近性质:本文未提供 \(\hat{\beta}_\tau(t)\) 的收敛率、相合性或渐近分布的定理,仅在模拟中展示有限样本表现。作者在讨论中提到"future work will establish asymptotic properties",但当前结论("显著优于 P-LMM")仅基于模拟,无理论保证。 - 识别条件的隐含性:零膨胀概率 \(\pi_i(t)\) 与潜在轨迹 \(X_i(t)\) 的可识别性依赖 \(X_i(t)+U_i(t)\) 的分布支撑包含正值区域与 \(\pi_i(t) < 1\),但本文未显式陈述这些条件,也未讨论当 \(X_i(t)\) 本身为零(真实久坐)时如何与结构零区分——此限制被淡化。


四、开放问题(点到为止,扎根具体语句)

  1. 联合估计框架的渐近性质与效率界:斜率函数估计 \(\hat{\beta}_\tau(t)\) 的收敛率是什么?是否达到半参数效率界?扎根在本文 Discussion 中 "future work will establish asymptotic properties" 一句,以及 Wei & Carroll (2009) 的联合分位估计渐近理论——本文缺乏类似定理。
  2. 零膨胀与测量误差的识别条件:当 \(X_i(t)\) 的真实值在部分时间点为零(真实久坐)时,如何与结构零(\(V_i(t)=0\))区分?扎根在 Cho et al (2021) 对零膨胀来源的混淆描述,以及本文隐含假设 \(X_i(t)+U_i(t)\) 支撑包含正值区域——此假设在久坐行为研究中可能不成立。
  3. 工具变量或代理变量方法的引入:当前框架依赖参数化零膨胀概率与高斯测量误差假设,是否可通过工具变量(Tekwe et al 2019)或代理变量处理未观测混淆与测量误差,放宽分布假设?扎根在 Tekwe et al (2019) 的 IV 方法与本文对其的淡化处理——IV 路线可能提供更稳健的识别,但未与零膨胀模型结合。
  4. 计算复杂度与基展开维数选择:迭代最大似然与联合分位回归的计算复杂度随基展开维数 \(K\) 与分位水平数 \(Q\) 如何增长?\(K\)\(Q\) 的选择是否影响收敛性与估计精度?扎根在本文算法描述中 \(K\) 的选择依赖 BIC/AIC 但无理论指导,以及联合分位回归的优化规模随 \(Q\) 线性增加——此点对大规模可穿戴数据(\(N > 1000, T > 1000\))可能构成计算瓶颈。

提醒:要确认第 1 条是否真 gap,去读功能分位回归近期 5 篇的 intro——若都指出渐近性质缺失,则为共识真 gap;若已有部分解决,则为本文特定局限。第 2 条的识别条件问题在零膨胀文献中已有探讨(如零膨胀泊松模型的识别),但功能数据零膨胀的识别尚无系统工作,可能为机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论