Negative binomial mixed effects location-scale models for intensive longitudinal count-type physical activity data provided by wearable devices¶
作者: Qianheng Ma, Genevieve F Dunton, Donald Hedeker
来源: Biometrics
主题: 流行病学
相关性: 2/10
机构绿灯: Stanford University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf099
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处理的是由可穿戴设备(如加速度计)产生的密集型纵向计数数据(intensive longitudinal count data)的统计建模问题。根本的科学问题在于:当同一个体在长时间内被高频观测(例如每小时记录一次中等至高强度体力活动 MVPA 分钟数),数据呈现三个特征——(1)高度过度离散;(2)个体内存在自相关与时间动态;(3)大量零值(久坐行为导致)。传统混合效应模型仅对均值(位置)建模,忽略了离散度与零膨胀结构;而离散度本身具有生理学意义(反映运动规律性 vs. 偶发性爆发)。当前该方向的成熟度处于“方法拼图期”:均值建模已有成熟框架,离散度与零膨胀的联合建模正在从独立子领域向统一混合模型收敛。
发展脉络: - 奠基工作(混合效应与位置-尺度):Hedeker & Mermelstein (2007, 2012) 将混合效应位置-尺度模型引入心理学/流行病学的连续型密集纵向数据,允许个体在均值和方差(离散度)上均有随机效应。作者在 intro 中原话指出,这为“modeling not only the mean PA level, but also the dispersion level for each subject”提供了直接动机。 - 计数数据的零膨胀与过度离散:Long et al. (2015) 与 Lee et al. (2018) 等提出了针对纵向计数数据的零膨胀/ hurdle 模型,但主要关注均值与零概率,未对非零部分的离散度引入随机效应。作者引用这些工作来定位“已有计数模型缺乏离散度异质性建模”的缺口。 - 当前 frontier(密集纵向计数数据的离散度建模):本文直接填补了从连续型位置-尺度模型向计数型(负二项)位置-尺度模型跨越的空白,并进一步叠加 hurdle/零膨胀结构处理零值过多问题。
子线索聚类: 1. 混合效应位置-尺度模型(连续型):以 Hedeker 系列工作为代表,针对正态/连续响应,同时建模均值与方差上的随机效应,用于刻画个体内波动异质性。 2. 纵向计数数据的零膨胀/ hurdle 模型:以 Long (2015)、Lee (2018) 为代表,处理加速度计数据中的零过多问题,但离散度仅作为固定参数或简单随机效应处理。 3. 负二项混合效应模型(均值主导):传统负二项混合模型(如 GLMM 框架)仅对均值引入随机效应,离散参数(尺寸参数 \(r\) 或辅助参数 \(\alpha\))视为个体共享的固定值。
这个方向在追问的核心问题: 1. 如何在保持计数数据分布假设(负二项)的前提下,允许离散度参数具有个体级随机效应,从而分离“均值高但波动大”与“均值高且稳定”的两种运动模式? 2. 如何在联合建模均值、离散度、零概率三者的随机效应时,保证参数可识别性与计算可行性? 3. 密集纵向数据中的时间自相关结构(如日内/日间相关)如何在位置-尺度框架下被吸收或显式建模?
⚠️ 作者的 framing: - 作者将缺口 frame 为:“现有计数模型只看均值和零概率,不看离散度异质性;而离散度在体力活动数据中有实质生理意义(规律性 vs. 偶发性)”。这使得“负二项混合效应位置-尺度模型”成为显然的下一步。 - 被淡化或回避的竞争路线:intro 中未提及基于半参数/非参数的纵向离散度建模(如 GEE 扩展、波动性平滑模型),也未讨论因果推断视角下时变暴露测量的建模需求(如 g-formula 中对时变协变量的参数化假设)。此外,对于零膨胀与离散度异质性的交互,intro 未讨论是否存在参数识别的脆弱性(这是 hurdle 模型的已知难题)。 - 明显该被引但未出现的:关于负二项混合模型参数识别与边界问题的理论工作(如零离散参数附近的渐近奇异性,Molenberghs & Verbeke 2005 等系列);以及密集纵向数据中时间结构的显式建模(如动态条件线性模型、AR 结构在 GLMM 中的嵌入)。这些是研究者值得去查的潜在薄弱点。
张力:未见明显对立引用。各子线索在不同假设下处理不同侧面,尚未在“是否应同时建模均值与离散度随机效应”上形成对立结论——这更多是一个“尚未被尝试”的空白,而非矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号与指标:
- \(i = 1, \dots, N\):个体索引;\(j = 1, \dots, n_i\):个体 \(i\) 的观测时间点索引。
- \(Y_{ij}\):可观测的计数型响应变量(如个体 \(i\) 在时间 \(j\) 的 MVPA 分钟数),取值 \(\{0, 1, 2, \dots\}\)。
- \(\mathbf{x}_{ij}\):可观测的协变量向量(维度 \(p\)),用于均值(位置)建模。
- \(\mathbf{w}_{ij}\):可观测的协变量向量(维度 \(q\)),用于离散度建模(可与 \(\mathbf{x}_{ij}\) 不同或重叠)。
- \(\mathbf{z}_{ij}\):可观测的协变量向量,用于零概率建模(hurdle/零膨胀扩展中)。
- \(\beta\):均值模型的固定效应参数(\(p \times 1\))。
- \(\tau\):离散度模型的固定效应参数(\(q \times 1\))。
- \(\gamma\):零概率模型的固定效应参数(hurdle 扩展中)。
- \(\nu_i\):个体 \(i\) 在均值上的随机效应(通常假设 \(\nu_i \sim N(0, \sigma^2_\nu)\))。
- \(\log(\alpha_i)\):个体 \(i\) 在离散度上的随机效应;\(\alpha_i\) 为负二项分布的辅助参数(控制过度离散),假设 \(\log(\alpha_i) = \mathbf{w}_i^T \tau + \zeta_i\),其中 \(\zeta_i \sim N(0, \sigma^2_\zeta)\)。
- \(\omega_i\):个体 \(i\) 在零概率上的随机效应(hurdle 扩展中,假设正态分布)。
-
\(\sigma^2_\nu, \sigma^2_\zeta\):均值与离散度随机效应的方差;\(\rho_{\nu\zeta}\):两者之间的相关系数(核心参数,允许均值高的人离散度倾向大或小)。
-
模型(数据生成机制):
- 位置(均值)部分:\(\log(\mu_{ij}) = \mathbf{x}_{ij}^T \beta + \nu_i\),其中 \(\mu_{ij}\) 是 \(Y_{ij}>0\) 时的条件均值参数。
- 尺度(离散度)部分:\(\log(\alpha_i) = \mathbf{w}_{ij}^T \tau + \zeta_i\),其中 \(\alpha_i\) 是负二项分布的尺寸/辅助参数(\(\alpha_i\) 越小,过度离散越严重;方差 \(= \mu_{ij} + \alpha_i \mu_{ij}^2\))。
- 分布假设:给定随机效应 \((\nu_i, \zeta_i)\),\(Y_{ij}\) 服从负二项分布 \(NB(\mu_{ij}, \alpha_i)\)。
- 随机效应联合分布:\((\nu_i, \zeta_i) \sim N\left(\mathbf{0}, \begin{pmatrix} \sigma^2_\nu & \rho_{\nu\zeta}\sigma_\nu\sigma_\zeta \\ \rho_{\nu\zeta}\sigma_\nu\sigma_\zeta & \sigma^2_\zeta \end{pmatrix}\right)\)。
-
Hurdle 扩展:\(P(Y_{ij}=0) = \pi_{ij}\),由 \(\text{logit}(\pi_{ij}) = \mathbf{z}_{ij}^T \gamma + \omega_i\) 决定;\(Y_{ij}>0\) 时由上述负二项位置-尺度模型生成。
-
可观测数据:
- 研究者实际观测到的是 \(\{(Y_{ij}, \mathbf{x}_{ij}, \mathbf{w}_{ij}, \mathbf{z}_{ij})\}\) 对每个个体 \(i\) 的长面板。
- 不可观测的潜在量:随机效应 \(\nu_i, \zeta_i, \omega_i\)(个体级异质性),以及负二项分布的计数生成过程本身(只能通过参数间接推断)。
- 关键可识别性依赖:零膨胀与负二项过度离散在零值生成上的竞争(零既可来自 hurdle 的“结构性零”,也可来自负二项的“采样零”)——需靠协变量与随机效应的变异分离。
第二步:最小内核——最简特例(单时间点、无协变量、无 hurdle)
剥掉所有协变量与 hurdle 结构,考虑最简特例:\(N\) 个个体,每人只观测一次(\(n_i=1\)),无协变量,仅估计均值与离散度随机效应的方差及相关。
- 模型退化:\(Y_i \sim NB(\mu_i, \alpha_i)\),其中 \(\log(\mu_i) = \beta + \nu_i\),\(\log(\alpha_i) = \tau + \zeta_i\),\((\nu_i, \zeta_i) \sim N(0, \Sigma)\)。
- 要估的参数:\((\beta, \tau, \sigma^2_\nu, \sigma^2_\zeta, \rho_{\nu\zeta})\)。
- 核心数学问题:在负二项分布下,边际似然 \(L(\beta, \tau, \Sigma) = \int NB(y_i | \mu_i(\nu_i), \alpha_i(\zeta_i)) \cdot N(\nu_i, \zeta_i | 0, \Sigma) d\nu_i d\zeta_i\) 没有闭式解(正态-负二项混合积分不可解析)。本文的核心计算技巧即在于此:如何数值逼近这个二维(或多维)积分,并在此基础上做最大似然估计。
- 为什么成立:通过自适应 Gauss-Hermite 求积(AGHQ)将积分离散化为有限点求和,配合参数化随机效应协方差矩阵的 Cholesky 分解保证正定性,利用边际似然的梯度与 Hessian 进行 Newton-Raphson 迭代。在这个最简特例中,证明路线就是“积分逼近 → 似然最大化 → 渐近正态性(依赖标准 MLE 理论,需验证积分逼近误差不破坏相合性)”。
三、这篇论文做了什么¶
三句话: 1. 研究了可穿戴设备密集纵向计数数据中均值与离散度个体异质性的联合建模问题。 2. 核心方法是提出负二项混合效应位置-尺度模型,并扩展至 hurdle/零膨胀版本,通过自适应 Gauss-Hermite 求积与边际最大似然实现估计。 3. 主要结论是:该模型能同时刻画个体在运动均值水平与规律性(离散度)上的差异及相关结构,且 hurdle 扩展有效分离了结构性零与采样零。
关键设定与假设: - 负二项分布假设:\(Y_{ij} | (\nu_i, \zeta_i) \sim NB(\mu_{ij}, \alpha_i)\),方差 \(= \mu_{ij} + \alpha_i \mu_{ij}^2\)。相比 Poisson(仅 \(\mu_{ij}\)),引入 \(\alpha_i\) 允许过度离散;相比固定 \(\alpha\) 的传统 NB 模型,\(\alpha_i\) 带随机效应 \(\zeta_i\) 允许个体级离散度异质性。 - 随机效应联合正态假设:\((\nu_i, \zeta_i)\) 乃至 hurdle 扩展中的 \(\omega_i\) 均假设多元正态,且允许相关(\(\rho_{\nu\zeta}\))。统计含义:个体均值倾向与离散度倾向可相关(如均值高的人可能更规律 \(\rho<0\) 或更偶发 \(\rho>0\))。 - Hurdle/零膨胀分离假设:零值由两部分生成——\(\pi_{ij}\) 控制结构性零概率,非零部分由零截断负二项生成。相比零膨胀模型(零可来自两部分),hurdle 模型假设零只来自“不活动”决策,非零部分只描述活动量分布。 - 条件独立性假设:给定随机效应,同一个体内不同时间点的 \(Y_{ij}\) 独立。这是 GLMM 的标准假设,隐含了所有时间自相关均被随机效应吸收(强假设,作者未显式讨论其局限)。
主要结果: 1. 模型参数化与似然构造:给出了负二项位置-尺度模型及 hurdle 扩展的完整参数化,包括随机效应协方差矩阵的 Cholesky 分解表示(保证优化中正定性),以及边际对数似然的 AGHQ 逼近表达式。 2. 估计与渐近性质:通过边际最大似然估计(MMLE)获得参数点估计,依赖 AGHQ 逼近积分;渐近标准误由逼近似然的 Hessian 逆给出。作者未给出严格的渐近理论定理(如相合性/渐近正态性的条件证明),而是依赖标准 MLE 理论的“默认适用性”与模拟验证。 3. 模拟研究:在不同样本量(\(N=100, 200, 500\))、随机效应方差大小、零膨胀比例下,评估参数估计的偏差、均方误差与覆盖率。核心发现:固定效应 \((\beta, \tau)\) 与零概率参数 \((\gamma)\) 估计表现良好;随机效应方差 \((\sigma^2_\nu, \sigma^2_\zeta)\) 在小样本下有向下偏差(混合模型的已知现象);相关系数 \(\rho_{\nu\zeta}\) 估计难度最大,需较大样本量才能准确捕捉。
证明路线与技术技巧: - 整体路线: 1. 参数化:均值 \(\log(\mu_{ij})\)、离散度 \(\log(\alpha_i)\)、零概率 \(\text{logit}(\pi_{ij})\) 各引入固定与随机效应,随机效应协方差矩阵用 Cholesky 分解参数化。 2. 似然构造:写出个体级边际似然 \(L_i = \int f(y_i | \nu_i, \zeta_i, \omega_i) \phi(\nu_i, \zeta_i, \omega_i | \Sigma) d(\nu_i, \zeta_i, \omega_i)\)。 3. 积分逼近:对随机效应分布做自适应 Gauss-Hermite 求积(AGHQ),将积分转化为有限点加权求和。 4. 优化:对逼近边际似然做 Newton-Raphson 迭代(利用解析梯度与 Hessian),收敛至 MMLE。 5. 推断:由逼近似然的 Hessian 逆给出标准误,模拟验证有限样本性能。 - 关键跳跃点: - 从“正态-负二项混合积分无闭式”到“AGHQ 逼近可行且精度足够”——这是整个估计流程的卡点。作者选择 AGHQ 而非 Laplace 逼近,因为 Laplace 在随机效应方差较大或离散分布下精度不足(这是连续型位置-尺度模型中已知的问题,离散计数数据更严重)。 - Hurdle 扩展中零概率与负二项部分的参数识别——零值既受 \(\pi_{ij}\) 影响又受 \(\alpha_i\) 影响(过度离散也增加零概率),需靠协变量与随机效应的结构差异来分离。作者通过允许 \(\mathbf{z}_{ij}\) 与 \(\mathbf{x}_{ij}\) 不同、\(\omega_i\) 与 \((\nu_i, \zeta_i)\) 相关来增加识别信息,但未给出严格的识别条件定理。 - 技术技巧点名: - 自适应 Gauss-Hermite 求积(AGHQ):用于逼近边际似然中的随机效应积分,中心与尺度根据当前参数估计自适应调整,提高离散分布下的逼近精度。 - Cholesky 分解参数化:对随机效应协方差矩阵 \(\Sigma\) 用 \(\Sigma = LL^T\) 表示,\(L\) 为下三角阵,保证优化过程中 \(\Sigma\) 恒正定,避免边界问题。 - 零截断负二项分布:hurdle 模型中非零部分的似然构造,需将标准 NB 概率除以 \(1-P(Y=0|\mu, \alpha)\),得到条件分布。 - Newton-Raphson 迭代:利用 AGHQ 逼近似然的解析一阶与二阶导数进行优化,避免数值微分的不稳定性。
真实例子与应用: - 数据:儿童体力活动数据(具体来源未在 intro 中详述,但由 Dunton 合作提供,应为加速度计观测的儿童/青少年样本),观测为每时间段的 MVPA 分钟数(计数型,大量零值)。 - 如何用上去:将每小时的 MVPA 分钟数作为 \(Y_{ij}\),时间相关协变量(如小时、上学/放学状态)作为 \(\mathbf{x}_{ij}, \mathbf{w}_{ij}, \mathbf{z}_{ij}\),拟合负二项位置-尺度模型及 hurdle 扩展。 - 结果:展示了均值与离散度随机效应的估计方差及相关系数,说明儿童在运动均值与规律性上存在显著异质性且两者相关;hurdle 扩展成功分离了“完全不活动时段”与“活动时段的强度分布”。 - 想说明什么:验证模型在真实数据上的可行性与解释力——离散度异质性不仅是统计噪声,而是有生理意义的运动模式维度;hurdle 扩展对零膨胀数据的拟合优于纯负二项模型。
🔎 结论是否比证明窄: - 作者在渐近理论部分未给出严格定理,仅依赖“标准 MLE 理论适用”的默认声明与模拟验证。这是一个明显的“条件 X 下严格证明缺失,却被泛泛 claim”的地方——特别是 AGHQ 逼近误差对渐近相合性与正态性的影响,未做理论分析。 - Hurdle 扩展中零概率与离散度参数的识别条件,未给出定理,仅靠模型结构(不同协变量)隐含保证——这是另一个“证明窄于 claim”的点。
四、开放问题(点到为止)¶
- AGHQ 逼近误差对渐近理论的影响:本文依赖 AGHQ 逼近边际似然做 MLE,但未分析求积点数与逼近误差对估计相合性与渐近正态性的定量影响。扎根点:渐近标准误直接由逼近似然的 Hessian 逆给出,未讨论逼近误差是否破坏标准 MLE 渐近理论的条件。
- 条件独立性假设的局限与时间自相关建模:模型假设给定随机效应后个体内观测独立,未显式建模残差自相关(如 AR 结构)。扎根点:intro 中提到密集纵向数据“summarized per hour across days and even months”,但模型未包含日内/日间相关结构。
- Hurdle/零膨胀与离散度参数的识别脆弱性:零概率 \(\pi_{ij}\) 与离散度 \(\alpha_i\) 均影响零值比例,在协变量信息不足时可能识别困难。扎根点:作者未给出识别条件的定理或模拟验证(如当 \(\mathbf{z}_{ij} = \mathbf{x}_{ij}\) 时识别是否失败)。
- 半参数/非参数扩展的可能性:当前模型完全参数化(正态随机效应、负二项分布),对分布假设偏离的稳健性未讨论。扎根点:intro 中未提及半参数或稳健推断路线,这是与研究者自身半参数/非参数武器库的潜在接口——但需确认同子领域近期文献是否已探索此方向。
Maintained by 陈星宇 · Homepage · Source on GitHub