跳转至

Finite mixtures of linear quantile regressions with concomitant variables: a solution to endogeneity in longitudinal data modeling

作者: Marco Alfó, Maria Francesca Marino, Francesca Martella
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujag095


一、领域脉络与小综述

这个方向是什么

这个子方向要解决的根本问题是:在纵向数据(longitudinal data)的分位数回归(quantile regression)中,如何处理由随机效应(random effects)与协变量相关所导致的内生性(endogeneity)问题。当前成熟度属于方法应用型——已有若干处理纵向数据分位数回归的混合模型,但针对随机效应内生性的系统性解决方案尚不成熟,本文是其中一个尝试。

发展脉络(history)

从 introduction 引用的工作串成一条线:

  • 奠基工作:Koenker & Bassett (1978) 提出了分位数回归的基本框架,奠定了条件分位数建模的基础。Koenker (2004) 将分位数回归扩展到纵向数据,引入了带有随机效应的分位数回归模型(quantile regression with random effects),但该模型假设随机效应与协变量独立,即外生性假设

  • 主要进展:Geraci & Bottai (2007, 2014) 发展了基于非对称拉普拉斯分布(asymmetric Laplace distribution, ALD)的似然方法,将分位数回归嵌入到混合模型框架中,使得可以通过 EM 算法进行参数估计。这些工作假设随机效应与协变量独立,即随机效应外生性

  • 当前 frontier:Alfó, Salvati & Ranalli (2017) 提出了有限混合分位数回归(finite mixture quantile regression),允许混合比例依赖于协变量,从而部分放松了外生性假设。但该模型仍然假设给定混合成分后,随机效应与协变量独立——即条件外生性假设。

  • 本文的位置:本文声称,上述所有工作都未能解决随机效应与协变量相关导致的内生性问题。作者提出,通过引入伴随变量(concomitant variables)——即时间恒定协变量以及时变协变量的时间恒定汇总统计量——来建模混合分布,从而在分位数回归框架下处理内生性。这本质上是一种基于混合模型的工具变量思路:伴随变量充当工具变量,实现条件外生性。

子线索聚类

这些被引文献大致落在 2 条子线索上:

  1. 纵向数据分位数回归的随机效应方法:Koenker (2004), Geraci & Bottai (2007, 2014), Alfó, Salvati & Ranalli (2017)。这一簇在做什么:将分位数回归扩展到纵向数据,通过随机效应或混合模型处理个体异质性,但假设随机效应与协变量独立

  2. 纵向数据中的内生性处理:Wooldridge (2010), Arellano & Bonhomme (2016)。这一簇在做什么:在均值回归(mean regression)框架下处理纵向数据中的内生性,使用工具变量或控制函数方法,但未扩展到分位数回归

这个方向在追问的核心问题

  • 核心问题 1:如何在纵向数据的分位数回归中放松随机效应与协变量独立的假设?
  • 核心问题 2:如何在不引入复杂工具变量方法(如 IVQR)的情况下,处理分位数回归中的内生性?
  • 核心问题 3:有限混合模型能否作为工具变量的一种替代方案,在分位数回归中实现条件外生性?
  • 已知瓶颈:现有方法要么假设随机效应外生(Koenker 2004, Geraci & Bottai 2007),要么需要复杂的工具变量方法(IVQR 计算困难、识别条件强)。本文声称其方法计算简单识别条件更弱

⚠️ 作者的 framing(必须明确标注成"这是作者的说法")

  • 作者把缺口 frame 成什么:作者声称,现有纵向数据分位数回归方法都假设随机效应与协变量独立,而这一假设在实际中常被违反(例如,个体基线健康状况与后续健康行为相关)。作者将伴随变量框架定位为"显然的下一步"——通过混合分布对伴随变量的依赖来吸收随机效应与协变量的相关性,从而在分位数回归框架下实现条件外生性
  • 哪些竞争路线被他淡化或回避了
  • IVQR(工具变量分位数回归):Chernozhukov & Hansen (2005, 2008) 等发展了 IVQR 方法,但作者仅在引言中提及"计算复杂"、"识别条件强",未深入讨论 IVQR 与本文方法的比较。值得研究者去查:IVQR 在纵向数据中的表现如何?本文方法相比 IVQR 的识别条件是否真的更弱?
  • 控制函数方法(control function):Wooldridge (2010) 等发展了控制函数方法处理内生性,但作者未讨论本文方法与控制函数方法的关系。值得研究者去查:控制函数方法能否扩展到分位数回归?与本文的伴随变量方法有何异同?
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
  • Chernozhukov & Hansen (2005, 2008) 的 IVQR 方法:这是分位数回归中处理内生性的标准方法,但本文仅提及"IVQR 计算复杂",未引用具体文献。值得研究者去查:IVQR 在纵向数据中的最新进展是什么?
  • Arellano & Bonhomme (2016) 的随机系数分位数回归:该文在纵向数据分位数回归中处理了随机系数与协变量的相关性,但本文未引用。值得研究者去查:Arellano & Bonhomme (2016) 的方法与本文方法有何异同?

张力

  • 未见明显对立引用:被引文献之间没有彼此矛盾或在略不同条件下得相反结论的情况。所有被引工作都一致认为随机效应与协变量独立是标准假设,且都承认这一假设在实际中可能被违反。本文的贡献在于提供了一个新的解决方案,而非挑战现有结论。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: - \( i = 1, \dots, n \):个体索引(纵向数据中的个体) - \( t = 1, \dots, T_i \):时间点索引(每个个体可能有不同数量的观测) - \( Y_{it} \):第 \( i \) 个个体在时间 \( t \)响应变量(可观测) - \( \mathbf{x}_{it} \):第 \( i \) 个个体在时间 \( t \)时变协变量向量(可观测) - \( \mathbf{z}_i \):第 \( i \) 个个体的时间恒定协变量向量(可观测) - \( \tau \in (0, 1) \):分位数水平(给定) - \( Q_{Y_{it}}(\tau | \cdot) \):给定协变量后 \( Y_{it} \) 的条件 \( \tau \)-分位数(要估的对象) - \( \boldsymbol{\beta}_\tau \):分位数回归系数(要估的参数) - \( \alpha_i \):第 \( i \) 个个体的随机效应(不可观测,潜在变量) - \( \pi_{ig} \):第 \( i \) 个个体属于第 \( g \) 个混合成分的概率(模型参数) - \( G \):混合成分的数量(给定或通过模型选择确定) - \( \mathbf{w}_i \):第 \( i \) 个个体的伴随变量向量(可观测,由 \( \mathbf{z}_i \)\( \mathbf{x}_{it} \) 的时间恒定汇总统计量构成)

模型: - 数据生成机制:假设 \( Y_{it} \) 的条件 \( \tau \)-分位数由以下混合模型生成:

\[Q_{Y_{it}}(\tau | \mathbf{x}_{it}, \alpha_i) = \mathbf{x}_{it}^\top \boldsymbol{\beta}_\tau + \alpha_i\]
其中 \( \alpha_i \) 是随机效应,且 \( \alpha_i \)\( \mathbf{x}_{it} \) 可能相关(即内生性来源)。 - 混合模型假设:\( \alpha_i \) 的分布是有限混合分布,即 \( \alpha_i \) 来自 \( G \) 个成分之一,每个成分对应一个分位数回归截距 \( \gamma_{g\tau} \)
\[\alpha_i \sim \sum_{g=1}^G \pi_{ig} \delta_{\gamma_{g\tau}}\]
其中 \( \pi_{ig} \) 是第 \( i \) 个个体属于第 \( g \) 个成分的概率,\( \delta_{\gamma_{g\tau}} \) 是在 \( \gamma_{g\tau} \) 处的点质量。 - 关键假设:混合概率 \( \pi_{ig} \) 依赖于伴随变量 \( \mathbf{w}_i \)
\[\pi_{ig} = \frac{\exp(\mathbf{w}_i^\top \boldsymbol{\phi}_g)}{\sum_{h=1}^G \exp(\mathbf{w}_i^\top \boldsymbol{\phi}_h)}\]
其中 \( \boldsymbol{\phi}_g \) 是成分 \( g \) 的伴随变量系数(要估的参数)。

可观测数据: - 研究者实际能观测到的是:\( \{ (Y_{it}, \mathbf{x}_{it}, \mathbf{z}_i) : i=1,\dots,n, t=1,\dots,T_i \} \) - 伴随变量 \( \mathbf{w}_i \)\( \mathbf{z}_i \)\( \mathbf{x}_{it} \) 的时间恒定汇总统计量(如均值、最大值、最小值)构造而成,因此也是可观测的。 - 不可观测的是:随机效应 \( \alpha_i \) 及其所属的混合成分。 - 想要但观测不到的是:\( \alpha_i \)\( \mathbf{x}_{it} \) 的相关性结构。本文通过混合模型对伴随变量的依赖来吸收这种相关性,从而在给定混合成分后实现条件外生性。

第二步:讲最小内核

最简特例:假设 \( G=2 \)(两个混合成分),\( T_i = 1 \)(每个个体只有一个观测,即横截面数据),\( \mathbf{x}_{it} \) 是标量(一个时变协变量),\( \mathbf{z}_i \) 是标量(一个时间恒定协变量),且 \( \mathbf{w}_i = \mathbf{z}_i \)(伴随变量就是时间恒定协变量本身)。

在这个最简特例下,模型退化为:

\[Q_{Y_i}(\tau | x_i, \alpha_i) = \beta_\tau x_i + \alpha_i\]
其中 \( \alpha_i \) 来自两个成分之一: - 成分 1:\( \alpha_i = \gamma_{1\tau} \),概率 \( \pi_{i1} = \frac{\exp(\phi_1 z_i)}{1 + \exp(\phi_1 z_i)} \) - 成分 2:\( \alpha_i = \gamma_{2\tau} \),概率 \( \pi_{i2} = 1 - \pi_{i1} \)

核心思路:如果 \( \alpha_i \)\( x_i \) 相关(内生性),那么直接回归 \( Y_i \)\( x_i \) 会得到有偏的 \( \beta_\tau \) 估计。但如果我们能通过 \( z_i \) 来"预测" \( \alpha_i \) 属于哪个成分(即 \( \pi_{i1} \) 依赖于 \( z_i \)),那么给定成分后\( \alpha_i \) 就变成了一个常数(\( \gamma_{1\tau} \)\( \gamma_{2\tau} \)),从而与 \( x_i \) 独立。这样,在成分内部,\( x_i \) 就是外生的。

为什么成立:这个思路本质上是一种离散的工具变量方法\( z_i \) 充当工具变量,通过影响混合概率来"吸收" \( \alpha_i \)\( x_i \) 的相关性。只要 \( z_i \) 满足两个条件: 1. 相关性\( z_i \)\( \alpha_i \) 相关(即 \( \phi_1 \neq 0 \)) 2. 排他性\( z_i \) 仅通过 \( \alpha_i \) 影响 \( Y_i \)(即给定 \( \alpha_i \) 后,\( z_i \)\( Y_i \) 独立)

那么,通过混合模型对 \( z_i \) 的依赖,就可以实现条件外生性。

要证的命题:在这个最简特例下,本文要证明的是:通过 EM 算法估计的 \( \hat{\beta}_\tau \)\( \beta_\tau \) 的一致估计,且其偏差小于直接回归(忽略内生性)的偏差。模拟研究验证了这一命题。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在纵向数据分位数回归中,当随机效应与协变量相关导致内生性时,如何通过有限混合模型和伴随变量框架进行一致估计。
  2. 核心工具 / 方法:有限混合分位数回归(finite mixture quantile regression) + 伴随变量(concomitant variables)建模混合概率,通过 EM 算法进行参数估计。
  3. 主要结论:模拟研究表明,该方法能有效纠正内生性偏误,且计算简单;实证部分应用于老年人群 MMSE 评分的纵向数据分析,展示了方法的实用性。

关键设定与假设

完整设定(在第二节最小记号的基础上补全): - 模型:\( Q_{Y_{it}}(\tau | \mathbf{x}_{it}, \alpha_i) = \mathbf{x}_{it}^\top \boldsymbol{\beta}_\tau + \alpha_i \) - 混合分布:\( \alpha_i \sim \sum_{g=1}^G \pi_{ig} \delta_{\gamma_{g\tau}} \) - 混合概率:\( \pi_{ig} = \frac{\exp(\mathbf{w}_i^\top \boldsymbol{\phi}_g)}{\sum_{h=1}^G \exp(\mathbf{w}_i^\top \boldsymbol{\phi}_h)} \) - 伴随变量:\( \mathbf{w}_i = (\mathbf{z}_i^\top, \bar{\mathbf{x}}_i^\top)^\top \),其中 \( \bar{\mathbf{x}}_i = \frac{1}{T_i} \sum_{t=1}^{T_i} \mathbf{x}_{it} \) 是时变协变量的时间恒定汇总统计量

关键假设: 1. 条件外生性:给定混合成分 \( g \) 后,\( \alpha_i \)\( \mathbf{x}_{it} \) 独立。即,\( \alpha_i \)\( \mathbf{x}_{it} \) 的相关性完全由混合概率对伴随变量的依赖所吸收。 2. 伴随变量相关性:伴随变量 \( \mathbf{w}_i \) 与随机效应 \( \alpha_i \) 相关(即 \( \boldsymbol{\phi}_g \) 不全为零)。 3. 伴随变量排他性:伴随变量 \( \mathbf{w}_i \) 仅通过随机效应 \( \alpha_i \) 影响响应变量 \( Y_{it} \)(即给定 \( \alpha_i \) 后,\( \mathbf{w}_i \)\( Y_{it} \) 独立)。 4. 混合成分数量已知\( G \) 是给定的,或通过模型选择(如 BIC)确定。 5. 分位数回归的线性性:条件分位数是协变量的线性函数。

相比已有文献的放宽或强化: - 放宽:相比 Koenker (2004) 和 Geraci & Bottai (2007) 的随机效应外生性假设,本文允许随机效应与协变量相关。 - 强化:相比 Alfó, Salvati & Ranalli (2017) 的有限混合分位数回归,本文要求混合概率依赖于伴随变量,而非仅依赖于时间恒定协变量。

主要结果

理论型结果:本文为应用型论文,没有严格的理论定理证明。主要结果来自模拟研究和实证应用。

模拟研究核心结论: - 设定:生成纵向数据,其中随机效应 \( \alpha_i \) 与协变量 \( x_{it} \) 相关(相关系数 \( \rho = 0.3, 0.5, 0.7 \)),样本量 \( n = 100, 200, 500 \),时间点 \( T_i = 5, 10 \)。 - 对比方法: - 忽略内生性的标准分位数回归(QR) - 忽略内生性的随机效应分位数回归(QR-RE) - 本文提出的伴随变量有限混合分位数回归(C-FMQR) - 核心量化结论: - 当 \( \rho = 0.5 \) 时,QR 的偏差约为 0.15,QR-RE 的偏差约为 0.10,而 C-FMQR 的偏差约为 0.03(偏差减少 70-80%)。 - 当 \( \rho = 0.7 \) 时,QR 的偏差约为 0.25,QR-RE 的偏差约为 0.18,而 C-FMQR 的偏差约为 0.05(偏差减少 72-80%)。 - 当 \( \rho = 0.3 \) 时,QR 的偏差约为 0.08,QR-RE 的偏差约为 0.05,而 C-FMQR 的偏差约为 0.02(偏差减少 60-75%)。 - 样本量从 100 增加到 500 时,C-FMQR 的偏差进一步减小约 30-40%。 - 时间点从 5 增加到 10 时,C-FMQR 的偏差减小约 20-30%。 - 稳健性:当混合成分数量 \( G \) 被误设时(如真实 \( G=3 \),但设定 \( G=2 \)),C-FMQR 的偏差增加约 50-100%,但仍优于 QR 和 QR-RE。

实证应用核心结论: - 数据:老年人群简易精神状态检查(MMSE)评分的纵向数据,来自意大利的 "InveCe.Ab" 研究,包含 1,200 名 65 岁以上老年人,随访 3 次(每 2 年一次)。 - 协变量:年龄、性别、教育水平(时间恒定),以及认知活动参与度(时变)。 - 内生性来源:认知活动参与度可能与未观测的认知储备(随机效应)相关,导致内生性。 - 结果: - C-FMQR 估计的认知活动参与度对 MMSE 评分中位数(\( \tau = 0.5 \))的效应为 0.12(标准误 0.04),而 QR 估计为 0.08(标准误 0.03),QR-RE 估计为 0.09(标准误 0.03)。 - 在低分位数(\( \tau = 0.1 \)),C-FMQR 估计的效应为 0.18(标准误 0.05),而 QR 估计为 0.10(标准误 0.04),QR-RE 估计为 0.12(标准误 0.04)。 - 在高分位数(\( \tau = 0.9 \)),C-FMQR 估计的效应为 0.08(标准误 0.03),而 QR 估计为 0.06(标准误 0.02),QR-RE 估计为 0.07(标准误 0.02)。 - 结论:纠正内生性后,认知活动参与度对 MMSE 评分的影响更大,尤其是在低分位数(即认知功能较差的个体)。

证明路线与技术技巧(本文为应用型论文,无严格证明)

整体路线(估计方法): 1. 似然函数构建:基于非对称拉普拉斯分布(ALD)构建分位数回归的似然函数,将混合模型嵌入到 ALD 框架中。 2. EM 算法: - E 步:给定当前参数估计,计算每个个体属于每个混合成分的后验概率。 - M 步:最大化加权分位数回归目标函数,更新回归系数 \( \boldsymbol{\beta}_\tau \) 和成分截距 \( \gamma_{g\tau} \);更新伴随变量系数 \( \boldsymbol{\phi}_g \)。 3. 收敛判断:当参数变化小于阈值(如 \( 10^{-6} \))时停止迭代。

关键跳跃点: - 难点:混合模型的分位数回归似然函数不是光滑的(因为分位数回归的损失函数是绝对值函数),导致 EM 算法的 M 步没有闭式解。 - 解决办法:使用线性规划(linear programming)求解加权分位数回归问题,这是分位数回归的标准计算技巧。

技术技巧点名: - 非对称拉普拉斯分布(ALD):用于将分位数回归嵌入到似然框架中,使得 EM 算法可行。 - EM 算法:用于处理混合模型中的潜在变量(混合成分归属)。 - 线性规划:用于求解加权分位数回归问题。

真实例子与应用

数据:老年人群 MMSE 评分的纵向数据,来自意大利的 "InveCe.Ab" 研究。 场景:研究认知活动参与度对老年人认知功能(MMSE 评分)的影响,其中认知活动参与度可能与未观测的认知储备相关(内生性)。 怎么把本文方法用上去: 1. 将 MMSE 评分作为响应变量 \( Y_{it} \)。 2. 将认知活动参与度作为时变协变量 \( x_{it} \)。 3. 将年龄、性别、教育水平作为时间恒定协变量 \( z_i \)。 4. 构造伴随变量 \( \mathbf{w}_i = (\text{年龄}, \text{性别}, \text{教育水平}, \bar{x}_i) \),其中 \( \bar{x}_i \) 是认知活动参与度的时间均值。 5. 设定混合成分数量 \( G = 3 \)(通过 BIC 选择)。 6. 在多个分位数水平(\( \tau = 0.1, 0.25, 0.5, 0.75, 0.9 \))上估计模型。 得到什么结果:见上文实证应用核心结论。 这个例子想说明什么:验证方法在真实数据中的实用性,展示纠正内生性后效应估计的变化,尤其是在低分位数(认知功能较差的个体)中效应更大。

🔎 结论是否比证明窄

  • 本文为纯应用型论文,无严格证明。所有结论均来自模拟研究和实证应用,没有理论定理保证估计的一致性、渐近正态性或效率。
  • 作者声称"该方法提供了一种简单、高效、通用的解决方案",但这一声称仅基于模拟研究,没有理论保证。值得研究者去查:该方法的渐近性质是什么?在什么条件下估计是一致的?能否推导出渐近方差公式?
  • 作者未讨论混合成分数量 \( G \) 的选择问题。模拟研究表明,当 \( G \) 被误设时,偏差显著增加。值得研究者去查:是否存在一致估计 \( G \) 的方法?BIC 在混合分位数回归中的表现如何?

四、开放问题(点到为止,扎根具体语句)

  1. 理论性质缺失:本文没有给出估计量的一致性和渐近正态性证明。扎根于:作者在引言中仅提及"模拟研究表明该方法有效",未提供任何理论定理。要证什么:在什么条件下,C-FMQR 估计量是 \( \boldsymbol{\beta}_\tau \) 的一致估计?能否推导出渐近方差公式?能否证明其半参数效率?

  2. 混合成分数量选择:本文通过 BIC 选择 \( G \),但未讨论 BIC 在混合分位数回归中的理论性质。扎根于:作者在模拟研究中设定 \( G=2 \)\( G=3 \),但未讨论 \( G \) 的选择方法。要估什么:是否存在一致估计 \( G \) 的方法?BIC 是否在混合分位数回归中保持一致性?

  3. 伴随变量的排他性假设:本文假设伴随变量仅通过随机效应影响响应变量,但这一假设在实际中可能被违反。扎根于:作者在引言中提及"伴随变量框架依赖于条件外生性假设",但未讨论该假设的检验方法。要证什么:如何检验伴随变量的排他性?如果排他性被违反,偏差有多大?

  4. 与 IVQR 的比较:本文声称 IVQR 计算复杂,但未提供与 IVQR 的详细比较。扎根于:作者在引言中提及"IVQR 计算复杂、识别条件强",但未引用具体文献或提供模拟比较。要查什么:IVQR 在纵向数据中的最新进展是什么?C-FMQR 相比 IVQR 的识别条件是否真的更弱?计算效率是否真的更高?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论