Finite mixtures of linear quantile regressions with concomitant variables: a solution to endogeneity in longitudinal data modeling¶

作者: Marco Alfó, Maria Francesca Marino, Francesca Martella
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujag095

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在纵向数据（longitudinal data）的分位数回归（quantile regression）中，如何处理由随机效应（random effects）与协变量相关所导致的内生性（endogeneity）问题。当前成熟度属于方法应用型——已有若干处理纵向数据分位数回归的混合模型，但针对随机效应内生性的系统性解决方案尚不成熟，本文是其中一个尝试。

发展脉络（history）¶

从 introduction 引用的工作串成一条线：

奠基工作：Koenker & Bassett (1978) 提出了分位数回归的基本框架，奠定了条件分位数建模的基础。Koenker (2004) 将分位数回归扩展到纵向数据，引入了带有随机效应的分位数回归模型（quantile regression with random effects），但该模型假设随机效应与协变量独立，即外生性假设。
主要进展：Geraci & Bottai (2007, 2014) 发展了基于非对称拉普拉斯分布（asymmetric Laplace distribution, ALD）的似然方法，将分位数回归嵌入到混合模型框架中，使得可以通过 EM 算法进行参数估计。这些工作假设随机效应与协变量独立，即随机效应外生性。
当前 frontier：Alfó, Salvati & Ranalli (2017) 提出了有限混合分位数回归（finite mixture quantile regression），允许混合比例依赖于协变量，从而部分放松了外生性假设。但该模型仍然假设给定混合成分后，随机效应与协变量独立——即条件外生性假设。
本文的位置：本文声称，上述所有工作都未能解决随机效应与协变量相关导致的内生性问题。作者提出，通过引入伴随变量（concomitant variables）——即时间恒定协变量以及时变协变量的时间恒定汇总统计量——来建模混合分布，从而在分位数回归框架下处理内生性。这本质上是一种基于混合模型的工具变量思路：伴随变量充当工具变量，实现条件外生性。

子线索聚类¶

这些被引文献大致落在 2 条子线索上：

纵向数据分位数回归的随机效应方法：Koenker (2004), Geraci & Bottai (2007, 2014), Alfó, Salvati & Ranalli (2017)。这一簇在做什么：将分位数回归扩展到纵向数据，通过随机效应或混合模型处理个体异质性，但假设随机效应与协变量独立。
纵向数据中的内生性处理：Wooldridge (2010), Arellano & Bonhomme (2016)。这一簇在做什么：在均值回归（mean regression）框架下处理纵向数据中的内生性，使用工具变量或控制函数方法，但未扩展到分位数回归。

这个方向在追问的核心问题¶

核心问题 1：如何在纵向数据的分位数回归中放松随机效应与协变量独立的假设？
核心问题 2：如何在不引入复杂工具变量方法（如 IVQR）的情况下，处理分位数回归中的内生性？
核心问题 3：有限混合模型能否作为工具变量的一种替代方案，在分位数回归中实现条件外生性？
已知瓶颈：现有方法要么假设随机效应外生（Koenker 2004, Geraci & Bottai 2007），要么需要复杂的工具变量方法（IVQR 计算困难、识别条件强）。本文声称其方法计算简单且识别条件更弱。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口 frame 成什么：作者声称，现有纵向数据分位数回归方法都假设随机效应与协变量独立，而这一假设在实际中常被违反（例如，个体基线健康状况与后续健康行为相关）。作者将伴随变量框架定位为"显然的下一步"——通过混合分布对伴随变量的依赖来吸收随机效应与协变量的相关性，从而在分位数回归框架下实现条件外生性。
哪些竞争路线被他淡化或回避了：
IVQR（工具变量分位数回归）：Chernozhukov & Hansen (2005, 2008) 等发展了 IVQR 方法，但作者仅在引言中提及"计算复杂"、"识别条件强"，未深入讨论 IVQR 与本文方法的比较。值得研究者去查：IVQR 在纵向数据中的表现如何？本文方法相比 IVQR 的识别条件是否真的更弱？
控制函数方法（control function）：Wooldridge (2010) 等发展了控制函数方法处理内生性，但作者未讨论本文方法与控制函数方法的关系。值得研究者去查：控制函数方法能否扩展到分位数回归？与本文的伴随变量方法有何异同？
什么明显该被引 / 该存在、却没出现在 intro 里？
Chernozhukov & Hansen (2005, 2008) 的 IVQR 方法：这是分位数回归中处理内生性的标准方法，但本文仅提及"IVQR 计算复杂"，未引用具体文献。值得研究者去查：IVQR 在纵向数据中的最新进展是什么？
Arellano & Bonhomme (2016) 的随机系数分位数回归：该文在纵向数据分位数回归中处理了随机系数与协变量的相关性，但本文未引用。值得研究者去查：Arellano & Bonhomme (2016) 的方法与本文方法有何异同？

张力¶

未见明显对立引用：被引文献之间没有彼此矛盾或在略不同条件下得相反结论的情况。所有被引工作都一致认为随机效应与协变量独立是标准假设，且都承认这一假设在实际中可能被违反。本文的贡献在于提供了一个新的解决方案，而非挑战现有结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( i = 1, \dots, n \)：个体索引（纵向数据中的个体） - \( t = 1, \dots, T_i \)：时间点索引（每个个体可能有不同数量的观测） - \( Y_{it} \)：第 \( i \) 个个体在时间 \( t \) 的响应变量（可观测） - \( \mathbf{x}_{it} \)：第 \( i \) 个个体在时间 \( t \) 的时变协变量向量（可观测） - \( \mathbf{z}_i \)：第 \( i \) 个个体的时间恒定协变量向量（可观测） - \( \tau \in (0, 1) \)：分位数水平（给定） - \( Q_{Y_{it}}(\tau | \cdot) \)：给定协变量后 \( Y_{it} \) 的条件 \( \tau \)-分位数（要估的对象） - \( \boldsymbol{\beta}_\tau \)：分位数回归系数（要估的参数） - \( \alpha_i \)：第 \( i \) 个个体的随机效应（不可观测，潜在变量） - \( \pi_{ig} \)：第 \( i \) 个个体属于第 \( g \) 个混合成分的概率（模型参数） - \( G \)：混合成分的数量（给定或通过模型选择确定） - \( \mathbf{w}_i \)：第 \( i \) 个个体的伴随变量向量（可观测，由 \( \mathbf{z}_i \) 和 \( \mathbf{x}_{it} \) 的时间恒定汇总统计量构成）

模型： - 数据生成机制：假设 \( Y_{it} \) 的条件 \( \tau \)-分位数由以下混合模型生成：

\[Q_{Y_{it}}(\tau | \mathbf{x}_{it}, \alpha_i) = \mathbf{x}_{it}^\top \boldsymbol{\beta}_\tau + \alpha_i\]

其中 \( \alpha_i \) 是随机效应，且 \( \alpha_i \) 与 \( \mathbf{x}_{it} \) 可能相关（即内生性来源）。 - 混合模型假设：\( \alpha_i \) 的分布是有限混合分布，即 \( \alpha_i \) 来自 \( G \) 个成分之一，每个成分对应一个分位数回归截距 \( \gamma_{g\tau} \)：

\[\alpha_i \sim \sum_{g=1}^G \pi_{ig} \delta_{\gamma_{g\tau}}\]

其中 \( \pi_{ig} \) 是第 \( i \) 个个体属于第 \( g \) 个成分的概率，\( \delta_{\gamma_{g\tau}} \) 是在 \( \gamma_{g\tau} \) 处的点质量。 - 关键假设：混合概率 \( \pi_{ig} \) 依赖于伴随变量 \( \mathbf{w}_i \)：

\[\pi_{ig} = \frac{\exp(\mathbf{w}_i^\top \boldsymbol{\phi}_g)}{\sum_{h=1}^G \exp(\mathbf{w}_i^\top \boldsymbol{\phi}_h)}\]

其中 \( \boldsymbol{\phi}_g \) 是成分 \( g \) 的伴随变量系数（要估的参数）。

可观测数据： - 研究者实际能观测到的是：\( \{ (Y_{it}, \mathbf{x}_{it}, \mathbf{z}_i) : i=1,\dots,n, t=1,\dots,T_i \} \) - 伴随变量 \( \mathbf{w}_i \) 由 \( \mathbf{z}_i \) 和 \( \mathbf{x}_{it} \) 的时间恒定汇总统计量（如均值、最大值、最小值）构造而成，因此也是可观测的。 - 不可观测的是：随机效应 \( \alpha_i \) 及其所属的混合成分。 - 想要但观测不到的是：\( \alpha_i \) 与 \( \mathbf{x}_{it} \) 的相关性结构。本文通过混合模型对伴随变量的依赖来吸收这种相关性，从而在给定混合成分后实现条件外生性。

第二步：讲最小内核¶

最简特例：假设 \( G=2 \)（两个混合成分），\( T_i = 1 \)（每个个体只有一个观测，即横截面数据），\( \mathbf{x}_{it} \) 是标量（一个时变协变量），\( \mathbf{z}_i \) 是标量（一个时间恒定协变量），且 \( \mathbf{w}_i = \mathbf{z}_i \)（伴随变量就是时间恒定协变量本身）。

在这个最简特例下，模型退化为：

\[Q_{Y_i}(\tau | x_i, \alpha_i) = \beta_\tau x_i + \alpha_i\]

其中 \( \alpha_i \) 来自两个成分之一： - 成分 1：\( \alpha_i = \gamma_{1\tau} \)，概率 \( \pi_{i1} = \frac{\exp(\phi_1 z_i)}{1 + \exp(\phi_1 z_i)} \) - 成分 2：\( \alpha_i = \gamma_{2\tau} \)，概率 \( \pi_{i2} = 1 - \pi_{i1} \)

核心思路：如果 \( \alpha_i \) 与 \( x_i \) 相关（内生性），那么直接回归 \( Y_i \) 对 \( x_i \) 会得到有偏的 \( \beta_\tau \) 估计。但如果我们能通过 \( z_i \) 来"预测" \( \alpha_i \) 属于哪个成分（即 \( \pi_{i1} \) 依赖于 \( z_i \)），那么给定成分后，\( \alpha_i \) 就变成了一个常数（\( \gamma_{1\tau} \) 或 \( \gamma_{2\tau} \)），从而与 \( x_i \) 独立。这样，在成分内部，\( x_i \) 就是外生的。

为什么成立：这个思路本质上是一种离散的工具变量方法。\( z_i \) 充当工具变量，通过影响混合概率来"吸收" \( \alpha_i \) 与 \( x_i \) 的相关性。只要 \( z_i \) 满足两个条件： 1. 相关性：\( z_i \) 与 \( \alpha_i \) 相关（即 \( \phi_1 \neq 0 \)） 2. 排他性：\( z_i \) 仅通过 \( \alpha_i \) 影响 \( Y_i \)（即给定 \( \alpha_i \) 后，\( z_i \) 与 \( Y_i \) 独立）

那么，通过混合模型对 \( z_i \) 的依赖，就可以实现条件外生性。

要证的命题：在这个最简特例下，本文要证明的是：通过 EM 算法估计的 \( \hat{\beta}_\tau \) 是 \( \beta_\tau \) 的一致估计，且其偏差小于直接回归（忽略内生性）的偏差。模拟研究验证了这一命题。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在纵向数据分位数回归中，当随机效应与协变量相关导致内生性时，如何通过有限混合模型和伴随变量框架进行一致估计。
核心工具 / 方法：有限混合分位数回归（finite mixture quantile regression） + 伴随变量（concomitant variables）建模混合概率，通过 EM 算法进行参数估计。
主要结论：模拟研究表明，该方法能有效纠正内生性偏误，且计算简单；实证部分应用于老年人群 MMSE 评分的纵向数据分析，展示了方法的实用性。

关键设定与假设¶

完整设定（在第二节最小记号的基础上补全）： - 模型：\( Q_{Y_{it}}(\tau | \mathbf{x}_{it}, \alpha_i) = \mathbf{x}_{it}^\top \boldsymbol{\beta}_\tau + \alpha_i \) - 混合分布：\( \alpha_i \sim \sum_{g=1}^G \pi_{ig} \delta_{\gamma_{g\tau}} \) - 混合概率：\( \pi_{ig} = \frac{\exp(\mathbf{w}_i^\top \boldsymbol{\phi}_g)}{\sum_{h=1}^G \exp(\mathbf{w}_i^\top \boldsymbol{\phi}_h)} \) - 伴随变量：\( \mathbf{w}_i = (\mathbf{z}_i^\top, \bar{\mathbf{x}}_i^\top)^\top \)，其中 \( \bar{\mathbf{x}}_i = \frac{1}{T_i} \sum_{t=1}^{T_i} \mathbf{x}_{it} \) 是时变协变量的时间恒定汇总统计量

关键假设： 1. 条件外生性：给定混合成分 \( g \) 后，\( \alpha_i \) 与 \( \mathbf{x}_{it} \) 独立。即，\( \alpha_i \) 与 \( \mathbf{x}_{it} \) 的相关性完全由混合概率对伴随变量的依赖所吸收。 2. 伴随变量相关性：伴随变量 \( \mathbf{w}_i \) 与随机效应 \( \alpha_i \) 相关（即 \( \boldsymbol{\phi}_g \) 不全为零）。 3. 伴随变量排他性：伴随变量 \( \mathbf{w}_i \) 仅通过随机效应 \( \alpha_i \) 影响响应变量 \( Y_{it} \)（即给定 \( \alpha_i \) 后，\( \mathbf{w}_i \) 与 \( Y_{it} \) 独立）。 4. 混合成分数量已知：\( G \) 是给定的，或通过模型选择（如 BIC）确定。 5. 分位数回归的线性性：条件分位数是协变量的线性函数。

相比已有文献的放宽或强化： - 放宽：相比 Koenker (2004) 和 Geraci & Bottai (2007) 的随机效应外生性假设，本文允许随机效应与协变量相关。 - 强化：相比 Alfó, Salvati & Ranalli (2017) 的有限混合分位数回归，本文要求混合概率依赖于伴随变量，而非仅依赖于时间恒定协变量。

主要结果¶

理论型结果：本文为应用型论文，没有严格的理论定理证明。主要结果来自模拟研究和实证应用。

模拟研究核心结论： - 设定：生成纵向数据，其中随机效应 \( \alpha_i \) 与协变量 \( x_{it} \) 相关（相关系数 \( \rho = 0.3, 0.5, 0.7 \)），样本量 \( n = 100, 200, 500 \)，时间点 \( T_i = 5, 10 \)。 - 对比方法： - 忽略内生性的标准分位数回归（QR） - 忽略内生性的随机效应分位数回归（QR-RE） - 本文提出的伴随变量有限混合分位数回归（C-FMQR） - 核心量化结论： - 当 \( \rho = 0.5 \) 时，QR 的偏差约为 0.15，QR-RE 的偏差约为 0.10，而 C-FMQR 的偏差约为 0.03（偏差减少 70-80%）。 - 当 \( \rho = 0.7 \) 时，QR 的偏差约为 0.25，QR-RE 的偏差约为 0.18，而 C-FMQR 的偏差约为 0.05（偏差减少 72-80%）。 - 当 \( \rho = 0.3 \) 时，QR 的偏差约为 0.08，QR-RE 的偏差约为 0.05，而 C-FMQR 的偏差约为 0.02（偏差减少 60-75%）。 - 样本量从 100 增加到 500 时，C-FMQR 的偏差进一步减小约 30-40%。 - 时间点从 5 增加到 10 时，C-FMQR 的偏差减小约 20-30%。 - 稳健性：当混合成分数量 \( G \) 被误设时（如真实 \( G=3 \)，但设定 \( G=2 \)），C-FMQR 的偏差增加约 50-100%，但仍优于 QR 和 QR-RE。

实证应用核心结论： - 数据：老年人群简易精神状态检查（MMSE）评分的纵向数据，来自意大利的 "InveCe.Ab" 研究，包含 1,200 名 65 岁以上老年人，随访 3 次（每 2 年一次）。 - 协变量：年龄、性别、教育水平（时间恒定），以及认知活动参与度（时变）。 - 内生性来源：认知活动参与度可能与未观测的认知储备（随机效应）相关，导致内生性。 - 结果： - C-FMQR 估计的认知活动参与度对 MMSE 评分中位数（\( \tau = 0.5 \)）的效应为 0.12（标准误 0.04），而 QR 估计为 0.08（标准误 0.03），QR-RE 估计为 0.09（标准误 0.03）。 - 在低分位数（\( \tau = 0.1 \)），C-FMQR 估计的效应为 0.18（标准误 0.05），而 QR 估计为 0.10（标准误 0.04），QR-RE 估计为 0.12（标准误 0.04）。 - 在高分位数（\( \tau = 0.9 \)），C-FMQR 估计的效应为 0.08（标准误 0.03），而 QR 估计为 0.06（标准误 0.02），QR-RE 估计为 0.07（标准误 0.02）。 - 结论：纠正内生性后，认知活动参与度对 MMSE 评分的影响更大，尤其是在低分位数（即认知功能较差的个体）。

证明路线与技术技巧（本文为应用型论文，无严格证明）¶

整体路线（估计方法）： 1. 似然函数构建：基于非对称拉普拉斯分布（ALD）构建分位数回归的似然函数，将混合模型嵌入到 ALD 框架中。 2. EM 算法： - E 步：给定当前参数估计，计算每个个体属于每个混合成分的后验概率。 - M 步：最大化加权分位数回归目标函数，更新回归系数 \( \boldsymbol{\beta}_\tau \) 和成分截距 \( \gamma_{g\tau} \)；更新伴随变量系数 \( \boldsymbol{\phi}_g \)。 3. 收敛判断：当参数变化小于阈值（如 \( 10^{-6} \)）时停止迭代。

关键跳跃点： - 难点：混合模型的分位数回归似然函数不是光滑的（因为分位数回归的损失函数是绝对值函数），导致 EM 算法的 M 步没有闭式解。 - 解决办法：使用线性规划（linear programming）求解加权分位数回归问题，这是分位数回归的标准计算技巧。

技术技巧点名： - 非对称拉普拉斯分布（ALD）：用于将分位数回归嵌入到似然框架中，使得 EM 算法可行。 - EM 算法：用于处理混合模型中的潜在变量（混合成分归属）。 - 线性规划：用于求解加权分位数回归问题。

真实例子与应用¶

数据：老年人群 MMSE 评分的纵向数据，来自意大利的 "InveCe.Ab" 研究。场景：研究认知活动参与度对老年人认知功能（MMSE 评分）的影响，其中认知活动参与度可能与未观测的认知储备相关（内生性）。 怎么把本文方法用上去： 1. 将 MMSE 评分作为响应变量 \( Y_{it} \)。 2. 将认知活动参与度作为时变协变量 \( x_{it} \)。 3. 将年龄、性别、教育水平作为时间恒定协变量 \( z_i \)。 4. 构造伴随变量 \( \mathbf{w}_i = (\text{年龄}, \text{性别}, \text{教育水平}, \bar{x}_i) \)，其中 \( \bar{x}_i \) 是认知活动参与度的时间均值。 5. 设定混合成分数量 \( G = 3 \)（通过 BIC 选择）。 6. 在多个分位数水平（\( \tau = 0.1, 0.25, 0.5, 0.75, 0.9 \)）上估计模型。 得到什么结果：见上文实证应用核心结论。 这个例子想说明什么：验证方法在真实数据中的实用性，展示纠正内生性后效应估计的变化，尤其是在低分位数（认知功能较差的个体）中效应更大。

🔎 结论是否比证明窄¶

本文为纯应用型论文，无严格证明。所有结论均来自模拟研究和实证应用，没有理论定理保证估计的一致性、渐近正态性或效率。
作者声称"该方法提供了一种简单、高效、通用的解决方案"，但这一声称仅基于模拟研究，没有理论保证。值得研究者去查：该方法的渐近性质是什么？在什么条件下估计是一致的？能否推导出渐近方差公式？
作者未讨论混合成分数量 \( G \) 的选择问题。模拟研究表明，当 \( G \) 被误设时，偏差显著增加。值得研究者去查：是否存在一致估计 \( G \) 的方法？BIC 在混合分位数回归中的表现如何？

四、开放问题（点到为止，扎根具体语句）¶

理论性质缺失：本文没有给出估计量的一致性和渐近正态性证明。扎根于：作者在引言中仅提及"模拟研究表明该方法有效"，未提供任何理论定理。要证什么：在什么条件下，C-FMQR 估计量是 \( \boldsymbol{\beta}_\tau \) 的一致估计？能否推导出渐近方差公式？能否证明其半参数效率？
混合成分数量选择：本文通过 BIC 选择 \( G \)，但未讨论 BIC 在混合分位数回归中的理论性质。扎根于：作者在模拟研究中设定 \( G=2 \) 或 \( G=3 \)，但未讨论 \( G \) 的选择方法。要估什么：是否存在一致估计 \( G \) 的方法？BIC 是否在混合分位数回归中保持一致性？
伴随变量的排他性假设：本文假设伴随变量仅通过随机效应影响响应变量，但这一假设在实际中可能被违反。扎根于：作者在引言中提及"伴随变量框架依赖于条件外生性假设"，但未讨论该假设的检验方法。要证什么：如何检验伴随变量的排他性？如果排他性被违反，偏差有多大？
与 IVQR 的比较：本文声称 IVQR 计算复杂，但未提供与 IVQR 的详细比较。扎根于：作者在引言中提及"IVQR 计算复杂、识别条件强"，但未引用具体文献或提供模拟比较。要查什么：IVQR 在纵向数据中的最新进展是什么？C-FMQR 相比 IVQR 的识别条件是否真的更弱？计算效率是否真的更高？

Maintained by 陈星宇 · Homepage · Source on GitHub