跳转至

Ratios in regression analysis with causal questions—response to commentary

作者: Mohammad Kamran Ikram, Jeremy A Labrecque, Mohammad Arfan Ikram
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1093/aje/kwaf249


一、领域脉络与小综述

这个方向是什么

这个子方向关注的是流行病学因果推断中的变量操作化问题,具体聚焦于"比率变量"(ratio measures,如体质指数 BMI、肾小球滤过率 eGFR)在回归分析中被当作暴露或结局时,如何影响因果识别与估计。其核心张力在于:比率变量本质上是两个原始变量的"汇总"(summary measure),这种人为的数学组合可能破坏因果推断的核心假设(如一致性假设),或引入难以控制的混淆。这是一个方法论澄清与实践指南性质的领域,尚未形成完整的理论体系,更多是针对具体测量问题的讨论。

发展脉络

由于本文是一篇回应评论的短文,其引用文献较少,主要集中在被评论的原文与引发讨论的评论文章,但仍可勾勒出一条简短的线索:

  1. 引发讨论的实证研究:Mooldijk et al. (2024) —— 这是作者团队的原文,在流行病学队列研究中使用了比率变量(如 eGFR),引发了关于因果解释的质疑。该文代表了"常规使用比率变量"的典型实践。
  2. 评论与质疑:Commentary 作者(未在摘要中具名,引用为 [1])—— 指出比率变量在因果框架下存在定义模糊、一致性假设难以满足等问题,认为存在"精确性与相关性/可估计性之间的权衡"。
  3. 本文的定位:Ikram et al. (本文) —— 作为对评论的回应,作者承认了权衡的存在,但辩护称比率变量并非特例,所有流行病学变量都是某种汇总;不过作者强调,比率变量因为涉及研究者"主动合并"(active lumping)或"盲目使用"(blindly using),需要格外审视一致性与残差混淆。

子线索聚类

这些讨论大致落在两条子线索上: - 变量定义与一致性假设:讨论如何定义暴露/结局,使得潜在结果框架下的"一致性假设"(即 \(Y(a)\)\(A=a\) 时等于观测到的 \(Y\))成立。比率变量因为涉及两个成分的数学运算,往往难以找到对应的物理干预,从而挑战一致性。 - 汇总度量与信息损失:讨论将多个变量合并为一个指标(如 BMI = weight/height\(^2\))时,是否损失了成分变量的独立因果效应信息,以及这是否引入额外混淆。

这个方向在追问的核心问题

  1. 因果定义问题:当我们说"BMI 对血压的因果效应"时,干预的"把手"是什么?是同时改变体重和身高?还是只改变体重?比率变量的分母往往难以干预,导致因果问题定义不清。
  2. 识别假设的稳健性:在变量是"人为合并"的情况下,标准的无混淆假设是否还成立?合并过程是否引入了新的对撞因子或中介?
  3. 实践权衡:如果拆分成分变量不可行(数据不可得或维度灾难),研究者应如何在"使用比率变量但承担假设风险"与"放弃研究问题"之间抉择?

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者将问题 frame 为"所有变量都是汇总度量,比率变量只是因为研究者'主动合并'而需要额外小心"。这一定位将问题从"比率变量在数学上不可用于因果推断"(较强的批评)弱化为"比率变量需要更仔细的假设审视"(实践性建议)。
  • 被淡化或回避的路线:作者未讨论结构因果模型(SCM)中如何形式化处理比率变量(例如,将比率视为 \(F(A, B)\) 的确定性函数,并在 DAG 中显式建模),也未引用测量误差代理变量的相关文献,这些文献可能提供比"小心审视"更具体的数学工具。
  • 缺失的引用:Introduction 中未引用任何关于多成分干预变量构成的经典因果推断文献(如 Didelez et al. 或 VanderWeele 关于复合暴露的工作),这可能是研究者可以去查证的 gap。

张力

未见明显对立引用。评论者与作者的主要分歧在于"风险程度"的判断:评论者暗示比率变量问题很大,作者则认为这是可控的权衡。


二、最核心、最简单的例子 / 数学问题

本文是方法论讨论文章,没有定理证明,但核心逻辑可以通过一个最小因果模型讲清楚。

第一步:符号、模型、可观测数据交代清楚

  • 符号
    • \(A\):分子变量,如体重。
    • \(B\):分母变量,如身高。
    • \(R = A / B\):比率变量,如 BMI。
    • \(Y\):结局变量,如心血管疾病风险。
    • \(C\):混淆变量集。
  • 模型:因果结构假设。假设真实的因果结构是 \(A \to Y\)\(B \to Y\),且 \(A\)\(B\) 可能受共同原因 \(C\) 影响。研究者感兴趣的"暴露"被定义为 \(R\)
  • 可观测数据\((R, Y, C)\)\((A, B, Y, C)\)。在"盲目使用"场景下,研究者可能只有 \((R, Y, C)\),没有原始的 \(A, B\)

第二步:讲最小内核

最简特例:BMI 与身高的"伪因果"

假设真实因果机制是:体重 \(A\) 影响 \(Y\),身高 \(B\) 不影响 \(Y\)(即 \(B\)\(Y\) 的因果效应为 0)。但研究者错误地将 \(R = A/B\) 作为暴露,拟合模型 \(Y \sim R + C\)

  • 问题出现:如果 \(B\)\(A\) 相关(例如高个子的人平均体重也大),且 \(B\)\(Y\) 相关(虽然因果效应为 0,但可能存在混淆或仅仅是数学上的关联),那么 \(R\) 的变化可能部分反映 \(B\) 的变化。
  • 一致性假设失效:考虑潜在结果 \(Y(r)\)。要定义 \(Y(r)\),必须明确如何达到 \(R=r\)。是通过增加 \(A\)?还是减少 \(B\)?如果干预手段是"增加体重",那么 \(Y(r)\) 对应的是 \(Y(a)\);如果干预手段是"缩短身高"(荒谬但在数学上成立),那么 \(Y(r)\) 对应的是另一种机制。比率变量掩盖了干预的具体机制,导致一致性假设 \(Y(r) = Y | R=r\) 在没有额外定义的情况下无法成立。
  • 残差混淆:如果研究者只收集了 \(R\),没有收集 \(B\),而 \(B\) 实际上是 \(A\) 的混淆(例如基因同时影响身高和体重),那么在模型中控制 \(R\) 并不能阻断后门路径,因为 \(B\) 的信息被"折叠"进了 \(R\) 且无法还原。

本文的核心论点:作者指出,比率变量之所以比其他汇总变量(如"空气质量指数")更棘手,是因为研究者主动选择了分子分母的组合方式,这种"主动合并"往往缺乏科学依据,且容易忽视分母变量的因果角色。


三、这篇论文做了什么

三句话

  1. 本文回应了关于"因果回归中使用比率变量"的评论,承认在变量定义的精确性与可估计性之间存在权衡。
  2. 核心论点是:比率变量因涉及研究者"主动合并"或"盲目使用",比一般汇总变量更容易违反一致性假设或引入残差混淆。
  3. 结论是研究者应在权衡后,若决定使用比率变量,必须仔细审视一致性与混淆问题,以更清晰地构建因果问题。

关键设定与假设

本文没有统计模型设定,讨论基于因果推断的核心假设: - 一致性假设:这是讨论的核心。作者强调比率变量往往对应多种潜在干预方式,导致一致性假设难以自然满足。 - 残差混淆:指在模型中未能充分控制混淆变量。对于比率变量,如果成分变量(分子分母)有各自独立的混淆,合并后这些混淆结构可能变得模糊。

主要结果

本文为观点性回应,主要结论如下: 1. 承认权衡:同意评论者观点,即"更窄的变量定义更精确,但可能导致无限循环"(指不断拆解变量直到微观层面),因此实践中必须接受某种程度的汇总。 2. 区分比率变量的特殊性:虽然所有流行病学变量都是汇总度量,但比率变量有两种特殊情况需要警惕: - 主动合并:研究者自己把两个变量算成一个比率。此时研究者有责任论证为何这样合并是合理的,以及分母是否被恰当处理。 - 盲目使用:直接使用数据库中已有的比率变量(如 eGFR),而不去考察其成分。此时风险在于成分变量的因果结构完全未知。 3. 实践建议:作者并未禁止使用比率变量,而是强调"仔细思考"(careful thought)。这包括明确因果问题、检查一致性假设、评估残差混淆风险。

证明路线与技术技巧

不适用(本文无数学证明)。

真实例子与应用

  • 例子:文中提及的背景例子是 Mooldijk et al. (2024) 的研究,涉及 肾小球滤过率(eGFR)。eGFR 是一个比率变量(通过血清肌酐、年龄、性别等计算得出)。
  • 应用场景:在研究 eGFR 对某种疾病结局的因果效应时,eGFR 的分母(年龄、性别)本身可能也是结局的独立风险因素。如果直接把 eGFR 当作暴露,就相当于"控制"了年龄和性别的某种函数形式,这可能引入偏差(例如,如果年龄对疾病有非线性效应,简单的比率无法捕捉)。
  • 说明什么:这个例子旨在说明"盲目使用"的风险——临床数据库里常见的指标往往是比率,研究者如果不拆解其成分,就可能误入歧途。

🔎 结论是否比证明窄

本文为观点性文章,无证明。但需注意,作者的结论"比率变量需要额外小心"是一个定性判断,并未提供定量的敏感性分析框架或形式化的识别条件。作者声称"这有助于研究者更清晰地构建因果问题",但并未给出具体的操作清单,仅停留在原则性呼吁层面。


四、开放问题

本文留下了几个值得研究者深入挖掘的方向(均扎根于本文的局限性):

  1. 形式化识别条件:作者指出比率变量可能导致一致性假设失效,但未给出形式化的识别条件——在什么样的 DAG 结构下,使用比率变量作为暴露是可以识别因果效应的?这可以转化为一个具体的因果识别问题:给定 \(A, B, Y\) 的因果图,何时 \(R = A/B\)\(Y\) 的因果效应是可识别的?

    • 扎根点:文中提到"careful thought to the consistency assumption... is required",但未给出判定定理。
  2. 多成分干预的因果定义:比率变量本质上是多成分干预的特例。如何将多成分干预文献中的理论迁移过来,为比率变量提供更严谨的定义框架?

    • 扎根点:文中提到"researcher is actively 'lumping' together various variables",这正是多成分干预的核心难题,但作者未引用相关文献。
  3. 敏感性分析工具:既然残差混淆是主要风险,是否可以开发专门针对比率变量的敏感性分析方法?例如,如果分母变量存在未测量的混淆,对比率暴露的效应估计会产生多大偏差?

    • 扎根点:文中提到"residual confounding is required",但未提供量化工具。
  4. 测量误差视角:如果比率变量被视为真实成分变量的有噪测量代理变量,如何用测量误差模型来修正估计?

    • 扎根点:文中提到"blindly using a ratio measure that is available",暗示数据可得性问题,这与测量误差框架直接相关,但作者未展开。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论