Ratios in regression analysis with causal questions—response to commentary¶

作者: Mohammad Kamran Ikram, Jeremy A Labrecque, Mohammad Arfan Ikram
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1093/aje/kwaf249

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是流行病学因果推断中的变量操作化问题，具体聚焦于"比率变量"（ratio measures，如体质指数 BMI、肾小球滤过率 eGFR）在回归分析中被当作暴露或结局时，如何影响因果识别与估计。其核心张力在于：比率变量本质上是两个原始变量的"汇总"（summary measure），这种人为的数学组合可能破坏因果推断的核心假设（如一致性假设），或引入难以控制的混淆。这是一个方法论澄清与实践指南性质的领域，尚未形成完整的理论体系，更多是针对具体测量问题的讨论。

发展脉络¶

由于本文是一篇回应评论的短文，其引用文献较少，主要集中在被评论的原文与引发讨论的评论文章，但仍可勾勒出一条简短的线索：

引发讨论的实证研究：Mooldijk et al. (2024) —— 这是作者团队的原文，在流行病学队列研究中使用了比率变量（如 eGFR），引发了关于因果解释的质疑。该文代表了"常规使用比率变量"的典型实践。
评论与质疑：Commentary 作者（未在摘要中具名，引用为 [1]）—— 指出比率变量在因果框架下存在定义模糊、一致性假设难以满足等问题，认为存在"精确性与相关性/可估计性之间的权衡"。
本文的定位：Ikram et al. (本文) —— 作为对评论的回应，作者承认了权衡的存在，但辩护称比率变量并非特例，所有流行病学变量都是某种汇总；不过作者强调，比率变量因为涉及研究者"主动合并"（active lumping）或"盲目使用"（blindly using），需要格外审视一致性与残差混淆。

子线索聚类¶

这些讨论大致落在两条子线索上： - 变量定义与一致性假设：讨论如何定义暴露/结局，使得潜在结果框架下的"一致性假设"（即 \(Y(a)\) 在 \(A=a\) 时等于观测到的 \(Y\)）成立。比率变量因为涉及两个成分的数学运算，往往难以找到对应的物理干预，从而挑战一致性。 - 汇总度量与信息损失：讨论将多个变量合并为一个指标（如 BMI = weight/height\(^2\)）时，是否损失了成分变量的独立因果效应信息，以及这是否引入额外混淆。

这个方向在追问的核心问题¶

因果定义问题：当我们说"BMI 对血压的因果效应"时，干预的"把手"是什么？是同时改变体重和身高？还是只改变体重？比率变量的分母往往难以干预，导致因果问题定义不清。
识别假设的稳健性：在变量是"人为合并"的情况下，标准的无混淆假设是否还成立？合并过程是否引入了新的对撞因子或中介？
实践权衡：如果拆分成分变量不可行（数据不可得或维度灾难），研究者应如何在"使用比率变量但承担假设风险"与"放弃研究问题"之间抉择？

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将问题 frame 为"所有变量都是汇总度量，比率变量只是因为研究者'主动合并'而需要额外小心"。这一定位将问题从"比率变量在数学上不可用于因果推断"（较强的批评）弱化为"比率变量需要更仔细的假设审视"（实践性建议）。
被淡化或回避的路线：作者未讨论结构因果模型（SCM）中如何形式化处理比率变量（例如，将比率视为 \(F(A, B)\) 的确定性函数，并在 DAG 中显式建模），也未引用测量误差或代理变量的相关文献，这些文献可能提供比"小心审视"更具体的数学工具。
缺失的引用：Introduction 中未引用任何关于多成分干预或变量构成的经典因果推断文献（如 Didelez et al. 或 VanderWeele 关于复合暴露的工作），这可能是研究者可以去查证的 gap。

张力¶

未见明显对立引用。评论者与作者的主要分歧在于"风险程度"的判断：评论者暗示比率变量问题很大，作者则认为这是可控的权衡。

二、最核心、最简单的例子 / 数学问题¶

本文是方法论讨论文章，没有定理证明，但核心逻辑可以通过一个最小因果模型讲清楚。

第一步：符号、模型、可观测数据交代清楚¶

符号：
- \(A\)：分子变量，如体重。
- \(B\)：分母变量，如身高。
- \(R = A / B\)：比率变量，如 BMI。
- \(Y\)：结局变量，如心血管疾病风险。
- \(C\)：混淆变量集。
模型：因果结构假设。假设真实的因果结构是 \(A \to Y\) 和 \(B \to Y\)，且 \(A\) 与 \(B\) 可能受共同原因 \(C\) 影响。研究者感兴趣的"暴露"被定义为 \(R\)。
可观测数据：\((R, Y, C)\) 或 \((A, B, Y, C)\)。在"盲目使用"场景下，研究者可能只有 \((R, Y, C)\)，没有原始的 \(A, B\)。

第二步：讲最小内核¶

最简特例：BMI 与身高的"伪因果"

假设真实因果机制是：体重 \(A\) 影响 \(Y\)，身高 \(B\) 不影响 \(Y\)（即 \(B\) 对 \(Y\) 的因果效应为 0）。但研究者错误地将 \(R = A/B\) 作为暴露，拟合模型 \(Y \sim R + C\)。

问题出现：如果 \(B\) 与 \(A\) 相关（例如高个子的人平均体重也大），且 \(B\) 与 \(Y\) 相关（虽然因果效应为 0，但可能存在混淆或仅仅是数学上的关联），那么 \(R\) 的变化可能部分反映 \(B\) 的变化。
一致性假设失效：考虑潜在结果 \(Y(r)\)。要定义 \(Y(r)\)，必须明确如何达到 \(R=r\)。是通过增加 \(A\)？还是减少 \(B\)？如果干预手段是"增加体重"，那么 \(Y(r)\) 对应的是 \(Y(a)\)；如果干预手段是"缩短身高"（荒谬但在数学上成立），那么 \(Y(r)\) 对应的是另一种机制。比率变量掩盖了干预的具体机制，导致一致性假设 \(Y(r) = Y | R=r\) 在没有额外定义的情况下无法成立。
残差混淆：如果研究者只收集了 \(R\)，没有收集 \(B\)，而 \(B\) 实际上是 \(A\) 的混淆（例如基因同时影响身高和体重），那么在模型中控制 \(R\) 并不能阻断后门路径，因为 \(B\) 的信息被"折叠"进了 \(R\) 且无法还原。

本文的核心论点：作者指出，比率变量之所以比其他汇总变量（如"空气质量指数"）更棘手，是因为研究者主动选择了分子分母的组合方式，这种"主动合并"往往缺乏科学依据，且容易忽视分母变量的因果角色。

三、这篇论文做了什么¶

三句话¶

本文回应了关于"因果回归中使用比率变量"的评论，承认在变量定义的精确性与可估计性之间存在权衡。
核心论点是：比率变量因涉及研究者"主动合并"或"盲目使用"，比一般汇总变量更容易违反一致性假设或引入残差混淆。
结论是研究者应在权衡后，若决定使用比率变量，必须仔细审视一致性与混淆问题，以更清晰地构建因果问题。

关键设定与假设¶

本文没有统计模型设定，讨论基于因果推断的核心假设： - 一致性假设：这是讨论的核心。作者强调比率变量往往对应多种潜在干预方式，导致一致性假设难以自然满足。 - 残差混淆：指在模型中未能充分控制混淆变量。对于比率变量，如果成分变量（分子分母）有各自独立的混淆，合并后这些混淆结构可能变得模糊。

主要结果¶

本文为观点性回应，主要结论如下： 1. 承认权衡：同意评论者观点，即"更窄的变量定义更精确，但可能导致无限循环"（指不断拆解变量直到微观层面），因此实践中必须接受某种程度的汇总。 2. 区分比率变量的特殊性：虽然所有流行病学变量都是汇总度量，但比率变量有两种特殊情况需要警惕： - 主动合并：研究者自己把两个变量算成一个比率。此时研究者有责任论证为何这样合并是合理的，以及分母是否被恰当处理。 - 盲目使用：直接使用数据库中已有的比率变量（如 eGFR），而不去考察其成分。此时风险在于成分变量的因果结构完全未知。 3. 实践建议：作者并未禁止使用比率变量，而是强调"仔细思考"（careful thought）。这包括明确因果问题、检查一致性假设、评估残差混淆风险。

证明路线与技术技巧¶

不适用（本文无数学证明）。

真实例子与应用¶

例子：文中提及的背景例子是 Mooldijk et al. (2024) 的研究，涉及 肾小球滤过率（eGFR）。eGFR 是一个比率变量（通过血清肌酐、年龄、性别等计算得出）。
应用场景：在研究 eGFR 对某种疾病结局的因果效应时，eGFR 的分母（年龄、性别）本身可能也是结局的独立风险因素。如果直接把 eGFR 当作暴露，就相当于"控制"了年龄和性别的某种函数形式，这可能引入偏差（例如，如果年龄对疾病有非线性效应，简单的比率无法捕捉）。
说明什么：这个例子旨在说明"盲目使用"的风险——临床数据库里常见的指标往往是比率，研究者如果不拆解其成分，就可能误入歧途。

🔎 结论是否比证明窄¶

本文为观点性文章，无证明。但需注意，作者的结论"比率变量需要额外小心"是一个定性判断，并未提供定量的敏感性分析框架或形式化的识别条件。作者声称"这有助于研究者更清晰地构建因果问题"，但并未给出具体的操作清单，仅停留在原则性呼吁层面。

四、开放问题¶

本文留下了几个值得研究者深入挖掘的方向（均扎根于本文的局限性）：

形式化识别条件：作者指出比率变量可能导致一致性假设失效，但未给出形式化的识别条件——在什么样的 DAG 结构下，使用比率变量作为暴露是可以识别因果效应的？这可以转化为一个具体的因果识别问题：给定 \(A, B, Y\) 的因果图，何时 \(R = A/B\) 对 \(Y\) 的因果效应是可识别的？
- 扎根点：文中提到"careful thought to the consistency assumption... is required"，但未给出判定定理。
多成分干预的因果定义：比率变量本质上是多成分干预的特例。如何将多成分干预文献中的理论迁移过来，为比率变量提供更严谨的定义框架？
- 扎根点：文中提到"researcher is actively 'lumping' together various variables"，这正是多成分干预的核心难题，但作者未引用相关文献。
敏感性分析工具：既然残差混淆是主要风险，是否可以开发专门针对比率变量的敏感性分析方法？例如，如果分母变量存在未测量的混淆，对比率暴露的效应估计会产生多大偏差？
- 扎根点：文中提到"residual confounding is required"，但未提供量化工具。
测量误差视角：如果比率变量被视为真实成分变量的有噪测量或代理变量，如何用测量误差模型来修正估计？
- 扎根点：文中提到"blindly using a ratio measure that is available"，暗示数据可得性问题，这与测量误差框架直接相关，但作者未展开。

Maintained by 陈星宇 · Homepage · Source on GitHub