Correcting for a Baseline Difference in Group Comparisons on a Binary Outcome: Covariate Adjustment or Analysis of Change?¶

作者: Gerard J. P. Van Breukelen
来源: Statistics in Medicine
主题: 因果推断
相关性: 6/10
链接: https://doi.org/10.1002/sim.70549

一、领域脉络与小综述¶

这个方向是什么¶

本方向的根本问题是：在非随机化的组间比较（如观察性研究、准实验设计）中，当基线存在组间差异时，如何正确地估计处理效应。核心张力在于两种常用策略——协变量调整（将基线作为回归中的协变量）与变化分析（分析从基线到终点的变化分数）——可能在二分类结局下给出矛盾的结论（Lord's paradox）。这个问题直接连接因果推断中的识别假设（条件可忽略性）、估计量选择（G-computation vs 回归调整 vs 倾向得分），以及统计模型的尺度选择（logistic vs 线性 vs 序数）。

目前的成熟度：对连续结局的 Lord's paradox 已有较充分的理论理解，但对二分类结局的正式数学处理和因果图解释仍不完整。本文填补了后者。

发展脉络¶

从文献引用（引用句和关键参考文献）梳理如下：

奠基工作：Lord's Origin (1967)。提出“An essentially paradox… in the use of covariance analysis”，在连续结局下证明了协变量调整与变化分析可能产生矛盾。留下口子：该 paradox 在非连续结局下的表现未知。
主要进展：连续结局下的争论与析理 (Senn, 2006; Vickers & Altman, 2001等)。Senn 等人深入讨论了 Lord's paradox 的根源（回归到均值、尺度依赖性），并形成了"协变量调整在随机化研究中是首选，在非随机化研究中可能有偏"的共识。Vickers & Altman 在 BMJ 上推动了“分析变化”的临床实用性。留下口子：这些工作几乎只限于线性模型和连续结局。
向二进制结局的初步扩展 (Julious, 2000; 其他引用)。在利物浦统计会议上，Julious 讨论了变化分数在二分类结局下BE研究的应用。但据本文作者判断，这些工作“lacked a formal mathematical proof and ignored Lord's paradox”（原文）。
历时数据方法的发展 (Liang & Zeger, 1986; Diggle et al, 2002; Hedeker & Gibbons, 2006)。Liang & Zeger 的 GEE 和 Diggle 等人的混合模型方法为重复测量数据提供了通用框架，但Richardson(2008)等人指出 GEE 会“解释基线差异” vs “不解释”两种设定对应不同的估计目标。留下口子：这些方法在 Lord's paradox 语境下的表现未被正式分析。
本文的位置：本文是“二分类结局下 Lord's paradox 的首次正式数学证明”（作者自述），同时用因果图和模拟阐明了两种方法的估计目标差异和矛盾可能性。

子线索聚类¶

经典 Lord's paradox 辩论（主线索）：Lord (1967), Senn (2006), Vickers & Altman (2001), Jamieson (2004), Moffatt (2010)。重心在“paradox是什么、何时出现、选择哪一类方法”。
历时数据方法：Liang & Zeger (1986), Diggle et al (2002), Hedeker & Gibbons (2006), Molenberghs & Lesaffre (1994)。重心在“如何用重复测量方法分析变化，如何建模相关”。
Lord's paradox 在特定领域的应用：Julious (2000, 2001) 在 BE 研究，其他在上下文中提到的应用文献（如吸烟预防研究本身）。这些更偏实际问题。

这个方向在追问的核心问题¶

Lord's paradox 的数学根源：在线性模型和 logistic 模型中，协变量调整和变化分析为什么能产生矛盾？矛盾的条件（基线差异的强度、模型非线性程度）是什么？
因果图的含义：两种方法对应的因果图（DAG）不同，分别识别的是什么目标（条件 vs 边际处理效应）？
方法选择的一致性：在什么条件下两组方法近等价，在什么条件下差异明显，实际分析中如何选择？
推广性和拓展：高维协变量、多期数据、非固定效应（随机效应重要的环境）下，这些结论是否成立？

当前主流方法是回归调整和变化分析，瓶颈在于没有正式的数学证明来建立何时选择哪种，以及在 Lord's paradox 发生时解释哪种正确。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口 frame 为：“对于二分类结局，尽管有广泛应用（如Julious, 2000），但 “a formal mathematical derivation, and a clear link with Lord's paradox, has been missing”。因此本文是“填补这一缺口”的“自然一步”。

被淡化/回避的竞争路线： - 倾向得分匹配和g-computation（标准非参数/半参数方法）在引言中完全未出现。作者只聚焦于逻辑回归系列，把问题框在“更简单、更常见的方法”上。 - 双稳健估计（DR）和高效影响函数也未提及。作者可能认为这些是更复杂的方法，不属于“一般实践中常被比较的方法”。

什么明显该被引/该存在、却没出现在 intro 里： - Marginal structural models (Robins, 1999) 和 inverse probability weighting——这些方法在处理时序数据和基线差异中也常用。 - Regession discontinuity 和 difference-in-differences——这些在非随机化研究中处理基线差异的典型方法也被省略了。 - 更近期的因果推断综述（如Hernán & Robins, 2020《Causal Inference: What If》）——并未被引用。作者可能是专注于统计方法社区（如Statistics in Medicine），而非因果推断方法论社区。

值得研究者去查的问题：为什么本文没有引用任何因果推断主流教科书？是审稿周期限制，还是作者团队的方向刻意避开“因果推断”这个标签而使用“组间比较”这种更应用的framing？

张力¶

未见明显对立引用。所有被引文献（至少作者引用的）基本是在同一框架下讨论 Lord's paradox，只是算法和尺度不同。唯一的张力可能是对于“变化分析是否可接受”的结论性判断——一些引用（如Vickers & Altman）推荐变化分析在临床研究中，而另一些（如Senn）则强调协变量调整的正交性。但本文把它们视为同一辩论中的不同立场，而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( Y_i \) ∈ {0,1}: 二分类结局（终点）变量，\( i=1,\dots,n \)
\( X_i \) ∈ {0,1}（或更一般取有序分类值）：基线测量（二分类或序数）
\( G_i \) ∈ {0,1}: 分组变量（例如0=对照, 1=处理）
\( \Delta_i = Y_i - X_i \) ∈ {-1,0,1}: 变化分数（对于二分类基线/结局来说取值-1,0,1；如基线为0结局1则+1等）。本文考虑序数回归（ordinal regression）处理此变化。
\( \pi_{jk}(G) = P(Y=j, X=k \mid G) \): 给定分组下的联合分布
\( \theta \): 处理效应参数（如 logistic 回归中的饼干系数 \( \beta_G \)，或变化分数序数回归中的 \( \gamma_G \)）
模型：
Logistic回归（协变量调整）：
\[\log \frac{P(Y_i=1 \mid G_i, X_i)}{1 - P(Y_i=1 \mid G_i, X_i)} = \beta_0 + \beta_G G_i + \beta_X X_i + \beta_{GX} G_i X_i\]
其中 \( \beta_G \) 是条件处理效应（给定基线X）。
序数回归（分析变化）：
\[\log \frac{P(\Delta_i \le m \mid G_i)}{1 - P(\Delta_i \le m \mid G_i)} = \alpha_m + \gamma_G G_i\]
其中 \( \gamma_G \) 是边际（条件在分组，但不条件在基线）的变化效应。
混合 logistic 回归 / GEE：重复测量模型，用随机截距或工作相关结构来建模基线-结局的局部关联：
\[\log \frac{P(Y_{it}=1 \mid G_i, b_i)}{1 - P(Y_{it}=1 \mid G_i, b_i)} = \beta_0 + \beta_G G_i + \beta_T T_t + b_i\]
其中 \( T_t \) 是时间指标（t=0基线, t=1终点），\( b_i \) 是随机截距（混合logistic）或通过GEE的working correlation处理。
可观测数据：我们实际能观测到 n 个独立同分布个体的三元组 \( (Y_i, X_i, G_i) \)（对于只测一次终点的情况），或者对于重复测量情况观测到 \( (Y_{i0}, Y_{i1}, X_i, G_i) \) 但基线X仅一次。想要但观测不到：每个个体的反事实（如若对照组的处理情况反事实）。所有因果效应都依赖于无未测量混杂假设（Conditional exchangeability given covariates）。

第二步：讲最小内核¶

最简特例：考虑一个二分类基线 \( X \in \{0,1\} \)，二分类结局 \( Y \in \{0,1\} \)，两个分组 G=0,1。基线无交互项（即 \( \beta_{GX}=0 \)）。可观测数据是 \( (Y_i, X_i, G_i) \) 的 i.i.d. 样本。

在这个特例下，我们比较两种方法：

协变量调整：logistic 回归 \( \logit(P(Y=1 \mid G, X)) = \beta_0 + \beta_G G + \beta_X X \)。处理效应 = \( \beta_G \)，解释为“给定基线X相同的情况下，处理组 vs 对照组的结局优势比”。
变化分析：假设变化分数 Δ=Y-X 取值-1,0,1，用序数回归 \( \logit(P(\Delta \le m \mid G)) = \alpha_m + \gamma_G G \)。处理效应 = \( \gamma_G \)，解释为“处理组 vs 对照组的变化分数的累积优势比”。

Lord's paradox 如何出现？

假设基线在组间有差异——比如对照组基线为1的比例更高（基线非均衡）。设 \( P(X=1 \mid G=0) = 0.8 \)，\( P(X=1 \mid G=1)=0.2 \)。假设“真正”的无条件处理效应（potentially没有混杂但实际存在）是正向的：对照组从基线到终点的改善更小，处理组更大。但协变量调整后的 logistic 回归可能因为调整X而估计出负效应（因为对照组虽整体结果差但基线相似的对象和处理组比较）。

具体地，我们可以写出两个模型的参数化关系。对于只有logistic回归（无交互）和序数变化模型，我们可以算出（见本文定理1的推论）：

logistic 回归的参数：\( \beta_G = \log \frac{P(Y=1 \mid G=1, X=0) / P(Y=0 \mid G=1, X=0)}{P(Y=1 \mid G=0, X=0) / P(Y=0 \mid G=0, X=0)} \)
序数回归的参数：\( \gamma_G \) 依赖于变化分布，但大致反映了 \( \beta_G + \beta_X \cdot \delta \)（其中δ是基线在不同组的分布差异）。

当基线差异大（δ偏离0）且协变量效应 β_X 相对于处理效应 β_G 足够大时，β_G 和 γ_G 可能方向相反。

这个最小内核展示的核心数学事实：在 logistic 链接函数下，协变量调整（条件于X）效应的符号，不等于边际（未条件于X、但用变化调整）效应的符号。这就是二分类结局下 Lord's paradox 的数学本质——与连续结局下的“回归到均值”现象完全平行，但发生在 logistic 尺度上。

证明路线（最小内核下）： 1. 写出完全交叉表的概率表达，形式化为8个参数（\( P(Y=j, X=k \mid G=g) \) 对于 j,k∈{0,1}, g∈{0,1}）。 2. 分别用海拔参数表达两个模型的似然函数。 3. 求解最大似然估计的参数关系（推导见附录的复杂条件依赖）。 4. 指出当基线边际分布 \( P(X=1 \mid G=1) \neq P(X=1 \mid G=0) \) 时，β_G 和 γ_G 不一定同号。

三、这篇论文做了什么¶

三句话¶

研究了二分类结局下组间比较时，协变量调整（logistic回归包含基线和分组）与分析变化（基线与终点的变化分数的序数回归）两种方法如何处理基线差异，以及它们是否会出现 Lord's paradox。
核心工具是 logistic回归、序数回归、混合logistic回归和广义估计方程（GEE），加上 因果图（DAG） 的定义框架，以及大样本下的数学等价性证明（在特定条件下）。
主要结论：(i) 协变量调整近似等价于不允许基线组间差异的混合logistic回归/GEE；(ii) 分析变化近似等价于允许基线差异的混合logistic回归/GEE；(iii) 当基线存在组间差异时，两种方法可能给出矛盾结论（Lord's paradox），文章通过模拟和实际数据证明了这一点。

关键设定与假设¶

完整标记（在第二节最小记号基础上补充）： - 数据可观测：\( (Y_i, X_i, G_i) \)，独立同分布。 - 对于重复测量部分，数据可扩展为 \( (Y_{i0}, Y_{i1}, X_i, G_i) \)，但X仅一次测量（有时被视为基线Y_{i0}冗余信息，但文章区分了X是单独基线观测，可与Y_{i0}相同或不同测量——实践中常取同一测量，即X=Y_{i0}）。 - 两个主要模型： - 模型A（协变量调整）：logistic回归，如前述。 - 模型B（变化分析）：序数回归在Δ上。 - 重复测量模型（模型C, D）：混合logistic回归（随机截距）和GEE（工作独立、复合对称或AR1结构）。 - 近等价性假设：对于真正参数值，模型逼近的条件是样本量足够大、模型设定正确（logistic link正确）、且协变量-处理间无未建模交互（或无实质强度交互）。 - 没有处理的交互效应的假设（如β_{GX}=0）在基础证明中使用，但在模拟中也检验了交互存在时的情况。 - 无未测量混杂：隐含假设，但作者使用因果图将其显式化——DAG中假设基线X是唯一混淆变量（或加上时间趋势）。

与已有文献比较： - 比 Julious (2000) 强化了：提供了正式的渐近等价性证明，且连接了Lord's paradox。 - 比 Senn (2006) 拓展了：从连续结局推广到二分类结局。 - 比 Richardson (2008) 具体化了：对GEE两种变体的区别给出了更直白的数学推导。

主要结果¶

定理 1（近似等价性: 协变量调整 ≈ 无基线差异的混合logistic/GEE）： - 陈述：对于大样本，logistic回归（Y对G和X）的参数β_G 近似等于混合logistic回归（Y对G、时间T和随机截距）中不含G×T交互时处理效应的参数。 - 直觉：混合logistic/GEE在“解释基线差异”时通过时间主效应和随机效应（或工作相关结构）来吸收X的作用，但比较固定效应时两个时间点的处理效应被约束相等——logistic回归通过“给定X”做到了同样的“吸收基线差异”。 - 必要条件：基线X与时间T的关联不跨处理组有本质差异（即无交互）。

定理 2（近似等价性: 分析变化 ≈ 有基线差异的混合logistic/GEE）： - 陈述：变化分数的序数回归与混合logistic/GEE（在时间点-处理交互项存在、即允许组间不同的时间趋势下）是近等价的。 - 直觉：允许G×T交互意味着处理效应在不同时间点不同（经过变化Δ捕捉的就是时间变化的结果），序数回归直接建模Δ。 - 必要条件：模型设定正确（序数回归的累积logit合适），且假设基线X只通过变化域中的位置关联。

模拟结果（虚构场景）： - 作者生成了8个典型场景（2×2×2：基线有无组间差异 × 时间趋势（变化）有无组间差异 × 主效应尺度是logit vs 绝对风险差）。 - 核心发现：在基线有组间差异且变化无差异的设定下，协变量调整给出了非显著（或负向）处理效应，而分析变化给出正向（显著）效应——完全复制了Lord's paradox。 - 数值对比：以某个场景为例，logistic回归的β_G = -0.22（95% CI: -0.68, 0.25），而序数变化回归的γ_G = 1.02（0.55, 1.49），两者方向相反且都显著（第一个不显著，第二个显著）。

实际数据例子：吸烟预防研究（详见后）。

证明路线与技术技巧（理论型必写）¶

整体路线：证明采用了参数近似法——将logistic回归参数和序数回归参数都表示为交叉表（2×2×G）中概率的函数，然后通过Delta方法和Taylor展开导出渐近关系。

步骤1（似然与参数化）：写出在8个单元格概率（每个G×X×Y=1和0的组合）下的完全可观测似然。将这两种特定模型（logistic和ordinal）嵌入此饱和模型。
步骤2（对数比值比的连接）：分别写出logistic回归的pseudo-MLE（在分层X条件似然下）和序数回归的MLE（在边际Δ似然下），用随机矩阵/大样本理论计算渐近方差和均值。
步骤3（近等价的推导）：证明logistic回归的MLE可以用（四格表的对数优势比组合）表达，混合模型的MLE在固定效应部分有相似的表达。通过渐近方差等同性（在响应分布模式匹配下）得到近等价关系。
步骤4（链接到Lord's paradox）：用Taylor展开展示当基线分布跨组不等时，两个估计量的符号差距可能出现。给出具体的条件： \( \beta_G + \beta_X \cdot \delta \) 与 \( \gamma_G \) 的符号相反当δ足够大。

关键跳跃点（难点）： - 对于序数回归，变化分数Δ取值∈{-1,0,1}的累积logit假设与交叉表概率的对应——特别是不设基线X为协变量时，模型估计的实质是边际于X的效应，而不是条件效应。这使得定理2需要更复杂的推导来证明等价于混合模型（允许交互）的估计。 - 难点：在混合logistic回归中，随机截距的极大化需要数值积分（高斯-厄米特积分），而GEE类似；如何数学上建立近似关系而不涉及闭式解？本文不提供完全显式证明，而是依赖“当随机效应方差小（或工作相关小）时，logistic回归和混合模型的主导项一致”这样的近似论证。这是证明中的一个软肋——对随机效应较大时该近等的精确性未作定量刻画。

技术技巧点名： - Delta方法：用于交叉表概率到参数β_G的映射的方差计算。 - 线性近似（Taylor展开）：在logistic函数周围展开，导引近等价推导。 - Cramér-Wold定理：隐含使用于多参数渐近正态性。 - 条件似然与边际似然的比较：用于区分logistic（条件于X）与序数（边际于X）。 - 证据权重（weight of evidence）：未正式使用，但下文中讨论Lord's paradox时引用此概念定性解释。

真实例子与应用¶

吸烟预防研究（实际数据示例）：

数据情况：一个针对学龄儿童的吸烟预防项目（n ≈ 2000）。结局：是否开始/频繁吸烟（二分类）。基线：前测问卷中的吸烟状态。处理：特定预防课程 vs 传统健康课（对照组）。存在基线组间差异。
方法应用：作者将所有方法（logistic回归、序数变化回归、混合logistic、GEE两种变体）应用于数据，并逐个报告OR估计和置信区间。
结果：
协变量调整（logistic）：OR ≈ 0.85 (95% CI: 0.72, 1.01)，不显著负趋势。
变化分析（序数）：OR ≈ 1.21 (1.04, 1.42)，显著正效应（预防有效？）。
混合logistic（无交互）：OR ≈ 0.89 (0.76, 1.05) ≈ 协变量调整。
混合logistic（有交互）：OR ≈ 1.18 (0.94, 1.48) ≈ 变化分析。
这个例子想说明什么：在实际数据中复现了 Lord's paradox——相同的数据、不同的方法，得出矛盾的方向性结论。它用真实应用把理论的“可能性”变成了“可观察到的现象”。同时，它也验证了本文的近等价性理论（CovAdj ≈ Mixed No交互; OrdChange ≈ Mixed 交互）。

模拟设计（虚构场景，软件可复现）： - 作者构造了8个场景以涵盖基线均衡/非均衡、变化趋势有无差异。每个场景计算了500次模拟的均值和覆盖概率。结果确认了理论推导，并定量显示了Lord's paradox在基线差异场景下的显著程度。

🔎 结论是否比证明窄¶

是。有几个关键处结论比证明声称的更窄：

近等价性证明只覆盖了“没有G×X交互”的情况，但文中在讨论和模拟中却将此结论应用于可能有交互的实际数据。作者承认“在交互存在时近似可能变差”，但讨论部分仍将“两种方法近等价”作为一个泛化结论。明确条件：“Proof B.2.Lemma 1 assumes X and G main effects only, no interaction.”
“变化分析等价于允许基线差异的混合模型”，但混合模型中的随机效应方差假设较小。如果随机效应很大，两种方法的估计可能产生本质差异（方差结构不同影响参数估计稳定性）。作者在六章“Discussion”段落提到“The equivalence is exact only for the special case of a perfect symmetric response pattern”，但这一限定被放在讨论末尾。
模拟和例子中基线差异的强度有限（OR约在0.3-3之间），没有探索极端的基线差异（如控制组基线戒烟率0.9 vs 处理组0.1）——这种极端条件下模型收敛问题和矛盾的方向性可能更复杂。
因果图部分没有给出正式的识别条件定理，只是定性分析。作者指出“the estimator chosen defines the estimand”（方法选择定义目标量），这是一种方法论观点而不是形式数学结论。对比如 Pearl (2009) 的 DAG 文献，本文的因果图相当简单（只有 две个节点：X和G指向Y，无中介、无反向因果、无混杂结构）。

可进一步查实的：文中“The following theorem shows”：检查原文的哪一段写了“Theorem 1”。引用时最好用原文句子核实。

四、开放问题（点到为止，扎根具体语句）¶

(1) 证明的严谨性检验 —— Logistic近似在随机效应大时的误差界。本文的近等价性依赖于“随机效应方差小（或工作相关弱）”假设。开放问题：建立一个精确的误差界（如定理1,2的近似误差量级），并检验这个误差在多大程度上依赖于随机效应方差与响应模式。扎根：本文“Proof B.2.Lemma 1”中的“items may not equal”的讨论。

(2) 高维协变量的推广。本文只考虑了单个分类基线X。当基线是多个（高维）协变量时，近等价性是否仍然成立？logistic回归变成高维散度的模型（如需要正则化），变化分析变成多维度量（Δ变成了向量）。此时Lord's paradox的行为可能更复杂。扎根：本文在“Discussion”中说“Only a single baseline measure was studied; extension to multiple covariates is straightforward but needs work”——这句话本身就暗示了开放问题。

(3) Lord's paradox的有界性分析（极端基线差异下）。本文的模拟没有探索极端的基线差异（如对照组基线状态集中在0/端点，处理组在另一端点）。在极端情况下，logistic回归可能因为分离（separation）而估计不稳定，变化分析也会遇到序数回归的零频问题。扎根：没有出现在文中，但可由本文的模拟设计逻辑推断。

(4) 因果识别条件的显式化。本文只是为了说明方法选择定义了目标量，但并没有给出严格的识别条件：在什么条件下，协变量调整识别的是条件处理效应（ATE conditional on baseline），变化分析识别的是什么类型的目标？在“Causal diagrams”部分，作者指出“the change score method implicitly assumes a constant effect of baseline on outcome across groups”，但未对此做识别检验。扎根：本文“Causal diagrams”章节末尾。

提醒：要确认某条是否是真正缺口，建议去读同方向（至少：Senn, 2006 Vickers & Altman, 2001 以及 Richardson, 2008）同期的intro——若都指向同一个未解决的问题，那就值得做了。

Maintained by 陈星宇 · Homepage · Source on GitHub