Informed Presence in Electronic Health Record Data: Illustrating Bias and Bias Reduction Approaches in Longitudinal Analyses¶

作者: Daniel T. Vader, Di Shu, Rebecca A. Hubbard, Craig L. K. Boge, Anna Sharova et al.
来源: Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: University of Pennsylvania（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001974

一、领域脉络与小综述（基于本摘要及领域常识构建）¶

这个方向是什么
电子健康记录数据因其非随机采集特性（患者生病时更频繁就诊/检查）导致观测数据与真实健康状况系统相关，即“知情存在”（informed presence）。该偏倚本质上是数据缺失机制依赖于暴露与结局，使观测过程成为碰撞变量（collider），对纵向关联估计产生偏倚。当前方法学关注重点是如何在分析中通过加权或重抽样恢复条件独立性，但实际应用的指导较少。

发展脉络
- 奠基工作：知情存在的概念最早由 Bohn et al. (1997) 提出，指观测过程中的频率与患者健康状况相关，导致捕获数据与非捕获数据存在系统性差异。此后 Little & Rubin (2002) 的缺失数据理论为类似机制提供了形式化框架。 - 主要进展：针对知情存在偏倚的校正方法包括逆强度加权（inverse intensity weighting, IIW）（如 Lin et al. (2004) 首次将Cox-type加权用于纵向数据）和多重输出化（multiple outputation, MO）（如 Follmann et al. (1994) 提出通过重抽样生成观测过程的随机删失，从而估计边缘效应）。近年 Hubbard et al. (2016) 对比了多种方法在EHR设定中的表现，指出IIW对条件独立性假设敏感。 - 当前frontier：方法学上，自举逆强度加权（Bootstrap IIW）被引入以更好地处理权重估计的不确定性；同时基于有向无环图（DAG）的框架被用于直观识别碰撞偏倚路径。应用上，真实EHR数据（如儿科移植患者）的案例研究开始出现，但系统性的实际指南仍然稀缺。 - 本文位置：本文属于应用展示型工作，它没有提出新方法，而是将已有IIW、MO、Bootstrapped IIW在同一个真实数据集上并排演示，并给出一个概念性DAG框架以帮助研究者诊断知情存在偏倚。它与Hubbard et al. (2016)等一脉相承，但更侧重实践可操作性和结果解读。

子线索聚类
1. 基于加权的方法：核心思想是通过逆强度（逆观测概率）权重使观测过程与结局条件独立。代表：Lin et al. (2004)（IIW），以及后续的自举版本。本文使用了常规IIW和自举IIW。 2. 基于重抽样的方法：多重输出化通过随机删去部分观测数据来模拟“如果没有知情存在”时的分布，再平均输出。代表：Follmann et al. (1994)，及Farrington et al. (2001)对重复事件的应用。 3. 图模型诊断框架：用DAG描绘暴露、结局与观测过程之间的路径，识别碰撞偏倚。本文即给出此框架，属概念性而非新方法，但便于应用者理解。

核心问题与瓶颈
- 核心问题：如何在EHR纵向数据中，在观测过程依赖于暴露和结局时，无偏估计暴露与结局的关联？
- 已知瓶颈：
① 条件独立性假设（给定协变量后观测过程与结局独立）是否成立难以验证；
② 权重或重抽样可能增加方差，且对误设定敏感；
③ 真实EHR数据中观测模式复杂（间歇性、多原因缺失），简单处理易遗留残留混杂。

⚠️ 作者的 framing
作者将知情存在偏倚定位为“一个在实践中常被忽视但可通过现有加权/重抽样方法缓解的问题”，因此本文的贡献不是新方法，而是“如何用图示+现有工具做敏感性分析”的操作性框架。被淡化的竞争线索包括：基于多重插补的方法（如 Moore et al. (2012) 的联合模型）和基于标志性分析（landmark analysis）以避免人为删失的策略——这些方法在同设定下可能有不同假设。本文未提及。另外，明显该存在但未见讨论的是：对高维协变量（如EHR中的诊断代码）下的假设放松，以及对于不规则间隔时间数据的有效样本量问题。

张力
未见明显对立引用——IIW和MO属于同一假设体系，差异主要在实现方式。文献中曾有关于权重模型误设定时IIW与MO效果比较的争论（如 Van der Laan & Robins (2003) 的鲁棒性与效率权衡），但本文未深入讨论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号
\(A\): 暴露变量（二值：是否使用糖皮质激素）
\(Y\): 结局变量（二值：是否发生CMV病毒血症）
\(t\): 时间（以月为单位，测量间隔不规则）
\(R(t)\): 指示函数，\(R(t)=1\) 表示在时间 \(t\) 该患者有观测（有CMV检测结果），否则为0。这是观测过程。
\(X(t)\): 时变协变量（如年龄、免疫抑制药物剂量），用于建立模型。
参数: 暴露-结局关联的发病率比（IRR）为感兴趣的estimand。
模型
数据生成机制：假设每个患者存在一个潜在的完整过程（即每个时间点都有\(A(t), Y(t)\)），但实际观测到的是当\(R(t)=1\)时的截断值。
知情存在偏倚：\(R(t)\)不仅依赖\(X(t)\)，还依赖\(A(t)\)和\(Y(t)\)，因此观测过程是暴露和结局的共同因（碰撞变量），导致条件关联产生偏倚。
校正方法的目标是恢复条件独立性：\(R(t) \perp Y(t) \mid A(t), X(t)\)（给定暴露和协变量后，观测过程与结局独立），从而消除碰撞偏倚。
可观测数据
每个患者有：一系列稀疏的观测时间点\(t_{i1}, ..., t_{im_i}\)，以及在这些时间点记录的\(A(t), Y(t), X(t)\)。
潜在但不可观测的：完整轨迹（所有时间点的状态）以及未就诊时是否发生了CMV病毒血症（Y未测量）。

第二步：讲最小内核
将一般化的纵向数据压缩到两个时间点的最简特例，以说明偏倚与校正的核心思路。

最简特例：两个时间点（\(t=1,2\)），每个患者只有一个暴露测量和一个结局测量，观测过程是是否参与研究（\(R \in \{0,1\}\)）。
假想：研究目标是用发病率比（IRR）估计暴露\(A\)对结局\(Y\)的关联。但是只要有观测的个体同时被测量暴露和结局，观测本身（\(R=1\)）受到暴露和结局的共同影响。
示例：某人群，暴露\(A\)（比如使用类固醇）使感染风险增加；但感染者更频繁就诊（\(R\)依赖于\(Y\)），同时暴露者也更频繁就诊（\(R\)依赖于\(A\)）。于是，观测到的暴露组和未暴露组中，感染的比例均被人为拔高（因为就诊门槛），导致朴素分析中的IRR可能被高估（如果暴露与就诊正相关且感染与就诊正相关，则碰撞偏倚使暴露-感染正偏）。
校正思路：给定协变量\(X\)后，对每个观测赋予权重\(w = 1 / P(R=1 \mid X, A)\)（逆强度加权），使得加权后的样本可以代表所有暴露状态的人群，从而恢复条件独立性。
如果采用多重输出化，则从\(R=1\)的子样本中按概率删除部分观测以模拟“随机缺失”，然后对重复子样本分析取平均。
在这个两时间点例子中，IRR的朴素估计（\(\hat{IRR}_{naive}\)）是观测量中暴露组与未暴露组感染率之比，校正后\(\hat{IRR}_{IIW}\)则为加权后暴露组与未暴露组感染率之比。本文例子中，IRR从1.83降至1.37，正体现这种衰减。

注意：原文发生在更复杂的纵向上（重复事件、不规则时间点），但偏倚结构与此特例数学同构——核心在于打破\(R \perp A, Y\)的依赖性。

三、这篇论文做了什么（重心，务必讲透）¶

三句话
① 问题：EHR纵向数据中存在知情存在偏倚（观测过程依赖于暴露和结局），导致暴露-结局关联估计（如IRR）产生偏倚。
② 方法：通过逆强度加权（IIW）、自举逆强度加权（Bootstrap IIW）和多重输出化（MO）三种方法，对观测数据进行加权或重抽样，以恢复观测过程与结局的条件独立性。
③ 结论：在儿科移植患者（N=271）的真实数据中，朴素分析IRR=1.83（1.02,3.28），经IIW校正后降至1.37（0.73,2.57），Bootstrap IIW和MO给出类似结果（1.37和1.40），表明校正后效应估计出现预期衰减，且三种方法结果一致。

关键设定与假设（从摘要与领域常识推断，原文未列全）
- 条件独立性假设：给定时变协变量\(X(t)\)（如年龄、免疫抑制方案）后，观测过程\(R(t)\)与潜在结局\(Y(t)\)条件独立，即\(R(t) \perp Y(t) \mid X(t), A(t)\)。该假设在IIW和MO中均需要，且不可检验。
- 无未测混杂：用于拟合观测过程的模型中，所有同时影响\(R(t)\)和\(Y(t)\)的协变量都已包含在\(X(t)\)中。
- 正性假设：每个时间点每个暴露水平下，观测概率严格大于0。
- 相比经典IIW：本文还对权重模型使用逻辑回归（时间离散处理），并使用自举法获得Bootstrap IIW标准误（而非模型基标准误）。MO则通过固定比例删失观测（输出化）生成多个数据集，分析后取平均。

主要结果
- 表格中给出：
- 朴素分析：IRR=1.83（1.02, 3.28）
- IIW：IRR=1.37（0.73, 2.57）
- Bootstrap IIW：IRR=1.37（0.71, 2.27）
- MO：IRR=1.40（0.73, 2.68）
- 所有校正后置信区间均包含1.0，而从1.83降至1.37表明偏倚至少部分由知情存在驱动。
- 结论：三种方法结果一致，且均使效应估计向零衰减，符合知情存在偏倚在碰撞场景下通常夸大效应的理论预期。

证明路线与技术技巧（本文为应用型，无理论基础证明，仅描述方法实现）
- 整体路线（方法步骤）：
1. 构建观测过程模型：以就诊事件为二值响应，用逻辑回归或泊松回归估计每个时间点的观测强度（给定协变量和暴露）。
2. 计算逆强度权重：\(w_i = 1/\hat{P}(R_{it}=1 | X_{it}, A_{it})\)。权重的倒数等价于“未被观测的概率逆”。
3. 用加权后的数据拟合暴露-结局关联（使用加权泊松回归或GEE，估计IRR）。
4. Bootstrap IIW：在样本中重抽B次，每次重复步骤1-3，报告自举均值和百分位置信区间。
5. 多重输出化：根据估计的观测概率，以概率\(1 - \hat{P}(R=1)\)随机删除一部分观测形成子样本，拟合数据后得到估计；重复M次后取平均效应估计与方差（使用Rubin规则或简单平均）。 - 关键跳跃点：无——本文方法均为已有技术的直接应用，未涉及复杂证明。 - 技术技巧点名：
- 逆强度加权（IIW）：权重构造与IPW类似，但用于处理纵向观测频率。
- 自举逆强度加权（Bootstrap IIW）：用自举法获得权重不确定性的传播，而非Delta方法。
- 多重输出化（MO）：重抽样方法，通过随机删失观测来模拟随机缺失，再对多重删失数据取平均。
- 这些都在流行病学文献中已有充分描述，本文主要贡献在展示与应用。

真实例子
- 数据：271名儿科实体器官移植受者的纵向EHR数据，时间跨度至多4年。暴露为糖皮质激素使用（二进制，每月记录），结局为巨细胞病毒（CMV）病毒血症（每月通过PCR检测）。观测过程由CMV检测记录定义。
- 怎么用：将每个月视为一个时间单位（尽管检测间隔不规则），对每个患者-月构建是否检测的事件变量，用逻辑回归估计每天检测的概率（模型含年龄、免疫抑制类型等协变量）。
- 结果：如上。
- 目的：验证知情存在偏倚在实际数据中的存在（效应在调整后衰减），并展示三种方法给出相似指向，增强结论稳健性。

🔎 结论是否比证明窄
本文结论明确限制在“展示方法在单一数据集上的行为”，未声称通用性。但读者可能过度推断：因果效应应被校正，但这里校正后仍可能残留未测混杂。作者未做敏感性分析以检验假设残差，这是一个窄处。另外，实物例子中IIW的置信区间跨度很大（0.73-2.57），说明校正同时增加了方差，但本文未讨论功率问题。

四、开放问题（点到为止，扎根具体语句）¶

条件独立性假设的检验或替代：本文明确指出“需要在给定协变量后观测过程与结局独立”，但该假设不可检验。一个开放问题是：能否构造可诊断的敏感性分析方法（如e-value或pattern-mixture模型），以评估当假设轻微违反时结果如何偏移？扎根于摘要中“assessing dependence in the observation process”一句。
高维协变量下的权重估计：EHR中协变量众多（历史诊断、用药等），当前逻辑回归可能因维度过高导致不稳定。如何将正则化或机器学习方法（如lasso、随机森林）应用于强度模型，同时保持推断有效性？这与本文中“using conceptual diagrams”的简单建议形成对比。
不规则时间间隔与连续时间：本文将时间离散化为月，但实际观测间隔不固定。一个方法学问题是：能否使用计数过程框架（如Cox-type强度过程）直接处理连续时间上的知情存在偏倚？现有IIW文献多假设规则网格，扩展至稀疏且不规则实际数据仍有差距。
与多重插补方法的对比：本文未讨论联合模型（如潜变量模型）或多重插补（如对缺失结局的插补）在知情存在设定下的表现。何种条件下这些方法比IIW/MO更有力？可参考Little & Rubin (2002) 及Daniels & Hogan (2008) 的缺失机制分类。

Maintained by 陈星宇 · Homepage · Source on GitHub

Informed Presence in Electronic Health Record Data: Illustrating Bias and Bias Reduction Approaches in Longitudinal Analyses¶

一、领域脉络与小综述（基于本摘要及领域常识构建）¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论