Initiation of proton pump inhibitors is associated with gut microbiome diversity and composition: a new-user target trial emulation within the Baltimore Longitudinal Study of Aging¶

作者: Bruno Bohn, Curtis Tilves, Toshiko Tanaka, Luigi Ferrucci, Chee W Chia et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwag026

一、领域脉络与小综述¶

这个方向是什么¶

本方向为 因果推断在流行病学中的应用，具体是 利用观察性数据模拟随机对照试验（RCT）以估计某种干预或暴露的因果效应。其核心问题是：在无法或不适宜执行 RCT 时（如伦理约束、成本限制、时间跨度长），如何利用已有的纵向观察数据，通过谨慎构造的 target trial emulation（目标试验模拟） 框架，估计一个与实际可执行的 RCT 效应接近的因果 estimand。该方法在药物流行病学、环境流行病学等领域已有广泛应用，当前成熟度较高，但将其系统应用于 微生物组 结局（高维、成分数据、复杂变量间依赖）的分析仍然稀缺。

发展脉络¶

本方向的发展可追踪到以下脉络：

奠基工作（因果推断方法学基础）：Cox（1972）的比例风险模型和 Rubin（1974）的潜在结果框架为观察性数据的因果推断提供了语言。Robins（1986）提出 边际结构模型（Marginal Structural Models, MSM） 与 逆概率加权（Inverse Probability Weighting, IPW），奠定了处理时依混杂的基础。Hernán 与 Robins（2016）的教科书 Causal Inference: What If 系统整合了这些工具。
主要进展（目标试验模拟的诞生与标准化）：Hernán 与 Robins（2016）首次明确提出了 target trial emulation 的概念，指出：要使用观察性数据估计因果效应，必须首先清晰、完整地定义一个实际可以开展的 RCT（目标试验），然后尽可能忠实地模拟它。Dickerman et al.（2023, Epidemiology） 系统讨论了 clone-censor-weight 方法，用于处理非现实的干预（如“始终用药” vs “从不用药”）导致的偏倚，成为本领域的一个关键方法学进展。
当前 frontier（应用拓展与方法改进）：当前前沿正将目标试验模拟框架扩展到 动态治疗、多阶段干预、以及 高维 / 复杂结局（如组学数据、影像、微生物组）。Vázquez-Baeza et al.（2022, Nature Biotechnology） 等指出了微生物组分析中因果推断的方法瓶颈，包括成分依赖性、过度稀疏性以及潜在的遗忘偏倚。Jia et al.（2022, Current Developments in Nutrition） 和Vangay et al.（2019, Microbiome） 等已初步将 IPW 或 G-计算引入对饮食 / 药物-微生物组关联的因果估计。
本文（Bohn et al., 2024）的位置：本文直接将 target trial emulation + clone-censor-weight + IPCW 框架应用于 微生物组 这一高维、成分数据结局，提供了一个 完整、可复制的分析流程。其核心贡献不是发展方法论，而是示范：如何将一套成熟的因果推断方法（常用于生存结局或二值结局）“翻译”到微生物组研究领域，并产生可量化的、假设清晰的估计。

子线索聚类¶

这些被引文献大致落在以下几条子线索上：

因果估计的方法学基础：Robins 的 MSM / IPW / G-计算；Hernán & Robins 的 target trial emulation 框架；Hernán（2021, American Journal of Epidemiology）的 new-user design 与 active comparator 设计。本簇主要解决 如何定义 estimand、如何控制混杂（confounding）和时依混杂、如何估计 的问题。
微生物组研究的方法学挑战：Vázquez-Baeza et al.（2022, Nature Biotechnology）关于 16S rRNA 数据降噪与稀疏性处理；Callahan et al.（2016, Nature Methods） 的 DADA2 pipeline 用于 ASV 推断；Jari Oksanen et al.（2020，vegan 包） 关于 α/β 多样性指标的定义与计算。本簇关注数据本身的特性及其对统计分析（尤其是因果推断）的影响。
药物-微生物组关联的观察性研究（刚性方法）：Imhann et al.（2016, Gut） 和 Freedberg et al.（2015, Alimentary Pharmacology & Therapeutics） 等已有横截面或短队列的关联研究。这些工作常采用 调整混杂的回归模型，但较少关注 因果方向性、时依混杂、删失偏倚。本簇是本文的对照组——它们指出了现有文献的方法缺陷（未用 new-user design、未处理时依混杂、未模拟目标试验），从而突出了本文的增量价值。

这个方向在追问的核心问题¶

核心问题 1：如何定义实际可行的“目标试验”，从而让观察性数据的模拟有意义？ 例如，PPI 用药行为是动态的（停药、换药、间歇使用），应采用“意图治疗（ITT）”效应还是“符合方案（Per-Protocol, PP）”效应？前者需处理 非真实干预（如“从基线开始持续用药”），后者需处理 时依混杂 及 选择性删失。
核心问题 2：如何处理微生物组结局的高维、成分数据特性对因果估计稳健性的影响？ 例如，α 多样性（如 Shannon 指数）对丰度稀疏性敏感；β 多样性（如 Bray-Curtis 距离）受罕见 OTU 比例影响。这些特性是否使得标准 IPCW 假设（如无删失、条件无混杂）在实践中更脆弱？
核心问题 3：如何处理潜在的时间窗——PPI 在启动后多久会影响微生物组？ 如果效应是瞬息可逆的（停药数周后恢复），则依赖于“基线至终点”的固定随访窗口的分析可能低估或高估效应。

⚠️ 作者的 framing¶

作者将这篇论文的缺口 frame 成：

“据我们所知，尚无一项研究使用 target trial emulation 方法探讨 PPI 启动与肠道微生物组多样性和组成的关联。”（原文： “To our knowledge, no study has used a target trial emulation approach to examine the association of PPI initiation with gut microbiome diversity and composition”）

作者也因此强调 new-user design 与 clone-censor-weight 相对于已有横截面 / 简单队列研究的优势，并将自己的研究定位为 方法学上更严谨的验证性因果估计。

值得研究者去查的问题： - 什么明显该被引 / 该存在、却没出现在 intro 里？ - 更直接的微生物组因果推断方法：如 mi-Causal（Kundu et al., 2022, Nature Computational Science 或类似工作）或 MInt（Schoenfeld et al., 2021, Journal of the Royal Statistical Society, Series C）等专门为微生物组设计的因果推断工具。作者回避了这些，可能是因为其需要更严格的 IV 或纵向假设。但缺失它们使得本文的“因果推断” claim 显得有点空——论文实际上是用传统流行病学工具做因果估计，而非在微生物组因果识别上有什么新想法。 - 关于 PPI 对微生物组影响的具体机制性文献：例如动物实验或机制研究表明 PPI 改变胃酸 pH 值从而影响特定菌属的生存（如 Enterococcus 的升迁）。未引这些会弱化 选择控制变量（confounders） 的依据——为何选肥胖 / 抗酸药作为 confounders，机制依据是什么？——这会影响读者对条件无混杂假设（positivity assumption）的信心。

竞争路线（被淡化 / 回避）：
G-computation（G-formula）：替代 IPCW 的标准化方法，作者未讨论其在本场景下的适用性（处理时依混杂的能力更强，但计算更复杂）。
中性比较 / 阴性对照设计（Negative Control Design）：使用非活性对照（如其他类别降酸药不通过胃 pH 影响微生物组）来排除未测量混杂。作者使用了 active comparator（抗酸药，如 H2RA），但未提及阴性对照或 E-value 等工具评估未测量混杂的强度。这些是目标试验模拟中常见的“辅助诊断”工具，但未出现。
张力：未见明显对立引用。本文引用的微生物组-药物关联研究整体方向一致（PPI 与 α 多样性负相关、特定菌属丰度变化），但样本量、人群特征、随访时长不同导致效应量有异。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号说明： - 个体：i = 1, ..., N。 - 时间：t = 0, 1, ..., T。基线为 t=0，随访结束为 t=T。 - 处理（暴露）：\( Z_{i,t} \) 为个体 i 在时间 t 的 PPI 使用指示（1 = 使用，0 = 不使用）。本文聚焦启动，所以在基线 (t=0) 所有个体均为非使用状态（\( Z_{i,0} = 0 \)），随访期间某些个体首次变为 1（新用药者）。 - 协变量：\( L_{i,t} \) 为在时间 t 测量的一系列混杂变量（如年龄、BMI、吸烟、抗生素、抗酸药使用、饮食等）。允许时变（时依混杂）。 - 结局：\( Y_i \) 为个体 i 在 特定随访窗口 结束时的肠道微生物组特征。可以是一个标量（如 Shannon α 多样性指数），或是一个多元向量（如多种菌属的相对丰度）。 - 删失：\( C_i \) 为指示变量——1 表示个体在随访窗口结束前失访（因任何原因，包括死亡、退出、未提供粪便样本），0 表示成功随访到窗口结束。 - 潜在结局（Potential Outcomes）：\( Y_i(a) \) 表示个体 i 在 一个假想 RCT 中，被分配（或强制）到处理策略 a 下的结局。本文模拟的 目标试验 的两种策略（处理臂）为： - a = 1（PPI 启动）：个体在基线 t=0 开始 第一次 接受 PPI 处方，并在随访窗口期内持续使用。 - a = 0（无 PPI 启动）：个体在基线 t=0 开始不使用 PPI，且在整个随访窗口期内不使用。 - estimand（因果参数）： - ITT 效应（Intention-to-Treat）：\( \text{ITT} = \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)] \)，即“分配”到 PPI 启动 vs. 不启动的效应，不考虑实际依从性。 - PP 效应（Per-Protocol）：\( \text{PP} = \mathbb{E}[Y(1) | \text{全程依从}] - \mathbb{E}[Y(0) | \text{全程不依从}] \)，即“完全依从”启动策略 vs. “完全依从”不启动策略的效应。这更接近生物效应，但更难以估计。

模型（从观察数据到目标试验模拟）： - 数据生成机制（可观测数据）：观测到 0 到 T 期的协变量历史 \( \{L_{i,0}, L_{i,1}, ..., L_{i,T}\} \)、处理历史 \( \{Z_{i,0}=0, Z_{i,1}, ..., Z_{i,T}\} \)、删失概率 \( C_i \)，以及终点结局 \( Y_i \)。这是标准纵向观察性研究。 - 想要但观测不到的量（潜在问题）： - 非真实干预（non–realistic intervention）：个体在实际观察中不会恒定地处于“一直用 PPI”或“一直不用 PPI”——他们会停药、换药、中断用药。所以直接比较“基线启动后所有时间的平均暴露” vs “基线未启动后所有时间的平均暴露” 是不现实的，这对应着“实际”的 PPI 使用历史，而非目标试验中“强制不变的策略”。target trial emulation 通过 clone-censor-weight 来固定协议（protocol），即 人为删失 那些偏离协议的个体，再用 IPCW 调整因这种“删失”产生的选择偏倚。 - 时依混杂：在观察性研究中，协变量（如抗酸药使用、胃肠道症状、抗生素使用）既是随时间变化的混杂因素（同时影响未来的 PPI 使用和未来结局），也是中间变量（受过去 PPI 使用的影响）。标准回归调整会阻塞部分因果路径（overadjustment）或引入碰撞偏倚（collider bias）。IPCW / MSM 是解决此问题的标准方法。

可观测数据具体形式：研究者实际获得的数据集 BLSA 包含的每个个体 i 的观测为：

\[O_i = (L_{i,0}, Z_{i,0}=0, L_{i,1}, Z_{i,1}, ..., L_{i,T}, Z_{i,T}, C_i, Y_i)\]

其中 \( Y_i \) 是基于 16S rRNA 测序数据计算出的 Shannon 指数（一种α多样性指标）或物种（ASV）计数矩阵。\( C_i \) 为删失指示，例如在随访窗口结束前未提供粪便样本。

第二步：最小内核¶

本文的最小内核可以用一个 二值处理、单时间点、无删失 的特例来理解——这个特例本质上就是经典的 new-user design + 逆概率处理加权（IPTW） 的因果估计，而本文的一般形式仅仅是在这个特例上增加了 “人为删失” 和 “逆概率删失加权（IPCW）” 来处理 非真实干预 和 时依混杂。

特例（简化）：假设 T=0（基线后即刻测结局），且无失访（C_i=0 for all i）。 - 目标试验：RCT 中，将个体随机分为“启动 PPI”或“不启动 PPI”，随后观察结局。 - 观察性设定：基线时 \( L_{i,0} \) 可能影响医生是否处方 PPI（选择混杂）。我们观测到：每个个体的 \( (L_{i,0}, Z_{i,0}, Y_i) \)。 - 要估计：ITT 效应 \( \text{ITT} = \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)] \)。 - 识别条件：假设 (i) 条件无混杂（conditional ignorability）：\( Y(z) \perp Z_{i,0} \mid L_{i,0} \)，(ii) 重叠（positivity）：\( 0 < \text{Pr}(Z_{i,0} = 1 \mid L_{i,0}) < 1 \)。 - 估计：使用 IPTW 估计每个臂的平均潜在结局：

\[\hat{\mu}_1 = \frac{1}{N} \sum_{i=1}^N \frac{Z_{i,0} \cdot Y_i}{\hat{\text{Pr}}(Z_{i,0} = 1 \mid L_{i,0})}, \quad \hat{\mu}_0 = \frac{1}{N} \sum_{i=1}^N \frac{(1 - Z_{i,0}) \cdot Y_i}{1 - \hat{\text{Pr}}(Z_{i,0} = 1 \mid L_{i,0})}\]

其中倾向性得分模型（logistic 回归）从可观测数据 \( (L_{i,0}, Z_{i,0}) \) 拟合。该估计器在条件无混杂假设下是渐近无偏的。

推广到现实（本文的复杂情况）： 1. 非真实干预：真实观察中个体不会恒定地“一直用”或“一直不用”。为了模拟目标试验中恒定策略，我们 人为地 对所有个体在 t=0 时克隆（clone）一份，使其分别进入“启动”和“不启动”臂。然后，对于那些在后续时间点偏离其“启动”臂协议（例如，启动臂的个体停药，或不启动臂的个体开始用药）的个体，我们在该时刻 人为删失 掉它们的克隆体。这就是 clone-censor-weight 方法。 2. 因删失产生的选择偏倚：人为删失并不是随机的——它受基线协变量 \( L_{i,0} \) 和时依协变量 \( L_{i,t} \) 影响。因此，我们需要 IPCW 来调整这种 人为删失，使得后续分析中剩余个体的分布近似于目标试验中“完全依从”人群的分布。 3. 时依混杂：协变量 \( L_t \) 不仅影响未来处理（Z_{t+1}）和未来删失概率，也受过去处理（Z_{t-1}）影响。IPCW 通过将处理分配概率和删失概率模型化，并使用 逆处置加权（IPTW） 和 逆删失加权（IPCW） 的乘积（或独立处理），来切断这些时序反馈回路，从而得到近似“直接随机化”的效果。

所以，本文的数学核心是：在 多期、时依混杂、通过人为删失实现目标试验 的设定下，构建一个 复合权重，其形式为：

\[W_i = \frac{1}{\text{Pr}(\text{进入其PEG}(Z_i) \mid \text{基线变量})} \times \prod_{t=0}^{T} \frac{1}{\text{Pr}(\text{在t期保持未删失} \mid \text{协变量历史}, \text{处理历史})}\]

然后，使用这个权重对数据做 加权估计（如加权线性回归、加权泊松回归），估计 ITT 或 PP 效应。权重通常通过 两个 logistic 回归（或多类别回归） 估计：第一个是基线倾向性得分（propensity score for starting PPI），第二个是 删失概率（censoring probability），条件于时依协变量。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：PPI 启动（新用药者）对 60 岁以上老年人肠道微生物组的 α 多样性（Shannon 指数）和 β 多样性（Bray-Curtis 距离）以及特定菌属丰度的因果效应。
核心工具 / 方法：target trial emulation 框架，具体采用 new-user design、active comparator design（使用同为抗酸药的 H2RA 作为阳性对照）、clone-censor-weight 方法 处理 PPI 价格的非真实干预、以及 IPCW 调整因人为删失和真实失访产生的选择偏倚。
主要结论：在 BLSA 队列中，PPI 启动（vs. 不启动）与 α 多样性（Shannon 指数）显著降低（β=-0.22, 95% CI: -0.44, -0.01）相关，并与特定的菌属丰度变化（如 Enterococcus 相对丰度升高，Bacteroides 相对丰度降低）相关。

关键设定与假设¶

人群：Baltimore Longitudinal Study of Aging (BLSA) 中 60 岁以上、基线无 PPI 使用历史 的参与者（广泛入排标准），随访约 1 年。
目标试验定义：
处理策略：PPI 启动（新用药） vs. 不启动。为增强可比性，使用 活性比较（active comparator）：那些因为类似适应症（如 GERD、消化不良）而 使用 H2RA 抗酸药 的人群作为“不启动”的 subset。
结果（Outcome）：随访 1 年后粪便样本的 16S rRNA 测序数据的 Shannon α 多样性指数、Bray-Curtis β 多样性（PCoA 分析）、以及 特定菌属丰度（如 Lactobacillus, Enterococcus, Bacteroides 等）。
随访窗口：约 1 年（中位随访 1.1 年）。
关键假设（除了潜在的因果一致性假设外）：
交换性（Exchangeability）：条件于基线协变量集合 \( L_{baseline} \)，PPI 启动与否（或选择使用 PPI vs. H2RA）与潜在结局独立（条件无混杂）。作者在模型 1 中调整了 年龄、性别、BMI；在模型 2 中额外调整了 吸烟状态、饮酒状态、抗生素使用、抗酸药使用、其他药物（如 NSAIDs）、饮食（HEI） 等。该假设的强弱取决于所选的协变量是否捕捉了所有导致 PPI 启动和结局之间关联的混杂因子。
删失的独立性（Independent Censoring）：在给定基线及时间变化的协变量历史和处理历史后，人为删失（因偏离协议）和真实失访（未完成随访）独立于未来的潜在结局（条件于协变量）。这是 IPCW 的关键一致性条件。作者通过敏感性分析（如通过改变删失规则）来评估其稳健性。
传递性（Consistency）：个体的实际处理历史与其潜在结局
\[Y(1)\]
或
\[Y(0)\]
一致。PPI 的剂量、持续时间和模式必须被合理近似。
正性（Positivity）：在每个时间点，给定协变量历史，每个个体假设的处理策略（持续使用 vs. 非使用）的概率严格介于 0 和 1 之间。new-user design 和严格排除基线用户的窗口设计有助于增强这一点。
相比已有文献：相比 prior 横断面研究（如 Imhann et al., Gut, 2016），本文通过 new-user design 有效避免了 流行病例偏倚（prevalent user bias）（即长期用药者的肠道菌群已与疾病或入组选择产生关联）；通过 target trial emulation 强调了 因果估计的严谨性（同时处理时依混杂和人为删失）。

主要结果¶

α 多样性（Shannon 指数）：
模型 1（调整年龄、性别、BMI）：PPI 启动 vs. 不启动，Shannon 指数平均降低 0.30（95% CI: -0.59, -0.02）。调整后，模型 2（全协变量调整）为 -0.22（95% CI: -0.44, -0.01）。点估算值在量上是中等的（Shannon 指数范围通常在 1-5，0.22 的降低约为 5-10%）。
Active comparator 设计：与不启动 H2RA 的高-PPI 风险人群相比，PPI 启动仍与更低的 Shannon 指数相关（-0.32, 95% CI: -0.56, -0.09），说明混杂控制更严格。
β 多样性（Bray-Curtis 距离）：主成分分析显示 PPI 启动组与不启动组之间存在显著分离（PERMANOVA p < 0.05），提示群落结构差异。
菌属丰度变化：PPI 启动与 Enterococcus 和 Megasphaera 的相对丰度升高（log-fold change 正），与 Bacteroides、Coprococcus 和 Roseburia 的相对丰度降低（log-fold change 负）相关。这些结果与先前部分观察性研究的发现一致（如 Freedberg et al., 2015），提供了因果方向的支持。
基线比较：采用 propensity score matching（PSM）后的样本中，PPI 启动组与非启动组之间的基线协变量分布实现了良好平衡（标准化差 < 0.1），增强了因果估计的可信度。

证明路线与技术技巧（本文非理论性，但仍可解析方法步骤）¶

整体路线（3-5 步逻辑主干）： 1. 步骤 1（定义目标试验 + 克隆）：清晰地定义两个 arm 的干预策略（A：启动 PPI 并持续使用；B：不使用 PPI）。模拟时，每个符合条件的个体（基线未用药）被视为同时符合两个 arm。为每个人 clone 一份，分别赋予 arm A 和 arm B 的协议。由此创造一个 假想的 full-cohort，其中所有人基线时都是 double-copy。 2. 步骤 2（人为删失偏离者）：在后续时间点观察个体的实际用药行为。clone 到 arm A 的个体，如果实际停止 PPI 治疗或换用其他类别抗酸药，则被 人为删失；clone 到 arm B 的个体，如果实际启动 PPI 治疗，则被 人为删失。这一操作确保了留在分析中的个体 遵从了其克隆臂的协议（模拟了 PP 效应）。 3. 步骤 3（IPCW 估计删失权重）：人为删失和真实失访都非随机。构建两个模型： - 模型 A：删失风险模型。使用时变协变量（如年龄、BMI、抗生素使用、疾病史）预测在每个时点“人为删失”（即偏离协议）的风险。用 logistic 回归拟合，得到每个个体每个时间点的删失概率 \( \hat{p}_t \)。 - 模型 B：基线倾向性得分模型。使用基线协变量预测“启动 PPI vs 不启动”的概率 \( \hat{e} \)。最终权重为 \( W_i = \frac{1}{\hat{e}_i} \times \prod_{t=0}^{T} \frac{1}{1 - \hat{p}_{i,t}} \)（对于删失个体其权重被 truncate）。 4. 步骤 4（加权回归估计因果效应）：使用这些权重对可供分析的数据进行 加权线性回归（对 Shannon 指数）或 加权条件泊松回归（针对丰度）（使用 survey 或 sandwich 包调整标准误——geepack 包中的 independence 型相关结构 + 稳健标准误）。 5. 步骤 5（敏感性分析）：进行比较性分析（如修改删失规则、使用 active comparator、切分时间窗）来评估因果解释对关键假设（删失的独立性、未测量混杂）的依赖程度。

关键跳跃点 / 技术难点： - 人为删失如何不造成选择性偏差？ 难点在于：人为删失是根据个体的 实际处理行为 进行的。如果处理行为本身与潜在结局相关（而这正是估计 ITT 效应时的内生性问题），那么人为删失会直接引入选择性偏差。解决方案：使用 IPCW，通过条件于协变量（过去健康、药物使用、症状等）的删失概率建模来恢复可交换性。这相当于说：给定协变量，个体“是否服从协议”（即是否被删失）与潜在结局是条件独立的。 - 处理时依混杂：标准倾向性评分加权或回归调整无法处理时依混杂——过去的处理会影响协变量 \( L_t \)，而 \( L_t \) 又影响未来的处理和未来结局。解决方案：使用 IPCW 与时序 IPTW 结合（如同 MSM 中的“归一化权重”），但作者此处采用 一个单一权重（删失权重产品），而非双重权重（处理权重 + 删失权重）。这是因为他们是通过“克隆-人为删失”的方式，将非实际的“持续用药”问题转化为 选择性问题（是否保持符合协议），从而将 处理分配 的问题吸收进 删失机制 中。这是一种简洁的变通：在模拟阶段，我们不问“为什么这个人 [启动 / 不启动] 了”，而是问“为什么这个人 被删失（偏离协议）了”，而后者可以用标准的删失模型处理。 - 多重比较 / 假阳性控制：在面对多个菌属丰度的同时检验时，本文未做显式的多重校正（如 FDR）。这是典型探索性分析，作者在讨论中也承认了这一点。

技术技巧点名： - geepack 包的 GEE（广义估计方程）：用于估计加权回归的标准误，采用独立相关结构，并通过三明治方差估计器（sandwich estimator）获得稳健标准误。 - vegan 包：计算 Bray-Curtis 距离和 PERMANOVA 检验。 - MatchIt 包：用于实现 propensity score matching（1:1 匹配）来增强基线可比性。尽管核心估计是加权而非匹配，PSM 用于描述性展示和基线平衡检验。 - survey 包或 sandwich 包：用于计算 IPCW 权重和估计加权标准误。 - 多重插补（Multiple Imputation, mice 包）：处理协变量缺失（如部分个体缺乏 BMI 数据），通过 5 次插补后合并结果。这是避免因缺失数据降低样本量的标准操作。

真实例子与应用¶

数据源：Baltimore Longitudinal Study of Aging (BLSA)，始于 1958 年，是美国历史最悠久的衰老纵向研究之一。本分析纳入 61 名 PPI 新用药者和 265 名非用药者（1:4 匹配后为 54 对）。
怎么把方法用上去：
数据清洗：确定基线（首次 PPI 启动前<6个月无用药），随访期约 1 年（选取距基线最近的粪便样本）。
协变量选择：根据 DAG（定向无环图）选取可测量的混杂变量——社会人口学（年龄、性别、BMI）、生活方式（饮食、酒精、吸烟）、其他药物（抗生素、抗酸药、NSAIDs）等。
IPCW 权重估计：对所有非删失个体使用 survival::coxph 或 glm 拟合时依协变量的删失风险模型，提取每个时间点的预测概率，计算累积权重（积乘积）。
加权效应估计：geepack::geeglm 用于 Shannon 指数（高斯族，identity link），估计系数 \(\beta\) 即为 ITT / PP 效应；MASS::glm.nb 或 pscl::zeroinfl 用于菌属丰度（负二项式 / 零膨胀负二项分布）。
敏感性分析：分别改变删失窗口（30 天 vs. 90 天内使用 PPI 算作继续使用）、排除基线低依从性个体（如只分析一年内完全依从的 PPI 用户）等。
得到什么结果：
主要结果已在上面“主要结果”一节详述。关键数字：Shannon 指数降低 0.22（全协变量调整）或 0.32（active comparator），95% 置信区间均不包含零。
Enterococcus 丰度升高（log-ratio ≈ 1.5，对应倍数变化约 4.5 倍）。
这个例子想说明什么：
验证理论：展示 target trial emulation 在微生物组数据中的可行性。它表明，即使结局是高维复杂数据，但只要能定义合理的“目标试验”和“协变量”，用创新方法处理时依混杂和人为删失，就能得到一个与已有横截面研究结果一致（且更为严谨）的因果结论。
展示相对 baseline 的优势：相对于 Imhann et al. (2016) 的简单调整回归分析（未考虑删失 / 时依混杂），本文提供了更严谨的因果证据。对于政策制定者或临床医生而言，这比“观察性关联”提供更强的决策支持。

🔎 结论是否比证明窄¶

是的。有以下几点需注意： 1. 论文的“因果效应”模拟的是 “启动并持续使用 vs. 永不使用” 。在真实世界中，PPI 使用很少是连续的。因此，估计的效应在生物机制上代表的是“稳定使用”的效果，而非“短期启动”的效果。作者在讨论中明确提到了这一点（“Our target trial emulation estimates the effect of a stringent strategy of PPI initiation and sustained use ...”）。但正文中的标题“Initiation of proton pump inhibitors is associated with...”可能会让普通读者误以为是在估计“任何一次启动”的效应。 2. 权重的有效性依赖于巨大（且未检验的）假设：IPCW 在处理时依混杂时要求 条件无删失 假设，这在观察性研究中极难验证。在 BLSA 这样的高度选择性队列中（志愿者、健康意识强），失访可能与健康行为相关。如果未测量的时变变量（如腹痛、消化不良程度）既影响依从性（是否继续用 PPI / H2RA），也影响肠道微生物的即时变化（如胃炎急性发作时微生物组改变），那么 IPCW 估计可能仍有偏。 3. 效应量很小：Shannon 指数降低 0.22（在 1-5 的尺度上约为 4–10%）。虽然统计显著，临床相关性存疑。作者没有计算“最小临床重要性差异（MCID）”或任何类似概念，因此结论的 科学意义 可能需要进一步评估。 4. 对 Enterococcus 升高的解释：文献表明 PPI 通过降低胃酸导致小肠细菌过度生长（SIBO），而 Enterococcus 是常见 SIBO 病原菌（尤其是在小肠）。但本研究的样本来自粪便，而非小肠抽吸物，所以很难断定 Enterococcus 丰度升高到底来源于大肠内的正常驻留菌还是反映小肠道 SIBO。该结论的 生物学解释 距离完整的证据链仍有差距。作者在讨论中仅轻微提及 SIBO 解释，未深入辩论其局限性。

四、开放问题¶

问题 1：时依混杂的完全控制？ 本文使用 IPCW，假设 条件于时依协变量 \( L_{i,t} \) ，删失机制是独立的。但时依混杂的维度（如药物使用、急性症状、饮食变化）往往高且不完整。一个 更稳健的假设 可能是：\( L_{i,t} \) 中未包含关键的时依混杂（如腹痛严重程度、胃食管反流病的急性发作频率）。扎根点：论文在“讨论”部分提到“Unmeasured confounders (e.g., severity of GERD) may still bias our estimates”，但未进一步量化其影响。可否使用 E-value 或 阴性对照设计 来评估未观测混杂对点估计的敏感度？
问题 2：多重共线性与微生物组的组成数据特性：本文对多个菌属丰度进行了独立检验（共检验了~30 个属），且仅做了弱敏感性分析。扎根点：论文的“Methods”部分提到“We performed a comprehensive analysis of relative abundances of the major genera...”，但在“Results”中并未报告多重检验校正的结果（如 FDR q-values）。对此，可能可行的处理方法包括：使用 多变量 Dirichlet-Multinomial 模型 同时建模所有属的丰度；或采用 假发现率控制（如 Benjamini-Hochberg 程序） 对 p 值进行校正。一个有限但可行的后续工作是：改写该分析，加入 FDR 校正，并报告 q 值。
问题 3：结果的可迁移性与异质性分析：本文估计的是 平均因果效应（ATE），未报告 条件平均因果效应（CATE） 或按亚组分析。扎根点：论文在“Supplementary Material”中显示了 baseline 特征按启动 / 不启动分布，但未对年龄、性别、BMI、基础疾病（如糖尿病）等变量进行 异质性分析（如：效应是否在特定年龄层更强？）。可作为未来工作的一个具体问题是：是否可以使用 条件风险（CATE） 方法（如 Causal Forest）识别哪些个体对 PPI 暴露的微生物组响应更敏感？
问题 4（方法论深究）：本文采用的 clone-censor-weight 方法假设同一个体可被“克隆”到两个 arm。这种 反事实分裂 在逻辑上依赖于 SUTVA（稳定单位处理值假设）和 个体间独立（同一人的两个克隆在分析中应被视为不同个体，但现实中只有一个个体，这违反了 SUTVA 的第一部分）。一般框架对此有处理（如通过 pair-wise weights 调整），但作者未提及这一点。扎根点：论文在“Methods”部分描述了 clone-censor-weight 框架，但未讨论其 理论正当性。可检索的文献：Dickerman et al. (2023, Epidemiology) 或其他 clone-censor-weight 的原创论文对此进行了理论论证。研究此问题可成为一篇 方法论短评（Letter to Editor 或方法论 note）。

Maintained by 陈星宇 · Homepage · Source on GitHub