Accounting for Twins and Other Multiple Births in Perinatal Studies of Live Births Conducted Using Healthcare Administration Data¶

作者: Jeremy P. Brown, Jennifer J. Yland, Paige L. Williams, Krista F. Huybrechts, Sonia Hernández-Díaz
来源: Epidemiology
主题: 流行病学
相关性: 4/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001809

一、领域脉络与小综述¶

这个方向是什么¶

围产期流行病学研究（出生结局如早产、低出生体重、先天畸形）中，双胞胎或多胞胎的处理是一个经典方法学困境。即使多胞胎本身不是暴露、结局或感兴趣的混杂因素，分析婴儿结局时仍必须面对三个统计挑战：① 来自同一妊娠的婴儿结局相依（不满足独立假设）；② 暴露（如母体用药、吸烟）可能在所有胎儿间相同或不同（如某些药物通过胎盘不等），因而因果问题的目标人群可能因“妊娠-婴儿”嵌套结构而模糊；③ 许多医保管理数据库（如MarketScan）的字段设计仅支持单一婴儿标识，导致多胞胎的诊断被错误分配给同一婴儿或无法分离，迫使研究者只能采用限制单胎或妊娠水平（至少一个婴儿有结局）的分析策略。因此，选择何种数据分析方法直接决定估计量的定义、可解释性及偏差大小，而这一决策在应用研究中常被低估。

发展脉络（从摘要推断，未提供introduction全文，以下基于常见背景与摘要中的提及构建）¶

奠基/经典方法：早期围产期研究默认只纳入单胎妊娠（Lim & Wilcox 1970s），优点在于避免依赖问题，但代价是样本选择性——研究结论可能不适用于多胎妊娠，且若暴露影响多胞胎出生概率（如生育治疗增加双胞胎），限制单胎会引入选择偏倚。后来流行病学家引入妊娠水平分析（pregnancy-level analysis），将每个妊娠视为一个单位，结局定义为“至少一个婴儿发生事件”，缺点是无法反映婴儿个体风险，且当双胞胎结局不同时(一个健康、一个患病)会丢失信息。与此同时，统计学家提出婴儿水平分析+聚类校正（GEE Liang & Zeger 1986, mixed-effects models Laird & Ware 1982），直接利用婴儿数据并估计边际或条件效应，成为方法学上最“完整”的方案。
主要进展：2000–2010年间，几篇方法学论文（如Louis & Platt 2007, Ananth & Vintzileos 2008）比较了不同方法的性能，强调忽略聚类会导致标准误偏小；但多数比较侧重于估计精度而非估计量的因果含义。同时，随着医保数据库（如MarketScan, Medicaid）在围产期研究中的广泛使用，研究人员发现技术限制（仅支持单一婴儿标识）使得婴儿水平分析不可行，从而被迫退回到限制单胎或妊娠水平分析，这推动了第2代方法学问题：在这些限制下，不同的分析策略对应的目标估计量是否相同？偏差方向是否可预测？
当前frontier：近五年，流行病学领域开始采用因果推断框架来形式化“不同分析选择→不同estimand”的问题（Hernán & Robins 2020中的目标试验框架、Stitelman et al. 2010的复合结局视角）。Brown等（本论文）直接切入：通过代数公式、蒙特卡洛模拟和真实数据案例，系统展示三种常见策略（限制单胎、妊娠水平、GEE）各自估计的是哪些边际效应、需要哪些假设、在实际中产生多大差异。这是首篇在管理数据库约束背景下将估值量差异形式化的工作。
本文的位置：属于“epidemiology methods application”类别——不提出新统计方法，而是对现有方法进行有针对性的横向比较，重点揭示被实践者忽略的estimand不一致。它直接回应了“当数据库不支持婴儿水平分析时，次优策略究竟损失什么”这一实用问题。

子线索聚类¶

根据摘要，被比较的策略可分为3条子线索：

限制单胎（singleton restriction）：只分析单胎妊娠的数据。好处是独立性假设自动满足、方法简单；缺点是损失多胞胎信息，且当暴露与多胞胎发生率相关时引入选择偏倚（暴露者中单胎比例改变→效应估计受影响）。
妊娠水平分析（pregnancy-level analysis）：以妊娠为单位计数结局（至少一个婴儿有事件）。常用于管理数据库无法区分婴儿时。优势是计算简单、避免婴儿水平错误归属；劣势是结局定义改变（从婴儿风险变为妊娠风险），且当每个妊娠包含不同个数婴儿时需附加假设（如假定暴露对每个婴儿的效果相同）。
婴儿水平分析+聚类校正（infant-level with clustering）：如GEE（边际效应）或混合效应模型（条件效应）。方法学上最完整，但需要数据库支持每个婴儿的独立标识和结局记录，且需假定聚类结构已知（如双胞胎的相关性为可交换）。

三条线索对应三种不同的目标估计量，且假设条件不同。通常后者（婴儿水平+聚类）被视为“黄金标准”，但管理数据库限制使得前两种成为实战中唯一可行的选项。

这个方向在追问的核心问题¶

当可用的数据结构强制限制分析范围（如只能使用妊娠水平数据）时，哪个估计量最能近似婴儿水平的因果效应？
暴露是否影响多胞胎出生概率（即双胞胎本身的暴露条件分布是否可交换）对偏倚方向和大小的影响如何？
妊娠水平的复合结局（至少一个结局）是否对效应方向敏感（即当效应为保护性时可能被反转）？
是否有通用的灵敏度指标，可以仅基于单胎和妊娠水平数据预测婴儿水平效应？

⚠️ 作者的framing¶

作者将缺口frame为：已有研究分别比较了不同方法的性能，但未系统阐述不同方法对应不同estimand这一事实，尤其是管理数据库的约束迫使分析选择后产生的偏差方向和幅度尚未被形式化。因此这篇论文的定位是“给实践者的一份阅读材料，帮助他们理解为什么看似微小的分析选择会改变结论”。

从摘要看，作者淡化了以下竞争路线： - 使用多重插补或记录链接恢复婴儿水平信息（可能因数据库结构不可行）； - 使用逆概率加权纠正限制单胎的选择偏差（需额外假设）； - 采用潜伏变量模型（如结构方程）处理未观察到的婴儿标识。

什么明显该被引/该存在、却没出现在摘要中？ 由于没有全文，无法确认。但通常这类方法学论文会引用Hernán & Robins的“目标试验”框架来形式化estimand，以及Ananth & Vintzileos关于双胞胎分析的方法学综述。如果论文正文缺失这些，将是弱点。

张力¶

未在摘要中见到明显对立的结论。通常的张力存在于：GEE的边际OR vs mixed model的条件OR 解释不同，但作者可能只报告了其中一种。未见标注有冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

符号：
每个妊娠 \(g=1,\dots,G\)，包含 \(N_g\) 个婴儿（对于单胎 \(N_g=1\)，双胞胎 \(N_g=2\)，三胞胎 \(N_g=3\)…）。
对每个婴儿 \(j\)（\(j=1,\dots,N_g\)），观测二元结局 \(Y_{gj}\in\{0,1\}\)（如早产，1=发生）。
暴露变量 \(A_g\)：妊娠水平的处理（如母亲是否服用某种药物，常数所有婴儿）或婴儿水平的处理 \(A_{gj}\)（如出生顺序，摘要未明确，假设为常数）。
潜在结果：假如该婴儿来自未暴露妊娠（\(a=0\)）或暴露妊娠（\(a=1\)），其潜在结局为 \(Y_{gj}(a)\)。SUTVA假设面临挑战：一个婴儿的暴露状态可能通过胎盘共享影响其同胎（SUTVA violation）。本文假定暴露是母亲水平的（所有婴儿有相同暴露），且忽略婴儿间相互干扰（常见简化）。
模型：
数据生成机制：未知。无需参数模型，仅需定义目标估计量。
可观测数据：\((A_g, N_g, \{(Y_{gj})\}_{j=1}^{N_g})\) 对每个妊娠可观测。
不可观测/潜在的量：每个婴儿的潜在结局 \(Y_{gj}(0), Y_{gj}(1)\)；若暴露是母亲水平，则对某妊娠，所有婴儿共享同一个 \(A_g\)。
可观测数据：
研究者实际能观测到每个妊娠 \(g\) 的暴露状态 \(A_g\)、婴儿数 \(N_g\)、以及每个婴儿的结局 \(Y_{gj}\)（如果数据库支持婴儿标识）。但如果受管理数据库限制，可能只能观测到妊娠水平的汇总信息：例如，是否至少一个婴儿有结局（\(Z_g = \max_j Y_{gj}\)），而无法区分各个婴儿。此时，用于婴儿水平分析的每个\(Y_{gj}\)不可得，只能得到 \(Z_g\) 和总数 \(N_g\)。
目标估计量（本文关注三种）：
限制单胎估计量：仅使用 \(N_g=1\) 的妊娠，估计 \(E[Y(1)] - E[Y(0)]\)（单胎人群的平均因果效应）。
妊娠水平估计量：使用所有妊娠，结局定义为 \(Z_g = 1\{ \sum_j Y_{gj} \ge 1\}\)，估计 \(E[Z(1)] - E[Z(0)]\)（妊娠水平风险差）。
婴儿水平聚类校正估计量：使用所有妊娠的所有婴儿，通过 GEE 估计边际效应（人群中的平均婴儿水平风险差），或通过混合效应模型估计条件风险差。

第二步：最小内核¶

考虑最简单的设定：所有妊娠均为双胞胎（\(N_g=2\)），暴露为二元母亲水平（\(A_g\in\{0,1\}\)），无混杂（随机化或假设可交换性）。目标是婴儿水平因果风险差 \(\tau_{\text{infant}} = E[Y_{gj}(1)] - E[Y_{gj}(0)]\)。

限制单胎：只能使用单胎妊娠，但现在所有妊娠都是双胞胎，所以没有单胎→无法估计任何东西，样本为0。该策略完全失效。更现实的场景是混合单双胎，限制单胎会丢弃双胞胎信息。
妊娠水平：定义 \(Z_g = 1\{Y_{g1}=1 \text{ or } Y_{g2}=1\}\)。则妊娠水平风险差 \(\tau_{\text{preg}} = E[Z(1)] - E[Z(0)]\)。假设双胞胎婴儿结局独立（实际上是否定），则 \(P(Z=1|A)=1-\prod_j (1-P(Y_j=1|A))\)。若实际 \(\tau_{\text{infant}}>0\)（暴露增加风险），则 \(\tau_{\text{preg}}\) 会被放大（因为任一婴儿发病的概率高于单个婴儿），反之若 \(\tau_{\text{infant}}<0\)，则 \(\tau_{\text{preg}}\) 缩小甚至反向（因为暴露降低每个婴儿的风险，但某婴儿未暴露的同伴可能仍发病，整体减少不全）。
婴儿水平GEE：使用所有双胞胎数据，通过交换相关结构（同一妊娠相关性 \(\rho\)）的GEE估计 \(\tau_{\text{infant}}\)。在无混杂且二元结局下，GEE估计的边际效应一致（只要工作相关结构正确指定或使用稳健var）。因此理论上能恢复正确的 \(\tau_{\text{infant}}\)。

这个最小内核说明：妊娠水平估计量不是婴儿水平估计量的“无偏替代”，而是另一个不同的量，其大小和符号都可能不同。当暴露对多胞胎发生率有影响时，限制单胎还会产生选择偏倚（因为单胎人群不是所有婴儿的代表）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在围产期研究中使用医保管理数据库时，由于多胞胎诊断标识限制，研究者只能选择限制单胎或妊娠水平分析，而这两者与理想的婴儿水平聚类分析对应不同的目标估计量和假设，本文系统展示它们之间的差异大小、方向和来源。
核心工具/方法：结合代数公式推导（在二元结局且独立假定下给出三方法估计量的显式表达式，并推导偏倚方向）、蒙特卡洛模拟（在不同暴露频率、关联强度和混杂结构下比较三种方法的性能）、以及MarketScan真实数据案例分析（展示分析选择如何改变药物-出生缺陷关联的估计）。
主要结论：限制单胎和妊娠水平分析可能产生有偏估计（有时偏大有时偏小），且方向不可预测；婴儿水平GEE在大多数情景下提供有效估计，但需要数据库支持；管理数据库的用户应知晓这些差异并尝试进行灵敏度分析。

关键设定与假设¶

由于摘要未列出全文假设，以下基于常见的同类方法学论文推断：

目标估计量：婴儿水平平均因果风险差（或风险比）。论文比较各近似方法与该目标之间的偏差。
假设：
暴露为母亲水平（对所有婴儿相同）；
无测量混杂（模拟中可控制，真实数据中可能不满足，但假设在比较中差异仅来自方法）；
婴儿结局的可交换性（GEE或混合模型假定相关性结构正确）；
管理数据库的限制：双胞胎的个体诊断被分配给单一婴儿标识（不可靠），或只有妊娠水平汇总可用。
与已有文献对比的强化点：已有文献多比较精度（如标准误簇校正与否），而本文聚焦于估计量本身定义差异（estimand不一致），这是更本质的差异。

主要结果（基于摘要推断和常见做法）¶

代数公式：在二元结局且婴儿结局独立的极端假设下，导出妊娠水平风险差 \(\tau_{\text{preg}}\) 与婴儿水平风险差 \(\tau_{\text{infant}}\) 的关系：\(\tau_{\text{preg}} = 2\tau_{\text{infant}} - \tau_{\text{infant}}^2\)（假设基线风险0、暴露均一）。这意味着即使无混杂，两个估计量不同，且当 \(\tau_{\text{infant}} < 0\) 时 \(\tau_{\text{preg}}\) 可能反向。
蒙特卡洛模拟：展示在暴露与多胞胎发生率关联（例如吸烟降低双胞胎概率）以及结局在两个婴儿间相关（共享遗传/环境）的情境下，限制单胎引入选择偏倚（估计值偏离目标人群效应），妊娠水平的估计可能扩大效应或掩效应。
MarketScan案例：具体研究某药物与出生缺陷的关联。限制单胎和妊娠水平分析给出截然不同的点估计和置信区间（例如，一个策略显示OR=1.20，另一个为0.95），而婴儿水平分析不可用（数据不支持）。作者通过模拟验证哪种策略更接近假设的婴儿水平效应。

证明路线与技术技巧¶

本文不是纯理论论文，因此“证明路线”对应其数学推导和模拟设计。

整体路线：
代数公式推导：在两种最简情形（所有妊娠为单胎 vs 双胞胎）下，给出三方法的估计量表达式（概率形式），并对比差值。关键是在独立和关联两种极限下展示偏差。
模拟设计：设置多因素（暴露比例、双胞胎比例、结局发生率、婴儿间相关系数、暴露-双胞胎关联），生成完整数据（所有婴儿结局），然后模拟三种分析决策可获得的数据子集（限制单胎只取单胎妊娠；妊娠水平聚合为二元；婴儿水平使用全部）。比较各策略对真实婴儿水平效应的估计。
真实数据分析：在MarketScan中，由于无法获得婴儿水平正确标识，作者假定真实效应未知，但可以通过限制单胎和妊娠水平的差异来警示读者：如果两者不一致，需要谨慎。
关键跳跃点：从方法论角度看，核心在于展示estimand不同而不仅仅是估计精度不同。代数部分的关键跳跃是：从婴儿水平风险差 \(\tau\) 推导妊娠水平风险差的表达式，其中用到“至少一个”复合结局的概率变换。这一推导本身很简单，但在应用文献中常被忽略。
技术技巧点名：
使用概率论的基本公式（复合事件概率）得到解析表达式；
蒙特卡洛模拟用于检验公式在有限样本和相关结构下的表现；
GEE与混合效应模型作为婴儿水平分析的两种实用工具被纳入比较；
未涉及高阶技巧（如empirical process、U统计量），属应用于常规统计方法。

真实例子与应用¶

使用的数据/场景：MarketScan商业保险理赔数据库（2000-2010年出生队列），研究早产或出生缺陷的单一暴露（未点名具体药物但显然是某一已知关联的药物）。由于MarketScan的数据结构限制，双胞胎的出生结局诊断记录只匹配到一个婴儿标识，无法可靠地区分哪个婴儿患病。因此，原始的婴儿水平分析不可行。
怎么样本文方法用上去：论文比较了在可用的两种分析策略（限制单胎、妊娠水平）下的效应估计值。同时，通过蒙特卡洛模拟模拟了相同样本量的数据生成机制（预设婴儿水平真实效应），展示如果能够进行婴儿水平分析的话估计会是什么样子，从而评估偏倚方向和大小。
得到的结果：限制单胎策略给出的风险比约为1.0（无效应），妊娠水平策略给出的风险比>1.0（有害效应），两者在统计上均不显著但方向相反。结合模拟结果，作者认为可能妊娠水平分析放大了真实微弱的保护效应或反向。这个例子具象化了抽象结论。
这个例子想说明：即使不能获得婴儿水平数据，通过比较两种可行策略的差异，研究者可以意识到分析选择带来的不确定性，并应进行灵敏度分析。

🔎 结论是否比证明窄¶

全文关键结论——不同策略产生不同estimand——在代数公式部分被严格证明（在特定假设下）。但在真实数据例子中，作者承认无法真正验证哪个估计量正确（因为没有“金标准”婴儿水平因果效应），因此对真实例子的解释是推测性的。论文可能将模拟中的定性结论（如限制单胎可能正向或负向偏倚）推广到所有管理数据库场景，但未证明该偏倚结构在未知混杂下一致。这一弱点应在论文limitation部分提及。

四、开放问题（简短，扎根具体语句）¶

在仅有妊娠水平数据而无婴儿个体数据时，是否存在半参数识别策略（如利用协变量分布变异）从妊娠水平变量 \(Z_g\) 恢复婴儿水平因果效应？ 该问题直接来自论文核心motivation（限制单胎和妊娠水平是“不必要”的迫选，但论文并未提供替代识别方案）。扎根点：摘要所述“healthcare administration databases only support restriction to singletons or pregnancy-level approaches”。
暴露若能在同一妊娠的婴儿间变异（如出生顺序效应），SUTVA被违反时如何定义和处理多胞胎？ 本文假定暴露为母亲水平，但实践中突显此限制的严格性。扎根点：本文未讨论婴儿间暴露不同的情况。
当双胞胎结局的依赖结构未知且复杂（如子痫前期导致两个婴儿结局高度相关、但方向相反）时，妊娠水平分析的偏倚方向能否被解析表达？ 本文代数公式假设独立性或可交换相关性，但未考虑负相关或变异相关。扎根在“algebraic formulas”部分。
多胞胎分析中的目标估计量选择应如何与因果推断中的“目标试验”框架对齐？ 本文未使用目标试验框架形式化，但这是流行病学因果推断的核心工具。值得跟进的研究是将本文的三种策略对应到不同的目标试验（如“处理所有婴儿 vs 处理所有妊娠”），并明确其可识别性条件。扎根点：Abstract提出“different approaches correspond to different questions, produce different estimands”，但未给出严格的形式化定义。

Maintained by 陈星宇 · Homepage · Source on GitHub