Hypertensive disorders of pregnancy, maternal cardiovascular disease mortality and the role of familial predisposition: a Norwegian population-based sibling-comparison, sibling-spillover and negative-control cohort study¶
作者: Aditi Singh, Sage Wyatt, Liv Grimstvedt Kvalvik, Rolv Skjærven
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1093/aje/kwaf257
一、领域脉络与小综述¶
这个方向是什么¶
本子方向的核心问题:如何利用家庭内部对照(兄弟姐妹、配偶兄弟姐妹)来分离暴露对结局的“个体因果效应”与“共享家族因素(遗传/环境)的混杂作用”。它本质上是观察性因果推断中处理未观测混杂的一种特殊策略——当随机对照实验不可行时,利用家庭内的血缘关系和婚姻关系构造“准自然对照”。当前该方向在流行病学中应用广泛,但其识别假设(特别是阴性对照设计的“排除性”条件)在理论上的严格性、以及不同家庭内设计之间结果不一致时的合理解释,仍是开放问题。
发展脉络(从introduction+引用的工作串起)¶
关键节点按时间线:
-
奠基工作:建立HDP-CVD关联(文章第一句引用)——
Mogren et al. (1997)和Bellamy et al. (2007)等早期队列研究首次报告妊娠期高血压疾病(HDP)与后续母亲心血管疾病(CVD)风险相关。这些工作基本是群体水平的关联估计,留下口子:无法区分“HDP本身致病” vs. “与HDP共享先兆风险因素(如肥胖、遗传易感性)的个体本就有更高的CVD风险”。 -
亚型异质性的发现(introduction 2-3句)——
Skjaerven et al. (2012)和Haug et al. (2023)在挪威数据中区分早产子痫前期 vs 足月子痫前期,发现不同HDP亚型的CVD风险差异显著。Guedes-Martins (2023)进一步提出了“低风险轨迹”的概念(仅足月妊娠高血压/足月子痫前期后无复发)与“高风险轨迹”(早产子痫前期/复发/合并其他并发)。留下口子:这些异质性是从个体层面还是共享家族层面来的?即:高风险轨迹反映的是“更差的HDP病理过程→更严重的CVD后果”,还是“有家族CVD风险的女性本身就更容易得高风险HDP”? -
兄弟姐妹比较的发展(introduction中间段落)——
O'Reilly et al. (2019)总结了利用不同意HDP姐妹(discordant-sisters)来部分控制家族混杂:如果调整家庭固定效应后风险减弱,说明家族因素存在。但Mohseni et al. (2022)和Kravdal et al. (2023)对这种设计的“交换性假设”提出了质疑,认为观察到的一致性偏差也可能源于个体水平上不同的未观测时变混杂。留下口子:兄弟姐妹比较本身不能完全排除时变混杂,且无法量化家族因素的贡献大小。 -
阴性对照设计的引入(introduction倒数第二段)——
Sanderson et al. (2013)和Lipsitch et al. (2010)在方法学上提出阴性对照(negative control)——一个已知与结局无关但受相同混杂影响的“安慰剂暴露”——来检测残留混杂。本文进一步将其扩展到家族成员之间:利用“妯娌(丈夫兄弟的妻子)的HDP史”作为阴性对照,因为妯娌之间无直接遗传关系,但可能共享环境。
子线索聚类¶
这些被引文献大致落在三条子线索:
-
线索A:HDP-CVD关联的流行病学描述(Mogren 1997, Bellamy 2007, Skjaerven 2012, Haug 2023, Guedes-Martins 2023)——关注点:HDP亚型、早产/足月、严重程度与CVD风险的关系。方法多为传统Cox模型+人群水平调整。特征是“关联估计准确,因果识别的警惕性中等”。
-
线索B:兄弟姐妹比较及其偏倚(O'Reilly 2019, Mohseni 2022, Kravdal 2023)——关注点:家庭固定效应估计是否能消除共享混杂、什么是可行的交换性假设。特征:方法争议大,理论偏倚界不清晰。
-
线索C:阴性对照在流行病学中的应用(Sanderson 2013, Lipsitch 2010)——关注点:如何构造阴性暴露/阴性结局,以及阳性结果的敏感性分析。特征:主要是概念框架,具体到家庭层面的应用非常有限。
核心问题¶
- 异质性的驱动因素:高危HDP轨迹 vs 低危轨迹的CVD风险差异,究竟多大程度来自个体(HDP本身的病理效应),多大来自共享家族因素(遗传易感性、家庭环境)?
- 家庭内对照设计的识别假设:在什么条件下, siblings-comparison 能有效消除所有共享混杂?阴性对照的“排除性假设”在家庭环境里能成立吗?(即:妯娌的HDP除了通过共享环境以外,不会通过其他路径影响结局)
- 多设计的整合解释:当兄弟姐妹比较和阴性对照给出不同信号时(如本文:姐妹溢出有效、妯娌溢出无效),如何统一推断?
⚠️ 作者的framing¶
作者把缺口frame成:“缺乏区分个体因素和共享家族因素贡献的联合设计”。他们的“显然的下一步”是:在同一个群体中同时应用三种设计——兄弟姐妹比较(部分消除共享混杂)、兄弟姐妹溢出(估计家族因素上限)、阴性对照(检验是否确实有共享因素信号)——利用它们给出的模式进行三角验证(triangulation)。作者淡化的竞争路线:直接测量遗传信息或环境因素(如全基因组关联分析、控制肥胖、教育等可观测变量),因为挪威注册表没有完善的遗传数据。明显该被引用但缺失的:Davey Smith (2011) 的“孟德尔随机化”在妊娠并发症CVD风险中的应用;Hernán & Robins (2020) 关于因果图识别假定的系统论述。这两篇至少能帮助作者更正式地讨论排除性假设。
张力¶
未见明显对立引用。但在兄弟/姐妹比较的偏倚方向上,Mohseni et al. (2022) 与 O'Reilly et al. (2019) 的结论有微妙张力:前者认为兄弟姐妹比较即使控制了家庭固定效应,仍可能被个体水平的时变混杂所偏倚,后者则认为家庭固定效应几乎是“金标准”。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号: | 记号 | 含义 | 类型 | |---|---|---| | \(i\) | 个体女性索引 | 单位 | | \(f(i)\) | 女性 \(i\) 所属的出生家庭(父母) | 聚类 | | \(s(i)\) | 女性 \(i\) 的婚姻家庭(丈夫的出生家庭) | 聚类** | \(A_i\) | HDP暴露:\(A_i \in \{0, \text{low-risk},\text{high-risk}\}\) | 分类暴露(随机变量) | | \(Y_i\) | 结局:70岁前CVD死亡 | 二元/事件时间(随机变量) | | \(\mathbf{Z}_i\) | 个体水平可观测混杂(如出生年份、教育) | 观测协变量(多维) | | \(U_i\) | 未观测共享家族混杂(遗传+早期环境) | 潜变量 | | \(\beta = \text{E}[Y_i(1)-Y_i(0)]\) 之类 | 个体因果效应 | estimand | | \(\text{HR}\) | 风险比(hazard ratio) | 未知参数 |
模型/数据生成机制: - 基本结构:每个女性 \(i\) 与其亲姐妹 \(j \neq i\) 共享同一个出生家庭 \(f(i)\),因而共享一部分 \(U_i\)(遗传易感性、童年社会经济环境)。婚姻将两个家庭联系起来:女性 \(i\) 与丈夫 \(h(i)\) 结婚,丈夫的兄弟们的配偶 \(k\)(\(i\)的妯娌)来自另一个出生家庭 \(s(i)\),她们与 \(i\) 无直系血缘关系——因此不共享 \(U_i\),但可能共享后期家庭环境(如婚姻家庭的生活方式)。 - 因果图可以简化为:\(A_i \rightarrow Y_i\);\(U_i\) 既影响 \(A_i\) 又影响 \(Y_i\)(混杂);可观测协变量 \(\mathbf{Z}_i\) 影响 \(A_i\) 和 \(Y_i\)。 - 假设:SUTVA(无交叉效应,即姐姐的HDP不会直接影响妹妹的CVD死亡,除非通过共享 \(U_i\));条件可交换性需要根据设计调整(见下文)。
可观测数据: - 每位女性 \(i\):\(A_i\)(HDP轨迹分类)、\(Y_i\)(CVD死亡时间)、\(\mathbf{Z}_i\) - 出生家庭 \(f(i)\) 内所有姐妹的 \(A_i, Y_i, \mathbf{Z}_i\) - 婚姻家庭 \(s(i)\) 内所有妯娌的 \(A_i, Y_i, \mathbf{Z}_i\)(用于阴性对照) - 不可观测:\(U_i\)(共享家族混杂) - 关键点:我们没有直接测量 \(U_i\)(如遗传多基因风险评分或家庭财富),只能通过设计去部分地控制它。
第二步:最小内核——最简例子¶
为了理解整篇论文的核心思路,考虑一个最简特例:
- 只有 两个出生家庭:家1(姐妹 \(i\) 和 \(j\))、家2(姐妹 \(k\) 和 \(l\))
- 只有 一种HDP暴露:\(A_i \in \{0,1\}\)(有/无HDP),不考虑高/低风险轨迹。
- 只有 一种结局:\(Y_i\)(70岁前CVD死亡,假设我们只看是否发生,不考虑时间)
- 家族混杂 \(U_i\) 是一个加性的标量:\(U_i\) = \(U_{f(i)} + e_i\),其中 \(U_{f(i)}\)是家庭固定效应,\(e_i\)是个体异质性。
- 一个婚姻:女性 \(i\) 与男性 \(m\) 结婚,\(m\) 与 \(k\) 结婚(所以 \(i\) 与 \(k\) 是妯娌)。
现在文章在做什么?
它使用四种模型来层层逼近 \(\text{HR}_{A\rightarrow Y}\):
模型1(群体水平):
模型2(兄弟姐妹比较): 仅用 HDP不一致姐妹对(\(A_i \neq A_j\))。通过家庭固定效应模型(等价于 家庭内差异):
模型3(兄弟姐妹溢出): 对于没有HDP的女性(\(A_i=0\)),将“姐姐有HDP”(\(A_{sister}=1\))作为新暴露:
模型4(阴性对照,妯娌溢出): 对于 \(A_i=0\)且丈夫的兄弟之妻(妯娌)有HDP 的女性:
本文的基本逻辑:\(\beta_1 > \beta_2\) 且 \(\beta_2 > 0\) 表明共享混杂和个体效应都在起作用;\(\beta_3 > 0\) 且 \(\beta_4 \approx 0\) 则进一步表明共享混杂主要来自遗传而非共同环境。
在这个例子中,整篇文章的核心就是K个模型 + 一个三阶段推断策略,用同一个大数据集来给不同模型提供识别信号。
目标:读者读完此例,已经知道在非常简单的设定下,论文在做什么、如何做——下一步就是把它扩展到具体的高/低风险轨迹、更复杂的协变量调整、以及Cox比例风险模型中的细节。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题? 在挪威全国注册登记的约110万女性中,区分 HDP 不同轨迹(低风险 vs 高风险)对母亲70岁前 CVD 死亡风险的异质性影响,并评估共享家族因素(遗传+环境)对 CVD 死亡率差异的贡献。
- 核心工具/方法:同时使用四种设计——(1)群体水平Cox模型(基线参照),(2)兄弟姐妹比较(discordant-sisters,控制家庭固定效应),(3)兄弟姐妹溢出(sister's HDP history 对无HDP女性的影响),(4)阴性对照(妯娌 HDP history)。通过三种信号(个体效应、共享因素、环境因素)的三角验证来分解贡献。
- 主要结论:高风险轨迹女性的CVD死亡率显著升高(aHR=1.89),且即使在兄弟姐妹比较后仍存在(aHR=1.51),说明个体特异性因素是CVD死亡率异质性的主因。而无HDP女性有HDP姐妹时CVD死亡风险略微升高(aHR≈1.25),但有HDP妯娌则无变化(aHR≈1.01),表明共享家族因素(主要来自遗传)仅起到有限作用。
关键设定与假设¶
在第二节最小内核基础上,补全完整设定:
- 数据:挪威医疗出生登记(MBRN)+ 挪威死因登记(1967-2020),共1,106,658名有完整妊娠史的女性,其中628,345名有至少一个全同胞姐妹。
- 暴露分类:根据首次妊娠后所有妊次的HDP模式,将女性分为三组——无HDP(从未得HDP)、低风险轨迹(首次HDP为妊娠高血压或足月子痫前期,且后续无复发)、高风险轨迹(所有其他HDP模式,包括早产子痫前期、复发性HDP、以及合并其他不良妊娠结局)。
- 结局:70岁前CVD死亡(ICD-8/9/10编码:390-458; I00-I99等)。事件时间:从首次生育至70岁死亡、或2020年12月31日的删失。
- 调整:出生年份(5年组)、教育水平(基本/中等/高等)、生育年龄(<20, 20-34, ≥35岁)、婚姻伴侣的教育。
- 设计假设:
- 兄弟姐妹比较:假设在同一个家庭群体内,关于HDP暴露的可交换性成立(条件于可观测协变量)。即:不同HDP状态的姐妹之间的CVD风险差异仅来自HDP本身,而不是由个体水平的时变混杂(如产前吸烟、体重增加)引起的。这个假设最强,且作者承认它很难完全成立。
- 兄弟姐妹溢出:假设无交叉效应。即:姐姐的HDP不会直接影响妹妹的CVD死亡,除非通过共享家族混杂。若此假设成立,则姐妹溢出的HR解释为家族因素贡献的上界。
- 阴性对照:假设妯娌的HDP除通过共享婚姻家庭的生活习惯等环境影响外,无其他路径影响无HDP女性的CVD死亡率——即:妯娌的遗传风险无关,且不存在除共享环境之外的共同因果路径(如婚姻家庭中共同暴露于某种污染)。这是最弱的假设,也是识别中最关键的一步。
主要结果¶
描述性结果: - 高风险轨迹组 vs 低风险轨迹组:高风险组女性的平均生育年龄更小,教育水平更低,早产率明显更高(15% vs 2%),更可能吸烟(26% vs 22%)。这首先支持了风险轨迹的外部有效性。
Cox模型(群体水平): - 低风险轨迹:aHR=1.03,95%CI (0.89-1.20)——几乎无升高。 - 高位险轨迹:aHR=1.89,95%CI (1.74-2.06)——CVD死亡率几乎翻倍。 → 结论:仅有高风险轨迹有实质性关联。
兄弟姐妹比较: - 仅纳入有≥1个全同胞姐妹且形成 discordant pairs 的5,590个出生家庭的女性(8,026名HDP女性和她们的姐妹)。 - 低风险轨迹:aHR=0.66,95%CI (0.44-1.01)——风险降低(但可信区间包含1)。 - 高风险轨迹:aHR=1.51,95%CI (1.16-1.97)——风险仍然显著。 → 高风险轨迹的效应在控制家庭固定效应后仅略下降(从1.89降至1.51),表明个体因素占主导。
兄弟姐妹溢出: - 无HDP女性,若有一名姐妹为低风险轨迹:aHR=1.28,95%CI (1.03-1.60);若姐妹为高风险轨迹:aHR=1.25,95%CI (1.06-1.49)。 → 共享家族因素对无HDP女性的CVD死亡风险有轻微升高(≈25%)。
阴性对照(妯娌): - 无HDP女性,若有一名妯娌为低风险轨迹:aHR=1.10,95%CI (0.85-1.40);若为高风险轨迹:aHR=1.01,95%CI (0.83-1.22)。 → 两个HR均接近1且不显著——与姐妹溢出的结果形成对比。这提示姐妹溢出信号主要来自遗传(而非共享环境)。
综合推断: - 兄弟姐妹比较表明:个体因素解释了大部分风险差异(1.89→1.51),个体因素是HDP-CVD关联的主因。 - 姐妹溢出(1.25)减去妯娌溢出(1.01)≈0.24,可解释为遗传因素的贡献上限。 - 家族因素解释的方差不大,但确实存在。
证明路线与技术技巧(无严格定理证明,因此是方法设计路线)¶
本文是一个应用型论文,无理论证明,但它的“多层面推断策略”本身是一种方法组合与三角验证,可以拆解为逻辑主干:
-
第一步:分组构建。利用所有妊次数据对HDP轨迹进行分类(群体分类规则)。这是分析的基础,作者引用了Guedes-Martins (2023)的先前工作来支持分类的预后意义。
-
第二步:基线群体水平分析。用标准Cox比例风险模型锦给全生育群体的HDP轨迹与CVD死亡率的关系——在有条件调整下有提供HR。这一步建立“基准”——虽然可能受混杂影响。
-
第三步:家庭固定效应分析(兄弟姐妹比较)。这一步是对基线的修正:在家庭层面控制所有共享混杂(遗传+早期环境),只利用HDP不一致对来识别效应。关键技巧:不是简单stratify by家庭,而是要求家庭内至少有一名HDP女性和一名无HDP女性,因此分析仅限于“discordant family”子集。这个子集的选择可能引入选择偏倚(Issues of collider stratification by family discordance — 但本文未讨论)。
-
第四步:家族因素量化(溢出设计)。上面的家庭固定效应控制了共享混杂,但它不能告诉我们“共享混杂有多大”。为了量化它,作者转为在无HDP的女性中分析。如果共享家族因素(\(U_f\))同时影响HDP和CVD,那么有HDP姐妹的\(U_f\)值就更高——应该看到“姐妹的HDP→CVD”的溢出效应。关键在于SUTVA(无交叉效应)的保持。
-
第五步:环境 vs 遗传分离(阴性对照)。最后,用妯娌的HDP(非血缘关系)来做阴性对照。如果妯娌溢出>姐妹溢出,说明共享环境是主要传递渠道;如果姐妹溢出>妯娌溢出(本文这样),则遗传是主机制。这个解释依赖于阴性对照的排除性假设:妯娌的HDP不影响无HDP女性的CVD —— 这隐含了它们没有通过配偶的生物学过程传递或通过某些未观测的家庭环境中介。
技巧点名:
- 三角验证(triangulation):非正式的敏感性分析方法——用多个设计从不同角度逼近同一效应,如果结果彼此一致(或符合预期的不一致),则可信度提高。
- 阴性对照在家庭层面上的应用:这是本文的创新点之一——将Lipsitch等人提出的通用阴性对照概念(阴性暴露/阴性结局)具体化为“姐妹的HDP(阳性对照)”和“妯娌的HDP(阴性对照)”。
- 潜在假定:无交叉效应和SUTVA——在家庭结构中这是很强的假设,本文引用了O'Reilly (2019) 对此假设的讨论但未深入检验它。
真实例子与应用¶
数据:挪威全国注册数据(1967-2020年)。研究者使用了所有有完整妊娠史的女性(N=1,106,658),其中628,345有至少一个全同胞姐妹。
如何应用本文方法: - HDP轨迹分类:回归到全队列的妊次记录,手工应用规则。 - 群体分析:对所有女性。 - 兄弟姐妹比较:对5,590个家庭(至少1 HDP+1 non-HDP姐妹对)。 - 溢出分析:对所有无HDP女性,看姐姐/妹妹是否有HDP。 - 阴性对照:对所有无HDP女性,看妯娌是否有HDP(通过丈夫出生家庭标识进行匹配)。
结果:如前述主要结果。该实证例子想说明:只有在高风险HDP轨迹下,个体因素而非家族因素占主导;低风险HDP轨迹的CVD风险极低;共享的家族因素(遗传)只是轻微放大CVD风险。
🔎 结论是否比证明窄¶
重要限制: - 兄弟姐妹比较的识别假设可能被违反。作者承认“时变混杂”(如产前体重增加、血压监控与内科处理)在“discordant sisters”对之间可能不平衡——但他们没有提供对剩余偏倚的界限(如E值或O值分析)。这是最需要读者谨慎的。 - 阴性对照的排除性假设没有被检验。妯娌的HDP除了共享婚姻环境之外,是否还可能通过丈夫或医生获得额外的CVD知识/预防?这可能性虽小,但不能排除。作者在讨论中承认了这一点(Discussion第7段:“...we cannot fully exclude the possibility of residual confounding through shared household behaviors”)。 - 家庭固定效应模型在Cox比例风险中如何实现?本文没说清楚是用stratified Cox还是conditional logistic regression。读原文可查Methods段。
四、开放问题(扎根具体语句)¶
-
阴性对照的排除性假设的正式检验与敏感性分析
作者在Discussion明确写:“...the exclusion restriction assumption(of the sister-in-law negative control)is not directly testable”。直接可问:能否用辅助变量(如丈夫是否提供配偶的CVD预防性用药、家庭年收入)来构造一个“刚性”的排除性假设检验?或用proximal causal inference的框架,把妯娌HDP当作负对照变量,将未观测混杂 \(U\) 的维度降为1?本条可以从作者自己的Lipsitch (2010)引用和用户的“proximal CI”兴趣对接。 -
兄弟姐妹比较的时变混杂偏倚方向
作者承认(Discussion第5段):“sibling-comparison might be affected by time-varying confounding in the interval between first and subsequent pregnancies”。能做什么:对时变混杂进行敏感分析,比如假设一个加性偏倚项 \(\gamma_{t}\),量化需要多强的时变混杂才能把aHR=1.51拉到1.0。或者用逆概率加权(IPW)方法对妊娠中期体重增加和血压管理进行模拟调整。用户的M-estimation和权重方法工具可做。 -
将家庭固定效应模型推广到四类设计不走重叠数据
本文四个模型分别在不同子集上运行:兄弟姐妹比较用discordant家庭,溢出用全队列的无HDP女性,阴性对照在同样的无HDP但查妯娌记录。这样的“分治”估计没有统一纳入同一个影响图或反事实框架。开放问题:能否构建一个统一的加法结构模型(例如半参数结构方程模型),同时包含个体效应 \(\beta_{\text{individual}}\)、遗传效应 \(\beta_{\text{genetic}}\)、环境效应 \(\beta_{\text{environment}}\),对所有四种设计使用同一个加权伪似然来估计?这能提高效率并允许形式化的假设检验。 -
应用时变暴露到HDP轨迹分类
本文的HDP轨迹分类是“一次性”的——基于首次妊娠后所有妊次的模式。但在纵向数据中,HDP状态可能在妊娠间是时变的,且Cox比例假定的比例性可能随妊娠次增加而变化。开放问题:能否将HDP处理当作一个时变暴露(time-varying exposure),用边际结构模型(MSM)+ IPW来估计其因果效应,并同时将遗传信息作为 instrumental variables 通过 family structure?这可能比静态轨迹更忠实于因果链。
Maintained by 陈星宇 · Homepage · Source on GitHub