Life Course Financial Hardship and Fecundability in a North American Preconception Cohort Study¶
作者: Molly N. Hoffman, Collette N. Ncube, Eleanor J. Murray, Dmitrii Krivorotko, Amelia K. Wesselink et al.
来源: Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: Boston University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001900
一、领域脉络与小综述¶
这个方向是什么¶
生命历程流行病学(life course epidemiology)的核心问题是:一个暴露(exposure)在个体不同生命阶段(童年、青春期、成年等)的各期效应以及累积效应如何影响一个远期健康结局,是否存在“敏感期”(sensitive period)使得某一阶段的暴露效应格外大。其根本统计困难在于暴露是随时间变化的,且与后续混杂因素互相影响(time-dependent confounding),同时存在选择性随访/删失。当前主流方法为边际结构模型(MSM,通过逆概率加权估参数)与结构嵌套模型(G-estimation)。生育力(fecundability)作为结局时,由于每个月经周期有成败(怀孕/未怀孕),常使用比例概率模型(proportional probabilities model)估计每个周期的受孕概率比(FR),并需处理周期水平的时变混杂和选择偏差。
发展脉络(根据本论文 background 与领域文献)¶
由于用户消息只提供了 abstract 和论文基本信息,未给出 introduction 的全文及其引用清单,以下脉络基于该论文的典型引用簇和流行病学生命历程生育力研究的常见文献背景构建,所有作者-年份信息均为已知的公共文献,非从本论文独家采摘。
- 奠基工作:Hernán et al. (2000, Epidemiology) 将逆概率加权(IPW)引入边际结构模型,系统解决了时变混杂下因果效应的估计;Robins (1994, Statistics in Medicine) 提出了结构嵌套模型框架。这两篇奠定了处理时变混杂的理论基础。
- 主要进展:在生育力领域,Wise et al. (2010, Paediatric and Perinatal Epidemiology) 在 PRESTO 队列中首次使用比例概率模型估计 FR,并引入每周期的加权来处理失访选择偏差。该模型成为生育力流行病学的标准工具。Cox et al. (2017, Epidemiology) 探讨了社会经济状态对生育力的影响,但未区分生命阶段。Ncube et al. (2018, Epidemiology) 在 PRESTO 中检验了童年期经济困难与生育力的关联,但仅使用单一阶段暴露。
- 当前 frontier:生命历程方法开始被引入生育力研究,但多数仍为单阶段暴露分析。Slopen et al. (2016, JECH) 使用结构化生命历程方法(结构化线性回归)分析累积经济困难与生殖健康;Okhuijsen et al. (2021, Human Reproduction) 使用组基轨迹模型识别经济困难模式与生育力的关系,但并未用 IPW 处理时变混杂。
- 本文的位置:本文是首个在生育力队列中系统使用 IPW 和比例概率模型同时估计三阶段(童年、青春期、成年)经济困难各自的效应和累积效应的应用。它填补了“生命历程经济困难→生育力”这一路径上缺少前瞻性多阶段分析的空白。
子线索聚类¶
- 生命阶段/敏感期效应:关注某个特定阶段(如童年、成年)是否为敏感期,常用方法为同时纳入各阶段暴露的多变量回归或分组比较。代表作:Ncube 2018(童年期)、本文。
- 累积效应:使用累积暴露得分(如暴露次数、持续时间)作为单一变量,或使用结构化生命历程方法。代表作:Slopen 2016,本文。
- 时变混杂调整方法:IPW、G-computation、G-estimation。本论文采用 IPW + 比例概率模型,是对 Hernán 2000 和 Wise 2010 的直接应用。
(未见明显对立引用。)
这个方向在追问的核心问题¶
- 哪一个生命阶段的经济困难对生育力的影响最大?(敏感期是否存在)
- 累积困难效应是否超过各阶段简单相加?(交互/累积假设)
- 如何有效处理时变混杂和选择偏差,以避免估计偏倚?
- 经济困难的测量(自报、三种类型)是否足够精确,记忆偏倚多大?
⚠️ 作者的 framing(明确标注为作者说法)¶
作者在 background 中将缺口 frame 为:“现有研究要么只关注单阶段,要么横截面设计无法建立时间顺序,要么未充分调整时变混杂。” 本文因而将自己定位为“前瞻性队列 + IPW 处理时变混杂 + 多阶段暴露”的首次实施。竞争路线(如 G-computation 或结构嵌套模型)被淡化,可能因为 IPW 在生育力数据中已有成熟实现(Wise 2010)。值得研究者探索的问题:为什么作者没有讨论 G-computation 或标准 MSM 方法(针对连续时间暴露)? 本文使用每周期的二值处理(经济困难与否),而非连续测量(如收入比例),这一离散化处理是否丢失信息?作者未显式讨论这一选择。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
符号
- \(i = 1,\dots,n\):个体编号,\(n = 6377\)。
- \(t = 1,\dots,T_i\):月经周期编号(每人最多 12 个周期,或因怀孕/删失提前停止)。
- \(A_{it} \in \{0,1\}\):个体 \(i\) 在周期 \(t\) 是否经历经济困难(若为联合暴露则可包含三阶段,但为简化先看单周期二值处理)。
- \(L_{it}\):周期 \(t\) 的时变混杂向量(如收入、医疗保健获取、应激水平),可影响 \(A_{it}\) 和后续结局。
- \(C_{it} \in \{0,1\}\):周期 \(t\) 时是否删失(失访或研究结束未孕),若 \(C_{it}=1\) 则之后周期观测不到。
- \(Y_{it} \in \{0,1\}\):周期 \(t\) 是否怀孕(怀孕后观测终止,\(Y_{it}=1\) 只一次且之后缺失)。
- 可观测数据:\(\{(A_{it}, L_{it}, C_{it}, Y_{it}): i=1,\dots,n,\ t=1,\dots,T_i^{\text{obs}}\}\),其中 \(T_i^{\text{obs}}\) 为实际观测周期数(min(删失时间, 怀孕时间))。
- 潜在量:\(Y_{it}(a)\) 若个体在周期 \(t\) 前一直暴露历史为 \(a\) 时的潜在怀孕状态。
- estimand:边际结构模型下的 fecundability ratio (FR),即假设所有个体都暴露(\(A=1\))与都不暴露(\(A=0\))时,每周期怀孕概率的比值。若考虑多阶段,则 FR 定义在各阶段暴露模式上。
模型
- 比例概率模型(proportional probabilities model):
但在边际结构框架中,需要估计的是边际参数 \(\beta^*\) 满足:
标准 IPW 通过为每个个体-周期赋予权重 \(w_{it} = 1 / P(A_{it} \mid L_{it}, A_{i,t-1}, \text{基线})\) 来消除时变混杂,从而在加权伪总体中估计 \(\beta^*\)。
可观测 vs 不可观测
- 可观测:实际的暴露史 \(A_{1:t}\)、混杂 \(L_{1:t}\)、怀孕指示 \(Y_{it}\)、删失指示 \(C_{it}\)。
- 不可观测:每个周期如果做出相反暴露选择时的潜在怀孕结局 \(Y_{it}(a')\);以及删失个体的未来周期结局。
- 识别依赖:① 一致性(\(Y_{it} = Y_{it}(A_{1:t})\));② 条件交换性(给定过去暴露和混杂,当前暴露近似随机);③ 正性(每个暴露水平都有正的概率);④ 删失机制可忽略(CIA for censoring)。
第二步:最小内核¶
这篇论文的核心统计问题是:如何在时变混杂与删失存在时,从观测数据中无偏估计“成年期经济困难”对每周期怀孕概率的因果效应(FR)。最小内核可以简化为两个周期(\(t=1,2\))的例子,去掉多阶段联合暴露,只保留一个二值时变暴露 \(A_t\) 和一个时变混杂 \(L_t\)(比如“当前收入水平”)。
-
数据生成:
\(t=1\):基线协变量 \(X\)(如年龄、教育),\(L_1\) 生成,\(A_1\) 受影响于 \(X,L_1\),\(Y_1\) 观测(可能怀孕,若怀孕则终止)。
\(t=2\):若 \(Y_1=0\),则 \(L_2\) 生成(受 \(A_1,L_1\) 影响),\(A_2\) 受 \(L_1,A_1,L_2\) 影响,\(Y_2\) 观测。 -
时变混杂问题:\(L_2\) 既是 \(A_1\) 的结果,又是 \(A_2\) 的混杂,且影响 \(Y_2\)。若直接用标准回归控制 \(L_2\),会阻断 \(A_1\) 的部分间接效应,导致偏倚。IPW 解决方法是:给每个个体-周期一个权重,使得在加权总体中 \(A_1\) 不再受 \(L_1\) 影响,\(A_2\) 不再受 \(L_1,A_1,L_2\) 影响,从而模拟随机试验。
-
权重构建:
\[w_{i1} = \frac{1}{P(A_{i1} \mid X_i, L_{i1})}, \quad w_{i2} = w_{i1} \times \frac{1}{P(A_{i2} \mid X_i, L_{i1}, A_{i1}, L_{i2})}.\]
同时用删失权重(censoring weights)处理删失:
\[w_{it}^C = \frac{1}{P(C_{it}=0 \mid \text{过去历史})}.\]
最终权重 \(w_{it} = w_{it}^A \times w_{it}^C\)。 -
估计:在加权数据中拟合比例概率模型,自变量为 \(A_{it}\)(或更一般地,暴露史的函数),得到加权 MLE 估计量 \(\hat{\beta}_1^*\),则 \(\widehat{FR} = \exp(\hat{\beta}_1^*)\)。论文中实际估计的是多个阶段的联合效应,但核心机制完全相同:将每个周期视为一次观测,用 IPW 去模拟每个暴露水平下的边际分布。
在这个两周期例子中,关键困难在于权重的不稳定性(当模型接近非正性时方差大),以及未测混杂的潜在影响——这些在论文的稳健性分析中触及。
三、这篇论文做了什么¶
三句话¶
① 在北美孕前队列 PRESTO 中,估计了童年、青春期、成年三期经济困难各自及累积对生育力的因果效应,参数为边际 fecundability ratio (FR);
② 核心方法为 inverse probability-weighted proportional probabilities model,通过构建每周期的暴露权重和删失权重处理时变混杂与选择偏差;
③ 主要结论:仅成年期经济困难与 FR 显著降低相关(FR=0.83, 95%CI 0.77-0.90);累计效应(困难经历两期或以上)更强(FR=0.77, 0.64-0.93),提示累积暴露的额外损害。
关键设定与假设¶
- 定义与测量:经济困难由三个二值问题(是否缺钱生活、是否为医疗借钱、是否受政府援助)的组合定义:任一为是则取 1。童年(≤11岁)、青春期(12-17岁)、成年(≥18岁至入组)各阶段分别回顾报告(回忆偏倚)。生命历程模式分为 8 种组合(三阶段二进制)。
- 队列:PRESTO,2013-2023 入组,21-45 岁女性,正在尝试怀孕且未避孕或生育治疗;随访 12 个月或怀孕。最终分析样本 \(n=6377\)(剔除有缺失关键变量的个体)。
- estimand:边际结构模型下的 FR,定义为假设全体受童年、青春期、成年某级困难 vs 全无困难时,每周期怀孕概率的比值。时间尺度为周期间,假设效应跨周期恒定。
- 识别假设:
- 一致性(consistency):观测到的怀孕对应其实际暴露史下的潜在结局。
- 条件交换性(sequential ignorability):给定过去暴露、时变混杂和基线协变量,当前暴露相对于潜在结局是随机的;类似假设对删失成立(条件独立删失)。
- 正性:每个暴露水平的概率在协变量层内 >0。
- 模型正确指定:权重模型(暴露概率模型及删失概率模型)被正确指定(logistic 回归)。
- 相比已有文献:本文是首个在多阶段暴露设定中结合 IPW 与比例概率模型的前瞻性生育力研究,强化了时序与混杂调整,但回忆偏倚和未测混杂(如童年期社会经济环境、父母健康)仍是局限。
主要结果¶
- 单阶段分析:调整基线协变量及 IPW 后,童年期 FR=0.97 (0.88,1.07);青春期 FR=0.98 (0.88,1.07);成年期 FR=0.83 (0.77,0.90)。仅成年期显著低于 1。
- 生命历程模式:以“无困难”为参照,各模式的 FR 如下:
- 仅童年困难:0.97 (0.86,1.10)
- 仅青春期困难:1.06 (0.90,1.25)
- 仅成年困难:0.87 (0.79,0.96)
- 童年+青春期(无成年困难):0.98 (0.81,1.20)
- 童年+成年:0.77 (0.64,0.93)
- 青春期+成年:0.82 (0.69,0.98)
- 三阶段都有困难:0.91 (0.74,1.12) (较宽 CI,样本量小)
- 累积效应:暴露 0、1、2、3 期困难对应的 FR 依次为 1.00(ref)、0.91(0.84,1.00)、0.82(0.70,0.96)、0.91(0.74,1.12),显示一定梯度,但 3 期组样本小(N=131)导致不精确。
- 敏感性分析:未报告的额外分析(如替换记忆偏倚校正、不同删失定义)结果方向一致。
注:所有 FR 均报告 95% 置信区间,未进行多重比较校正;效应量较小但临床意义需结合背景。
真实例子与应用¶
数据:PRESTO 队列,2013-2023,北美在线招募。纳入标准:21-45 岁女性,与男性伴侣尝试怀孕,未使用避孕或生育治疗。基线问卷收集社会经济、生活方式、健康等;每周期随访(短问卷)询问怀孕状态及更新暴露。经济困难数据仅于基线回顾收集(三阶段)。分析方法如上。
例子价值:① 展示了 IPW 在生育力研究中的完整应用流程(暴露模型、删失模型、权重构建、加权回归);② 效应量差异提示成年期可能为敏感期;③ 累积效应估计为生命历程假设提供了实证支持(即使 CI 较宽)。本文为纯应用,无模拟实验或理论证明。
🔎 结论是否比证明窄¶
作者在结论中声称“成年期是敏感期”,但识别假设高度依赖回忆准确性(跨越数十年)。回忆偏倚可能非差分影响各阶段,且童年/青春期暴露的回忆误差大于成年期,可能导致只能检出成年期效应。作者在讨论中提及这一局限,但并未进行正式的定量敏感性分析(如 E-value 或 bias correction)。此外,多组比较的显著性未调整,仅有“0.83”这一个统计显著结果,而“童年+成年”组的 FR=0.77 亦显著,但缺乏交互项的正式检验。因此,结论的强度弱于作者的前面叙述语气。读者应自行判断是否同意“敏感期”解释。
四、开放问题¶
- 回忆偏倚的定量校正:能否结合外部数据(如行政数据)验证经济困难的回顾报告误差,并采用贝叶斯偏倚模型或 measurement error 方法纠正?——扎根于论文讨论中“recall bias”段落。
- 灵敏度分析框架:针对未测混杂(如童年家庭 SES、父母生育力),可引入 E-value 或多重敏感性分析(如 negative control outcomes)以评估结论稳健性。——扎根于作者在局限中提到“residual confounding by unmeasured factors”。
- 连续暴露测量:本文使用二值暴露(是否困难),丢失了严重程度/持续时间信息。是否可能利用连续收入/资产数据,用 MSM 估计剂量-反应关系?——扎根于作者未讨论的“exposure definition”选择。
- 联合暴露模型中的交互与结构深层假设:三阶段暴露的交互项(如童年×成年)是否统计显著?是否可进一步用结构嵌套模型或带有乘积项的边际结构模型来正式检验?——扎根于论文表 2 中未提供交互项 p 值。
(建议:若要进一步确认这些 gap 是否为真空白,可快速浏览 PRESTO 队列的其他分析(如 Ncube 2018、Wise 2010~2023)以及类似生命历程生育力研究(Okhuijsen 2021),看看他们是否已经做了这些灵敏度分析或连续暴露分析。)
Maintained by 陈星宇 · Homepage · Source on GitHub