Exploration, Confirmation, and Replication in the Same Observational Study: A Two Team Cross-Screening Approach to Studying the Effect of Unwanted Pregnancy on Mothers’ Later Life Outcomes¶

讲者: Dylan Small
讨论人: Ying Jin
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-01
主题: 因果推断
视频: https://youtu.be/xW-pKDS8VlU · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告试图回答一个非常根本且长存的方法论问题：如何在一项观测研究中，同时完成探索性分析（EDA）、确认性检验（confirmatory analysis）和可复制性评估（replication），并保持严格的频率学派误差控制。该问题的背景是——在理想流程中，探索与确认应使用不同数据集，复制则需要第二份独立数据。但当研究问题涉及一个非常独特且丰富的单一数据集（如 Wisconsin Longitudinal Study, WLS）时，这种流程就无法直接套用。报告的核心思路是：通过在两个自然形成的、结构不同的子群体（天主教妇女 vs. 非天主教妇女）之间进行交叉筛查（cross-screening），并配合两个独立团队，来替代样本分裂和外部数据集。

该工作线建基于以下几条文献：

探索性数据分析（EDA）：John Tukey 的传统（1977），强调在正式建模前由数据驱动的假说生成。
双样本分裂与确认：经典的做法是“一半数据探索，另一半在控制 FWER 下确认”，但这种方法缺乏复制性。
证据因子（Evidence Factors）：Paul Rosenbaum (e.g., Rosenbaum 2010, 2011) 提出的框架，同一个观测研究通过不同设计产生多个近乎独立的“证据因子”，每个因子对不同种类隐藏偏差具有不同的敏感性。同时发现多个因子的显著性意味着结果极不可能完全由单一隐藏偏差驱动。
自动化交叉筛查（Automated Cross-Screening）：由 Small, Cheng-Yuan 和 Rosenbaum 之前发展的方法（不确定论文标题），在单团队场景下将数据分成两块，由一块提出对另一块的检验计划。但该方法的限制是：由于知晓第一块的数据，无法再对第二块做真正的自由探索。
多重检验中的错误控制：整个机制通过 Bonferroni/Holm 族系错误率（FWER）控制，将全局检验的 FWER 控制在 0.05 的预指定阈值，并在子群体间通过 Bonferroni 分配 0.025 的 alpha 预算。

这场报告站在这个交叉点：它提供了“证据因子”想法的一个简化且更面向实际数据工作流的实现——用自然分群（宗教/教育）代替设计复杂的结构；用“独立团队做交叉指定”来模拟复制性，并给出形式化的 FWER 控制；同时将 EDA 与确认从流程上伺服给完全不同的团队，减少了数据窥探的担忧。这项工作的“独特卖点”在于：需求的资源少（只用一份数据、两个团队），却能在同一报告里宣称探索性发现的统计显著性以及某种形式的复制性。其局限性（在讨论部分由 Ying Jin 等人点出）是：若子群体存在真实异质性且异质性与自然分群相关，则“跨群体复制”可能与“异质性治疗效应”产生张力。

报告中提及的主要引文： - 讲者自身工作：Small et al. 的 two-team cross-screening (arXiv 链接见转写末尾，[H:0:44:08])。 - 自动化交叉筛查：Small, Cheng-Yuan, Rosenbaum 过去开发（转写中未给出论文标题，待核实）。 - Paul Rosenbaum 在 evidence factors 方面的工作（未具体点名）。

二、最小内核 / 一个最简例子¶

1. 符号与模型（为了理解而重构，非讲者直接给出）

假设我们有：

可观测数据：\( (Z_i, X_i, Y_i), i=1,...,n \) 来自一个观测研究。\( Z \in \{0,1\} \) 是二值处理（有过不想怀孕的妊娠经历）。\( X \) 是预处理协变量（背景、教育愿望、社会经济地位、婚前抑郁状况等）。\( Y \) 是多个后处理结局（抑郁量表、经济收入、生活满意度、婚姻稳定度等）。
潜在结果框架（隐含在匹配设计中）：对于每个个体 \( i \)，存在潜在结果 \( Y_i(1), Y_i(0) \)，且观测的 \( Y_i = Z_i\cdot Y_i(1) + (1-Z_i)\cdot Y_i(0) \)。关键识别假设是无混淆性（给定 \( X \) 后，\( Z \perp Y(z) \)）。由于处理是时变的，实际采用风险集匹配（risk-set matching），确保匹配只基于暴露前的协变量。
参数的目标量：多个假设 \( H_{0j} : \tau_j = 0 \)，\( \tau_j \) 是在某个子群体（天主教妇女 / 非天主教妇女）中，处理对结局 \( Y^{(j)} \) 的平均因果效应（或更一般，匹配后 Wilcoxon 秩检验的对称零假设）。
样本分裂：数据集根据一个自然变量 \( S \in \{0,1\} \)（天主教/非天主教）被分成两个不重叠且独立的子样本 \( D_0 \) 和 \( D_1 \)。S 是预指定的、不基于结果的选择（不随机，而是结构性的分裂）。

2. 一个最简特例

假设有 1 个二值处理, 1 个二值结局（是否抑郁），2 个子群体: 群体 A（样本量 \( n_A \)）和群体 B（样本量 \( n_B \)）。我们想回答：“不想怀孕的妊娠经历是否导致长期更高的抑郁率？”，且希望同时探索其他可能的变量（如收入、婚姻稳定度）。

运作机制： - 团队1 拿到群体 A 的数据。他们做 EDA：画直方图、比较均值、发现还有一些其它变量（比如“婚姻稳定度”）也似乎在处理组中更低，这可能是一个新的、未预见的假说。他们据此制定了一个严格的测试计划（protocol）：只在群体 B 上测试 2 个假设：抑郁（alpha=0.02）和婚姻稳定度（alpha=0.005），总 FWER = 0.025。该计划官方提交、封存。 - 团队2 拿到群体 B 的数据，做同样的 EDA，发现群体 B 中“低积极情绪”子量表很显著。他们提交一个计划：在群体 A 上测试“低积极情绪”（alpha=0.025）。 - 然后：团队1 将他们的协议应用到群体 B 上，计算 p 值，并用 Bonferroni/Holm 做多重调整。团队2 将他们的协议应用到群体 A 上。 - 全局零假设（所有假设在两个群体都为零）的 FWER 由 Bonferroni 保证：任何在群体 A 或群体 B 上被拒绝的假设意味着全局拒绝，FWER ≤ 0.05（因为两个检验各自的 FWER ≤ 0.025，取并集）。 - 复制性发现（replicable finding）发生在：同一个假设在两个群体中都被拒绝。这里的复制性指的是“在 A 中被 EDA 筛选出、在 B 中被证实”或反之，且每个检验都是严格的。如果抑郁在两个群体中都被拒绝，他们可以说“抑郁效应是可复制的”。 - 如果没有复制性发现，至少全局中了哪个群体有非零效应，也提供了信息。

三、报告主体：讲者讲了什么¶

[H:0:00:00 - H:0:01:50] 引言与动机
Dylan Small 介绍研究：探索、确认与复制在同一个观测研究中：使用两团队交叉筛查方法研究不想怀孕对母亲长期生活的影响。合作者：Samrat Roy, Marina Bogomolov, Ruth Heller, Amy Claridge, Tisha Bisson。同时提到与 Will Beckerman 的延伸工作。

[H:0:01:56 - H:0:04:14] 具体研究问题：不想怀孕（Unwanted Pregnancy）的长期效应
动机：美国部分州已限制堕胎，了解“不想要的妊娠对母亲”的长期影响具有政策意义。之前的文献集中在短期效应（如低情感连结、更多育儿压力）。本研究是考察长期（母亲 50 多岁、60 多岁、70 多岁）的心理健康、身体健康、经济状况、社会关系和认知功能。

[H:0:04:14 - H:0:05:04] 数据：Wisconsin Longitudinal Study (WLS)
始于 1957 年，随机抽样 1/3 的威斯康星当年高中毕业生。每约 10 年随访一次，流失率很低，数据丰富。关键变量：妇女在约 36 岁时被问及分娩史，对于前次妊娠，问“怀孕前，你是否想在这个时候怀孕？”——如果否，再问“你希望将来再要孩子吗？”——再次否定则为“不想要的妊娠”。记录时间点相对接近妊娠，优于生育后多年的回顾性询问。WLS 还包括长期随访（约 53、65、72 岁）、大量前瞻性测量的混杂变量（社会经济背景、青少年 IQ、教育期望、职业目标等）。

[H:0:05:04 - H:0:08:20] 三大可靠证据要素：EDA, 确认性分析, 复制
引用 John Tukey 对 EDA 的定位及“怀疑容易成为事实”的偏向。强调复制对于观测研究尤其需要用不同隐藏偏差结构——如“吃鱼 vs 健康”的例子（沿海 vs 内陆、有不同社会混杂）。举挪威渔村外研究发现“阴性结果”的故事：不同偏差来源的复制更强有力。对于本研究，“天主教妇女 vs 非天主教妇女”被选为具有不同潜在混杂结构（天主教会对生育控制的态度），以此创造类“不同偏误复制”。

[H:0:08:20 - H:0:10:05] 挑战：仅有一个合适数据集
由于 WLS 关于不想要的妊娠、长期随访、丰富的混杂测量等特性没有可比的第二个数据集。因此，他们希望在同一个数据内部通过分组分裂+团队隔离来实现所有三个目标。One-half 做 EDA 并指定测试计划，另一 half 做确认性检验。

[H:0:10:28 - H:0:13:20] 方法提出：Two-Team Cross-Screening
- 步骤 1：全体团队先开会，确定结果域（5 个领域：抑郁、心理福祉、身体健康、酒精使用、经济福祉），但不看处理 vs 对照数据（只在整体上了解变量名称、尺度、分布）。 - 步骤 2：分裂数据集为两个自然子集：天主教妇女（约三分之一） vs 非天主教妇女（约三分之二）。Small 本人与 Amy（团队A）被分配天主教数据做 EDA；而 Ruth, Marina, 和 Tisha（团队B）被分配非天主教数据做 EDA。他们不能交流各自的发现。 - 步骤 3：团队A（基于阴极数据的 EDA）制定一个确认性分析计划，在非天主教数据上以 FWER = 0.025 施加检验。计划必须预先提交（pre-registered）。 - 步骤 4：团队B（基于非天主教数据的 EDA）制定同样的形式检验计划，在天主教数据上以 FWER = 0.025 运行。 - 步骤 5：通过 Bonferroni 并集，全局 FWER ≤ 0.05。若同一个假设在两个独立分析计划中都被拒绝（即跨群体同时显著），则为可复制的发现。若仅在其中之一被拒绝，仍可以声称“该效应至少在某一群体中显著”。

[H:0:13:20 - H:0:18:30] 关键细节：风险集匹配
由于处理（不想要的妊娠）发生在不同的时间点，传统匹配（如匹配最终教育水平）会匹配后处理变量导致偏差。这里是风险集匹配：对于每个在时间点 \( t \) 经历不想要的妊娠的女性，从直到时间 \( t \) 还未发生不想要的妊娠的女性中找到匹配，匹配变量仅包括测量到时间 \( t \) 的历史（教育仅到 \( t \) 前）。匹配变量列表：出身的 SES、学业排名、是否有婚前抑郁、婚姻状态、年龄、一些人格变量。匹配后展示的 Love-plot：几乎全部标准化差异 < 0.2，显示匹配较好。

[H:0:18:30 - H:0:25:30] 团队 A 的 EDA 结果（在天主教数据上）
- 抑郁（总体）：更年期 53 岁时，处理组（不想要妊娠）的抑郁评分显著高于对照组。效应大小本身可类比“大学 vs 高中”或“已婚 vs 未婚”这些公认的风险因素，并非微弱效应。对亚量表如抑郁症情绪、人际关系问题、低积极情绪、躯体症状也看了趋势。最终他们决定聚焦于总体抑郁得分在年龄 53 岁为最高优先级和统计上最显著的检验。 - 心理福祉：大多数子量表没有显著差异；但有一个“自我接受”子量表（如“回望一生，我对自己满意度”显著更低），决定对“自我接受”作为第二个检验。 - 身体健康、酒精使用：无发现。 - 有趣的意外发现：经济福祉（Income）在处理组反而更高。这与领域专家 Amy 的预期（不想要妊娠会经济下滑）相反。团队 A 深入 EDA，发现唯一较高的具体项目是“养老金、年金、遗属福利”。他们对此缺乏解释，怀疑可能是离群或操作不当，决定不在分析计划中投入检验——这是 EDA 帮助将 alpha 预算集中在更可信的方向上。 - 从 EDA 中他们还发现其他有趣效应：离婚次数增多、在首次不想要的妊娠后额外子女数增多、工作稳定性降低。他们决定将这些依次加入检验计划，并设计了一个分层序列检验（gatekeeping）：首先 0.025 全部给抑郁；若拒绝，再等分检验自我接受（0.0125）与“离婚+额外生育”（0.0125）；若这些全部拒绝，再用剩余 alpha 检验工作稳定性。由于总体 FWER 被 Holms 步骤控制，这种优先级是合法的。

[H:0:25:30 - H:0:31:30] 团队 B 的 EDA（在非天主教数据上）
讨论讲者只说了一个亮点：他们发现低积极情绪（Low Positive Affect）子量表显著，且效应在年轻母亲（25岁以下） 显现。他们的检验计划是：先检验低积极情绪，若拒绝再检验年龄调节（有没有年龄交互），最后检验总体抑郁。

[H:0:31:30 - H:0:33:50] 实际检验结果
- 团队A计划应用于非天主教数据：抑郁 P=0.0186 → 拒绝，进入下一步。自我接受 P=0.006（低于 0.0125）→ 拒绝；离婚/额外子女也都 ≤ 0.00625 → 拒绝；最后一步工作稳定性 P>0.05 → 未拒绝。所以，团队A 在非天主教数据中发现了 4 个新发现的显著效应。 - 团队B计划应用于天主教数据：第一步低积极情绪就未拒绝 → 停止。虽然总体抑郁在天主教数据中也可能显著（非正式检验），但他们未能到达那一步。 - 复制性发现（replicable outcome）：没有一个假设同时在两个群体的正式检验中都显著（天文学的抑郁从未被检验过）。讲者表示遗憾但指出这是现实的成本。

[H:0:33:50 - H:0:37:40] 与替代方法的比较
- 自动化交叉筛查（Automated Cross-Screening）：若用此方法，在天主教数据上的 EDA 使用 Bonferroni-Holm 筛选出在 0.025 显著的结果（仅总体抑郁），将这个结果应用到非天主教数据，发现非天主教数据也只有总体抑郁显著（只有 1 个发现）。2）反之亦然；所以只找到1个效应。 - 全数据 Bonferroni-Holm（仅基于预定义假设）：只在 2 个预设假设（总体抑郁、低积极情绪）中显著。 - 相比，两团队方法发现了4个新效应（抑郁、自我接受、离婚、额外生育），效果更好。

[H:0:37:40 - H:0:43:50] 延伸工作：单团队变体——Meta-Data-Data Turnover
讲者提到 Will Beckerman 领导的工作（“plans I’ve been one in one plan one we - one plan over the data turnover”等——此处转写疑似有误，但概念清楚）：若只有单团队人力，可以用“单计划自动加自由探索”的方式：先自动将数据分成两块（A 和 B）。对 A 做预定义的自动探索，为 B 生成一个 0.025 FWER 的测试计划（像自动化交叉筛查）；但由于团队在 A 阶段没有看过数据，他们可以在未看过的 B 上干 EDA 并产生对 A 的计划——这样至少一半数据能自由探索。他们用 WLS 数据研究了另一个问题：“成长在有酗酒父亲的家庭对长期效应”，按其父亲教育水平（低于 vs 等于高中）分组。他们得到可复制发现（在两组都显著）：酗酒问题、整体健康、抑郁、疾病数量、与兄弟姐妹的亲密感。讲者强调“与兄弟姐妹的亲密感”这一变量只有在 EDA 中才发现，之前未被列入预设，这体现了 EDA 的力量。合作者（酗酒研究人员 Oslin 和 Lynch）认为此发现新颖。

[H:0:43:50 - H:0:45:30] 回答 Q&A
Q：如何扩展到基于点估计量而非二元显著性？回答：可形成同时置信区间（如用同一框架控制同时覆盖概率）。

[H:0:45:30 - H:0:58:00] Ying Jin 的讨论（现场讨论部分）
Ying Jin 重点提出三个观察： 1. 探索、确认、复制三者的连接：该工作成功连接了多重检验、因果推断、可复制性，跨越了三个子领域。 2. 关键张力：子群体复制 vs. 路径异质性 (HTE)：如果两个群体真的存在不同的因果效应（甚至方向相反），那么要求“在两个群体中都被拒绝”可能是一种太严苛、甚至误导的标准。她建议，若目标是均匀应用一个政策（如所有人群的标准做法），那么“在两个群体中都显著”是合理的；但若是为了发现效应，则需要注意 HTE 会导致无复制、即使效应存在。回应：讲者同意，但认为如果存在的是定量交互（相同方向） 而非定性交互（正负方向），还是希望看到复制。但需要发展更系统的方法来处理这个问题。 3. 优化检验计划：EDA 阶段在选择检验假设时，应考虑该假设在对方群体中的检验力（即能否在第二块数据中也被拒绝）。她建议在 EDA 中使用某种形式的预测性推断，或敏感性分析，来判断“假设在另一个群体中是否很可能也显著”。而不是仅仅看自身数据的显著性。可以事先使用一小部分数据（比如 10%）联合探索以校准门槛。

[H:0:58:00 - H:1:03:25] 结束和告别
讲者感谢，预告下期报告。

四、对应论文与开放问题¶

（a）对应论文

待查（讲者给出的 arXiv：[H:0:44:08] 提及，但转写中未明确写出 arXiv 号。最好根据视频核对 URL 或附带的幻灯片）。猜想这可能是一篇已投稿期刊的方法论文，涵盖 Two-Team Cross-Screening 的正式理论（FWER 控制、复制性发现的定义、检验灵敏度）。另一篇可能是与 Will Beckerman 合作的 Meta-Data-Data Turnover 扩展。
自动化交叉筛查：引用中标“Ching-Yuan, Rosenbaum & Small”，但未被转写清楚。
WLS 数据详情不在此文，但用于公之于众的论文可能会具体引用 WLS 研究论文。

（b）开放问题

复制性与异质性（HTE）的张力：[讨论部分，Ying Jin，~ H:0:47:40]。如果天主教群体效应为正，非天主教群体为零（因为后者在别处有缓冲），则“复制失败”可能导致误解。如何发展一个更灵活的框架，允许群体非依赖当最后效应存在但强度不同时，不损害统计前提？讲者回应提到“定性交互”（符号相反）更难以实现对复制；但即使是定量交互，也能否仍然形式化复制而不丢失统计效能？
EDA阶段对对方群体的预测：[讨论部分，Ying Jin，~ 0:49:00 - 0:49:30]。提出在 EDA 阶段可以评估该假设在对方群体中的“可复制潜力”而非仅看本组显著性。如何将该“预测性”融入到一个有 FWER 控制的框架中？可能涉及敏感性分析或构建从本组到对方组的统计决策规则。
资源局限下的最优设计：[Q&A 部分，~ H:0:44:00]。当只有单团队时，如何平衡 EDA 的自由度与正式的误差控制。讲者提出了 meta-data-data turnover，但它也是一种对称而非最优的分配。如何在给定小组规模下最优分配 EDA 和确认的样本量？
扩展到连续变量和置信区间：[报告主体结束时，~ H:0:45:30]。手动被问及可否用于筛选有意义的点估计而非二元显著性。讲者推测可用同时置信区间；但在 EDA 后再选取置信区间的“偏差”评估还需要理论（这可能是一个开放的实用问题——类似于 selective inference）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Exploration, Confirmation, and Replication in the Same Observational Study: A Two Team Cross-Screening Approach to Studying the Effect of Unwanted Pregnancy on Mothers’ Later Life Outcomes¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论