T esting an Elaborate Theory of a Causal Hypothesis¶

讲者: Dylan Small
讨论人: Peter Bühlmann
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-03-31
主题: 因果推断
视频: https://www.youtube.com/watch?v=DWTDIPuff14 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

核心问题：在观察性研究中，如何从统计上检验一个“精细理论”（elaborate theory）——即针对同一个因果假设，推导出多个互相独立或近乎独立的可检验后果，并综合评估这些证据以增强（或削弱）对因果推断的信心。

历史根源：Ronald Fisher 早年回应如何从关联走向因果时，给出建议“Make your theories elaborate”（使你的理论精细）。William Cochran 在 1965 年将这一观点系统化，指出“多重攻击（multiphasic attack）是观察性研究中最有力的武器之一”。哲学家 Susan Haack 用填字谜类比：不同方向的线索交叉验证，比单独一条线索更可靠。Paul Rosenbaum 后来将“证据因子”（evidence factors）的形式化引入观察性研究。

当代进展与当前 frontier：经典工作如 Rosenbaum (2002, Observational Studies) 提出了基于配对设计和敏感性分析的证据因子框架；Benjamini & Heller (2008, Annals of Statistics) 提出了部分联合检验（partial conjunction test）用于在多个零假设中推断至少多少为假；Wang & Owen (2019) 进一步发展了 p 值合并方法。然而，如何系统地将一个因果假设的多个后果（如剂量-反应、不同工具变量、不同亚组模式）组织成一套统计检验，并控制族系错误率（FWER）且整合敏感性分析，仍然缺乏通用的方法论。本报告及对应的 Karmakar & Small 论文（即将发表在 Annals of Statistics，待确认引用）正是填补这一空白：它将“精细理论”操作化为一组有序的、近似独立的检验，然后利用部分联合检验 + Fisher 合并 / 截断乘积检验进行多重性校正，再将 Rosenbaum 的 gamma 敏感性分析嵌入该框架，从而在受控的 FWER 下报告“在最多允许多大隐藏偏倚时，至少有多少个预测方向成立”。

本报告的位置：它站在 Cochran、Rosenbaum、Benjamini & Heller 的肩膀上，将三个传统上独立发展的线索（精细理论、多重检验、敏感性分析）统一为一个可操作的统计流程。它不是提出新的检验统计量，而是组合已知工具并证明组合后的 FWER 控制仍然成立。

关键引用（转写中提及，但需核实精确格式）： - Karmakar & Small. “Testing an Elaborate Theory of a Causal Hypothesis.” Annals of Statistics, forthcoming. （讨论者 Bühlmann 确认 [0:52:08-0:52:12]） - Rosenbaum, P. R. (2002). Observational Studies. Springer. - Benjamini, Y. & Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics? （转写中 [0:29:19] 提到，具体杂志待核实） - Wang & Owen (2019). 关于截断乘积检验，转写 [0:29:54] 提到。

二、最小内核 / 一个最简例子¶

符号与设定：假设有一个二元处理变量 \(Z\)（例如是否在铅电池工厂工作），一个连续结果 \(Y\)（子女血铅水平）。为简化，假设我们经过倾向得分匹配后得到 \(n\) 对个体（每对包含一个处理个体和一个对照个体，按可观测协变量匹配）。

核心思想：精细理论意味着除了简单的“处理组均值大于对照组”这一预测外，还有额外的、依赖于不同潜在偏倚机制的预测。例子：

预测1（基本对照）：处理组子女血铅高于对照组。
预测2（剂量-反应）：在处理组内部，父亲暴露于高铅环境（工厂高暴露区）的子女血铅 > 中等暴露 > 低暴露。
预测3（职业卫生）：在高暴露组内，父亲职业卫生习惯差（不换衣不洗澡）的子女血铅 > 卫生良好者。

这三个预测依赖不同的潜在混杂路径：预测1可能被“工厂工人有更多含铅爱好”所偏倚；预测2被“不同车间工人爱好不同”偏倚；预测3被“卫生习惯与爱好相关”偏倚。若三个预测同时成立，则要解释为无因果效应，需要三个独立的偏倚同时起作用，概率较小。

如何构造近乎独立的检验：讲者用了一个最简单的三组设计（对照、低暴露、高暴露）的例子 [0:24:34-0:26:50]。假设每类各有一人（共3人），按随机化分配（视为理想试验）。定义：

先对三人的结果排序，记对照组孩子在三人中的秩为 \(R_A\)（取值1,2,3）。
去掉对照组后，再对低暴露组和高暴露组的孩子结果排序，记低暴露孩子的秩为 \(R_B\)（取值1或2）。

可以证明：在“无处理效应”的零假设下，\(R_A\) 与 \(R_B\) 独立（这是 Rényi 定理的特例：给定 \(R_A\)，\(R_B\) 在高暴露与低暴露之间等可能）。于是从同一数据中得到了两个统计上独立的检验。在真实数据中，这种理想排序设计不一定可行，但可以构造有效独立（effectively independent）的检验：即使检验统计量不完全独立，其联合 p 值分布随机占优于均匀分布（stochastically dominates uniform），从而使用 Fisher 合并等保守方法时仍可控制 FWER。

最简特例：二值处理、一个结果、两组比较（对照 vs 处理），加上处理内部的两个子组（高暴露 vs 低暴露），共构造两个近乎独立的检验。然后用部分联合检验回答“至少一个效应为真？至少两个为真？”并借助 Rosenbaum 的 gamma 模型做敏感性分析。

三、报告主体：讲者讲了什么¶

[0:00-0:03] 引言与背景。引用 Fisher 和 Cochran 的“精细理论”思想。例子：铅暴露对子女血铅的影响——Morton et al. (1982) 的配对研究。该研究有 34 个处理（父亲在电池厂工作）-对照（父亲无铅行业工作）对，匹配了年龄和邻里。此外还收集了父亲的暴露强度（高/中/低）和职业卫生（好/中/差）。提出了三个方向的预测。

[0:07-0:11] 为何精细理论比单一比较更有力。讲者对比了三个比较各自的可能偏倚来源：处理 vs 对照（爱好差异）、高 vs 低暴露（不同车间爱好不同）、卫生好 vs 差（卫生习惯与爱好相关）。若三个方向都显著，需要三个独立的偏倚同时成立才能推翻因果效应——这就是 Susan Haack 填字谜类比的核心。

[0:11:45-0:15:00] 实际数据展示。给出血铅水平箱线图： - 处理组 vs 对照组：处理组明显更高。 - 处理组内按父亲暴露强度：高>中>低，有趋势但中 vs 低不显著（转写 [0:20:07] 提到“medium exposure group was not significantly different”）。 - 高暴露组内按卫生：好组血铅低于差/中组，差与中相似。 - 对照组按处理父亲的暴露强度：几乎无差异，说明邻里匹配已消除环境混杂嫌疑。

讲者指出，原始论文只是报告了多个 p 值（多数显著），最后给了一个定性结论，未做整体性推断。这引出该方法论需求。

[0:15:00-0:21:00] 已有方法的不足。许多论文仅报告“21 out of 39 tests supported the theory”之类的结果，问题在于：(i) 检验之间可能强相关，重复提供相同信息（讲者用 t 检验与 Wilcoxon 检验的模拟展示高相关性 [0:23:05]）；(ii) 检验不独立时难以解释；(iii) 未考虑隐藏偏倚的敏感性。讲者引用 Wittgenstein 的“买多份相同报纸”的比喻。

[0:21:00-0:30:00] 核心方法：构造有效独立的检验 + 部分联合假设。讲者先以理想随机化例子说明如何得到独立检验（秩的独立性，Rényi）。然后在铅数据中，他们构造了 5 个有效独立的检验（转写 [0:27:38-0:28:28]）： 1. 处理 vs 对照 2. 高暴露 vs 低暴露（处理组内） 3. 中暴露 vs 低暴露（处理组内） 4. 卫生好 vs 卫生差（高暴露组内） 5. 卫生好 vs 卫生中（高暴露组内）

每个检验的零假设为“无差别”，备择为“有差别”（方向支持因果效应）。得到五个 p 值：0.0001, 0.009, 0.1, 0.0006, 0.42（数字来自幻灯片，转写未精确给出，但后续提到了具体 p 值 [0:31:17]）。接着应用部分联合检验 (Benjamini & Heller)：对于每个 r = 1,...,5，检验零假设“至多 r-1 个零假设为假” vs “至少 r 个为零假设为假”。具体做法：取最大的 (n - r + 1) 个 p 值，用 Fisher 合并或截断乘积法计算组合 p 值，再与 alpha=0.05 比较。若对 r 拒绝，则可进一步以 Bonferroni-like 水平 (0.05/(n-r)) 检验单个假设。本例中，对 r=3 的组合 p 值为 0.015，拒绝“至多 2 个假” => 至少 3 个假。然后检验单个，发现 1、2、4 号 p 值显著（分别对应处理 vs 对照、高 vs 低、卫生好 vs 差），而 3 号（中 vs 低）和 5 号（好 vs 中）不显著。结论：部分支持精细理论，但未完全证实。

[0:30:00-0:41:00] 敏感性分析。讲者介绍 Rosenbaum 的 gamma 模型：假设因未测量混杂导致同一匹配对内两人接受处理的优势比最多为 \(\Gamma\)。对于每个 gamma 值，可以计算检验的最大 p 值，即最不利于因果效应的情况下的 p 值。将 gamma 从 1 向上递增，直到最大 p 值超过 0.05，得到“敏感度界限”。展示铅数据的敏感性表（转写 [0:39:50-0:41:10]）： - 处理 vs 对照：对 gamma ≤ 4 仍显著（最大 p=0.035 在 Γ=4 时） - 高 vs 低：对 gamma ≤ 2.6 仍显著 - 中 vs 低：即使 gamma=1 也不显著 - 卫生好 vs 差：对 gamma ≤ 2.6 仍显著 - 卫生好 vs 中：即使 gamma=1 也不显著

然后讲者将部分联合检验与敏感性分析结合：对每个 gamma，对“至少 r 个零假设为假”做检验，并对 gamma 递增看何时不显著。结果显示，拒绝“至少 3 个假”在 Γ=1 时成立，Γ=1.4 时仍成立，Γ=2 时不成立。说明精细理论整体对中等偏倚（≤40% odds increase）稳健，但对更大偏倚不稳健。

[0:41:30-0:48:00] 第二个例子：天主教学校 vs 公立学校对收入的影响。精细理论包含三个证据因子： 1. 直接比较（匹配后）：天主教学校学生收入更高（预测）。 2. 工具变量——地理位置（urban/rural）：居住在城市增加天主教学校入学率，假设只通过学校类型影响收入。 3. 工具变量——宗教信仰：天主教徒更可能上教会学校，假设只通过学校类型影响收入。

三个分析被构造为有效独立（在零假设下联合 p 值随机占优均匀分布）。显示结果表（转写 [0:46:00-0:46:45]）： - Γ=1（无偏倚）：至少两个假、至少三个假都显著。 - Γ=1.1：仍支持至少两个假，但不再支持三个假。 - Γ=1.2：仅支持至少一个假（主要来自 urban-rural 比较）。

进一步诊断：在非天主教徒中，urban-rural 与收入仍然相关（其工具变量假设被质疑 [0:47:30-0:47:45]）。因此精细理论在允许很小偏倚时就崩溃，结论的可靠性高度依赖单个工具变量的有效性。

[0:48:00-0:49:00] 总结与展望。强调“一个好的设计必须能够提出质疑（caution and restraint）”。如果一个设计总是鼓励因果结论，就不是好设计。精细理论结合敏感性分析可以暴露因果结论对潜在偏倚的脆弱性。讲者承认“我们只是刮了表面”，还有很多方向值得探索。

问答与讨论部分： - [0:16:12] Adele 问“精细理论”的定义，讲者回答可以是任何超越简单对照的比较，如剂量-反应、中介、多种工具变量等。 - [0:33:57] Shing Wan 问独立性是否必要，讲者说非必要但有益。 - [0:35:16] Guido 问如何知道是否真正得到独立信息，讲者提到 Rosenbaum 的证据因子理论，但承认在复杂情形下可能不可行。 - [0:36:36] Luke Miratrix 提出用等价检验挑战零假设，讲者认同，指出精细理论也可以用等价检验方向。 - 讨论者 Peter Bühlmann [0:49:28-0:57:10] 提出了几点：如何设计精细理论（艺术还是食谱？）；检验顺序是否重要（讲者回应在 ongoing work 中试图减少对顺序的依赖）；连续处理的敏感性分析是否更困难；gamma 的选择（可参考已测混杂的作用来校准）。讲者简短回应，并提到正在与 Shizhao（新加坡国立大学）合作减少对顺序的依赖。

四、对应论文与开放问题¶

对应论文： 1. Karmakar, B. & Small, D. (2020). "Testing an Elaborate Theory of a Causal Hypothesis." Annals of Statistics, forthcoming. - 讨论者 Bühlmann 明确确认 [0:52:08-0:52:12]。转写中未给出 arXiv 号或卷期，但合作者（Vikram Karmakar, 佛罗里达大学）已确认。 - 注：讲者提到了与 Paul Rosenbaum 合作的天主教学校例子 [0:44:28]，该工作可能独立发表或纳入同一论文框架内；转写未说明是否包含在同一篇论文中。建议研究者查 Karmakar & Small 原文确认。

如果研究者想深入了解证据因子框架，可参考：
Rosenbaum, P. R. (2011). Evidence Factors in Observational Studies. Biometrics, 67(1), 24-32.
讲者提到了 Shizhao（新加坡国立大学）的 ongoing work 尝试减少检验顺序依赖，未知是否已发表。

开放问题（每条扎根于转写中的具体时间点）： 1. 如何系统地建立一个精细理论？ [0:57:34-0:57:47] 讲者承认目前更多是艺术与学科知识的结合，而非可套用的食谱。这可能是一个偏方法论/设计层面的开放问题。 2. 检验顺序是否影响结果？ [0:54:10-0:54:18] Bühlmann 提出，讲者回应正在与 Shizhao 合作减少对顺序的依赖，但还有大量工作。这可能产生一个关于“如何排序证据因子”或“如何构造顺序无关的组合检验”的研究问题。 3. 连续处理或非二元处理的敏感性分析如何推广？ [0:55:05-0:55:16] Bühlmann 询问，讲者未直接回答。这是一个开放的方法论扩展方向。 4. 如何选择 gamma（允许的偏倚量）？ [0:55:56-0:56:05] Bühlmann 和讲者都提到可以用可观测混杂来校准，但没有通用准则。这可能导向一个关于“基于数据的 gamma 选择或校准方法”的问题。 5. 将精细理论框架与非点零假设（如bayesian或等价检验）结合：[0:59:57-1:00:48] Andrew Gelman 质疑点零假设检验的实用性，讲者认可，并认为将精细理论引入分层建模等框架是好的发展方向。这可以是一个跨范式连接的问题。 6. 大 p 小 n 或高维混杂下的精细理论构造：报告中的例子都是低维、匹配设计。在更多变量时，如何构造有效独立的证据因子是一个未解决的挑战。

注意：以上所有问题均基于转写内容，具体可行性、与研究者自身 arsenal 的匹配度由研究者自行判断。

Maintained by 陈星宇 · Homepage · Source on GitHub

T esting an Elaborate Theory of a Causal Hypothesis¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论