跳转至

T esting an Elaborate Theory of a Causal Hypothesis

讲者: Dylan Small
讨论人: Peter Bühlmann
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-03-31
主题: 因果推断
视频: https://www.youtube.com/watch?v=DWTDIPuff14 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

核心问题:在观察性研究中,如何从统计上检验一个“精细理论”(elaborate theory)——即针对同一个因果假设,推导出多个互相独立或近乎独立的可检验后果,并综合评估这些证据以增强(或削弱)对因果推断的信心。

历史根源:Ronald Fisher 早年回应如何从关联走向因果时,给出建议“Make your theories elaborate”(使你的理论精细)。William Cochran 在 1965 年将这一观点系统化,指出“多重攻击(multiphasic attack)是观察性研究中最有力的武器之一”。哲学家 Susan Haack 用填字谜类比:不同方向的线索交叉验证,比单独一条线索更可靠。Paul Rosenbaum 后来将“证据因子”(evidence factors)的形式化引入观察性研究。

当代进展与当前 frontier:经典工作如 Rosenbaum (2002, Observational Studies) 提出了基于配对设计和敏感性分析的证据因子框架;Benjamini & Heller (2008, Annals of Statistics) 提出了部分联合检验(partial conjunction test)用于在多个零假设中推断至少多少为假;Wang & Owen (2019) 进一步发展了 p 值合并方法。然而,如何系统地将一个因果假设的多个后果(如剂量-反应、不同工具变量、不同亚组模式)组织成一套统计检验,并控制族系错误率(FWER)且整合敏感性分析,仍然缺乏通用的方法论。本报告及对应的 Karmakar & Small 论文(即将发表在 Annals of Statistics,待确认引用)正是填补这一空白:它将“精细理论”操作化为一组有序的、近似独立的检验,然后利用部分联合检验 + Fisher 合并 / 截断乘积检验进行多重性校正,再将 Rosenbaum 的 gamma 敏感性分析嵌入该框架,从而在受控的 FWER 下报告“在最多允许多大隐藏偏倚时,至少有多少个预测方向成立”。

本报告的位置:它站在 Cochran、Rosenbaum、Benjamini & Heller 的肩膀上,将三个传统上独立发展的线索(精细理论、多重检验、敏感性分析)统一为一个可操作的统计流程。它不是提出新的检验统计量,而是组合已知工具并证明组合后的 FWER 控制仍然成立。

关键引用(转写中提及,但需核实精确格式): - Karmakar & Small. “Testing an Elaborate Theory of a Causal Hypothesis.” Annals of Statistics, forthcoming. (讨论者 Bühlmann 确认 [0:52:08-0:52:12]) - Rosenbaum, P. R. (2002). Observational Studies. Springer. - Benjamini, Y. & Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics? (转写中 [0:29:19] 提到,具体杂志待核实) - Wang & Owen (2019). 关于截断乘积检验,转写 [0:29:54] 提到。

二、最小内核 / 一个最简例子

符号与设定:假设有一个二元处理变量 \(Z\)(例如是否在铅电池工厂工作),一个连续结果 \(Y\)(子女血铅水平)。为简化,假设我们经过倾向得分匹配后得到 \(n\) 对个体(每对包含一个处理个体和一个对照个体,按可观测协变量匹配)。

核心思想:精细理论意味着除了简单的“处理组均值大于对照组”这一预测外,还有额外的、依赖于不同潜在偏倚机制的预测。例子:

  • 预测1(基本对照):处理组子女血铅高于对照组。
  • 预测2(剂量-反应):在处理组内部,父亲暴露于高铅环境(工厂高暴露区)的子女血铅 > 中等暴露 > 低暴露。
  • 预测3(职业卫生):在高暴露组内,父亲职业卫生习惯差(不换衣不洗澡)的子女血铅 > 卫生良好者。

这三个预测依赖不同的潜在混杂路径:预测1可能被“工厂工人有更多含铅爱好”所偏倚;预测2被“不同车间工人爱好不同”偏倚;预测3被“卫生习惯与爱好相关”偏倚。若三个预测同时成立,则要解释为无因果效应,需要三个独立的偏倚同时起作用,概率较小。

如何构造近乎独立的检验:讲者用了一个最简单的三组设计(对照、低暴露、高暴露)的例子 [0:24:34-0:26:50]。假设每类各有一人(共3人),按随机化分配(视为理想试验)。定义:

  • 先对三人的结果排序,记对照组孩子在三人中的秩为 \(R_A\)(取值1,2,3)。
  • 去掉对照组后,再对低暴露组和高暴露组的孩子结果排序,记低暴露孩子的秩为 \(R_B\)(取值1或2)。

可以证明:在“无处理效应”的零假设下,\(R_A\)\(R_B\) 独立(这是 Rényi 定理的特例:给定 \(R_A\)\(R_B\) 在高暴露与低暴露之间等可能)。于是从同一数据中得到了两个统计上独立的检验。在真实数据中,这种理想排序设计不一定可行,但可以构造有效独立(effectively independent)的检验:即使检验统计量不完全独立,其联合 p 值分布随机占优于均匀分布(stochastically dominates uniform),从而使用 Fisher 合并等保守方法时仍可控制 FWER。

最简特例:二值处理、一个结果、两组比较(对照 vs 处理),加上处理内部的两个子组(高暴露 vs 低暴露),共构造两个近乎独立的检验。然后用部分联合检验回答“至少一个效应为真?至少两个为真?”并借助 Rosenbaum 的 gamma 模型做敏感性分析。

三、报告主体:讲者讲了什么

[0:00-0:03] 引言与背景。引用 Fisher 和 Cochran 的“精细理论”思想。例子:铅暴露对子女血铅的影响——Morton et al. (1982) 的配对研究。该研究有 34 个处理(父亲在电池厂工作)-对照(父亲无铅行业工作)对,匹配了年龄和邻里。此外还收集了父亲的暴露强度(高/中/低)和职业卫生(好/中/差)。提出了三个方向的预测。

[0:07-0:11] 为何精细理论比单一比较更有力。讲者对比了三个比较各自的可能偏倚来源:处理 vs 对照(爱好差异)、高 vs 低暴露(不同车间爱好不同)、卫生好 vs 差(卫生习惯与爱好相关)。若三个方向都显著,需要三个独立的偏倚同时成立才能推翻因果效应——这就是 Susan Haack 填字谜类比的核心。

[0:11:45-0:15:00] 实际数据展示。给出血铅水平箱线图: - 处理组 vs 对照组:处理组明显更高。 - 处理组内按父亲暴露强度:高>中>低,有趋势但中 vs 低不显著(转写 [0:20:07] 提到“medium exposure group was not significantly different”)。 - 高暴露组内按卫生:好组血铅低于差/中组,差与中相似。 - 对照组按处理父亲的暴露强度:几乎无差异,说明邻里匹配已消除环境混杂嫌疑。

讲者指出,原始论文只是报告了多个 p 值(多数显著),最后给了一个定性结论,未做整体性推断。这引出该方法论需求。

[0:15:00-0:21:00] 已有方法的不足。许多论文仅报告“21 out of 39 tests supported the theory”之类的结果,问题在于:(i) 检验之间可能强相关,重复提供相同信息(讲者用 t 检验与 Wilcoxon 检验的模拟展示高相关性 [0:23:05]);(ii) 检验不独立时难以解释;(iii) 未考虑隐藏偏倚的敏感性。讲者引用 Wittgenstein 的“买多份相同报纸”的比喻。

[0:21:00-0:30:00] 核心方法:构造有效独立的检验 + 部分联合假设。讲者先以理想随机化例子说明如何得到独立检验(秩的独立性,Rényi)。然后在铅数据中,他们构造了 5 个有效独立的检验(转写 [0:27:38-0:28:28]): 1. 处理 vs 对照 2. 高暴露 vs 低暴露(处理组内) 3. 中暴露 vs 低暴露(处理组内) 4. 卫生好 vs 卫生差(高暴露组内) 5. 卫生好 vs 卫生中(高暴露组内)

每个检验的零假设为“无差别”,备择为“有差别”(方向支持因果效应)。得到五个 p 值:0.0001, 0.009, 0.1, 0.0006, 0.42(数字来自幻灯片,转写未精确给出,但后续提到了具体 p 值 [0:31:17])。接着应用部分联合检验 (Benjamini & Heller):对于每个 r = 1,...,5,检验零假设“至多 r-1 个零假设为假” vs “至少 r 个为零假设为假”。具体做法:取最大的 (n - r + 1) 个 p 值,用 Fisher 合并或截断乘积法计算组合 p 值,再与 alpha=0.05 比较。若对 r 拒绝,则可进一步以 Bonferroni-like 水平 (0.05/(n-r)) 检验单个假设。本例中,对 r=3 的组合 p 值为 0.015,拒绝“至多 2 个假” => 至少 3 个假。然后检验单个,发现 1、2、4 号 p 值显著(分别对应处理 vs 对照、高 vs 低、卫生好 vs 差),而 3 号(中 vs 低)和 5 号(好 vs 中)不显著。结论:部分支持精细理论,但未完全证实。

[0:30:00-0:41:00] 敏感性分析。讲者介绍 Rosenbaum 的 gamma 模型:假设因未测量混杂导致同一匹配对内两人接受处理的优势比最多为 \(\Gamma\)。对于每个 gamma 值,可以计算检验的最大 p 值,即最不利于因果效应的情况下的 p 值。将 gamma 从 1 向上递增,直到最大 p 值超过 0.05,得到“敏感度界限”。展示铅数据的敏感性表(转写 [0:39:50-0:41:10]): - 处理 vs 对照:对 gamma ≤ 4 仍显著(最大 p=0.035 在 Γ=4 时) - 高 vs 低:对 gamma ≤ 2.6 仍显著 - 中 vs 低:即使 gamma=1 也不显著 - 卫生好 vs 差:对 gamma ≤ 2.6 仍显著 - 卫生好 vs 中:即使 gamma=1 也不显著

然后讲者将部分联合检验与敏感性分析结合:对每个 gamma,对“至少 r 个零假设为假”做检验,并对 gamma 递增看何时不显著。结果显示,拒绝“至少 3 个假”在 Γ=1 时成立,Γ=1.4 时仍成立,Γ=2 时不成立。说明精细理论整体对中等偏倚(≤40% odds increase)稳健,但对更大偏倚不稳健。

[0:41:30-0:48:00] 第二个例子:天主教学校 vs 公立学校对收入的影响。精细理论包含三个证据因子: 1. 直接比较(匹配后):天主教学校学生收入更高(预测)。 2. 工具变量——地理位置(urban/rural):居住在城市增加天主教学校入学率,假设只通过学校类型影响收入。 3. 工具变量——宗教信仰:天主教徒更可能上教会学校,假设只通过学校类型影响收入。

三个分析被构造为有效独立(在零假设下联合 p 值随机占优均匀分布)。显示结果表(转写 [0:46:00-0:46:45]): - Γ=1(无偏倚):至少两个假、至少三个假都显著。 - Γ=1.1:仍支持至少两个假,但不再支持三个假。 - Γ=1.2:仅支持至少一个假(主要来自 urban-rural 比较)。

进一步诊断:在非天主教徒中,urban-rural 与收入仍然相关(其工具变量假设被质疑 [0:47:30-0:47:45])。因此精细理论在允许很小偏倚时就崩溃,结论的可靠性高度依赖单个工具变量的有效性。

[0:48:00-0:49:00] 总结与展望。强调“一个好的设计必须能够提出质疑(caution and restraint)”。如果一个设计总是鼓励因果结论,就不是好设计。精细理论结合敏感性分析可以暴露因果结论对潜在偏倚的脆弱性。讲者承认“我们只是刮了表面”,还有很多方向值得探索。

问答与讨论部分: - [0:16:12] Adele 问“精细理论”的定义,讲者回答可以是任何超越简单对照的比较,如剂量-反应、中介、多种工具变量等。 - [0:33:57] Shing Wan 问独立性是否必要,讲者说非必要但有益。 - [0:35:16] Guido 问如何知道是否真正得到独立信息,讲者提到 Rosenbaum 的证据因子理论,但承认在复杂情形下可能不可行。 - [0:36:36] Luke Miratrix 提出用等价检验挑战零假设,讲者认同,指出精细理论也可以用等价检验方向。 - 讨论者 Peter Bühlmann [0:49:28-0:57:10] 提出了几点:如何设计精细理论(艺术还是食谱?);检验顺序是否重要(讲者回应在 ongoing work 中试图减少对顺序的依赖);连续处理的敏感性分析是否更困难;gamma 的选择(可参考已测混杂的作用来校准)。讲者简短回应,并提到正在与 Shizhao(新加坡国立大学)合作减少对顺序的依赖。

四、对应论文与开放问题

对应论文: 1. Karmakar, B. & Small, D. (2020). "Testing an Elaborate Theory of a Causal Hypothesis." Annals of Statistics, forthcoming. - 讨论者 Bühlmann 明确确认 [0:52:08-0:52:12]。转写中未给出 arXiv 号或卷期,但合作者(Vikram Karmakar, 佛罗里达大学)已确认。 - 注:讲者提到了与 Paul Rosenbaum 合作的天主教学校例子 [0:44:28],该工作可能独立发表或纳入同一论文框架内;转写未说明是否包含在同一篇论文中。建议研究者查 Karmakar & Small 原文确认。

  1. 如果研究者想深入了解证据因子框架,可参考:
  2. Rosenbaum, P. R. (2011). Evidence Factors in Observational Studies. Biometrics, 67(1), 24-32.
  3. 讲者提到了 Shizhao(新加坡国立大学)的 ongoing work 尝试减少检验顺序依赖,未知是否已发表。

开放问题(每条扎根于转写中的具体时间点): 1. 如何系统地建立一个精细理论? [0:57:34-0:57:47] 讲者承认目前更多是艺术与学科知识的结合,而非可套用的食谱。这可能是一个偏方法论/设计层面的开放问题。 2. 检验顺序是否影响结果? [0:54:10-0:54:18] Bühlmann 提出,讲者回应正在与 Shizhao 合作减少对顺序的依赖,但还有大量工作。这可能产生一个关于“如何排序证据因子”或“如何构造顺序无关的组合检验”的研究问题。 3. 连续处理或非二元处理的敏感性分析如何推广? [0:55:05-0:55:16] Bühlmann 询问,讲者未直接回答。这是一个开放的方法论扩展方向。 4. 如何选择 gamma(允许的偏倚量)? [0:55:56-0:56:05] Bühlmann 和讲者都提到可以用可观测混杂来校准,但没有通用准则。这可能导向一个关于“基于数据的 gamma 选择或校准方法”的问题。 5. 将精细理论框架与非点零假设(如bayesian或等价检验)结合:[0:59:57-1:00:48] Andrew Gelman 质疑点零假设检验的实用性,讲者认可,并认为将精细理论引入分层建模等框架是好的发展方向。这可以是一个跨范式连接的问题。 6. 大 p 小 n 或高维混杂下的精细理论构造:报告中的例子都是低维、匹配设计。在更多变量时,如何构造有效独立的证据因子是一个未解决的挑战。

注意:以上所有问题均基于转写内容,具体可行性、与研究者自身 arsenal 的匹配度由研究者自行判断。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论