Average causal effect estimation via instrumental variables: the no simultaneous heterogeneity assumption¶

讲者: Neil Davies
讨论人: Eric Tchetgen Techetgen
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-04-12
主题: 因果推断
视频: https://youtu.be/CDEC8--Xnsw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2010.10017 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告位于工具变量（IV）识别平均因果效应（ATE） 这一子方向，核心追问是：在 IV 核心假设（IV.1–IV.3）之上，还需要什么样的第四条假设（IV.4）才能把 Wald 估计量解释为总体 ATE，而不仅仅是某个亚组的局部效应？

奠基与主流路线：当处理效应存在个体异质性时，经典的 IV.4 假设之一是单调性（Angrist, Imbens & Rubin, 1996），它把 Wald 估计量解释为局部平均处理效应（LATE）——即对"依从者（compliers）"的平均效应。这个框架不要求处理效应本身无异质性，但其代价是：(i) 效应针对的是一个无法事先识别的亚群；(ii) 要求工具对处理的效应是单调的（没有"违抗者"）。另一条路线是直接假设处理效应恒定（常数效应，在孟德尔随机化（MR）文献中极常用），或无效应修正（No Effect Modification, NEM），或工具-暴露关联恒定。每条假设都对应一种特定的异质性约束。

当前 frontier：近期工作试图用更弱、更"可想象"的假设来直接识别 ATE，而不必退回到 LATE。例如 Wang & Tchetgen (2018) 提出的 NUCEM（No Unmeasured Common Effect Modifier） 假设——它要求条件于未测量混淆因子 U 时，处理效应 γ_a(U) 与工具-暴露关联 α_g(U) 的协方差为零（平均尺度）。这篇报告提出的 NOSH（NO Simultaneous Heterogeneity） 假设是另一条路线：它直接要求个体层面的"工具→暴露"效应（γ_i）与"暴露→结果"效应（δ_i）相互独立（mean independent），且暴露的结果效应是 additive linear。NOSH 声称比 NEM 和常数效应更弱，并且在某些设定下（连续工具+连续暴露）比单调性更自然。

报告站在哪里：它把出发点放在孟德尔随机化（MR） 的实证实践里。MR 文献大量使用常数处理效应假设（以允许简单的加权 IV 估计和异质性检验），这在经济计量学中被认为过于苛刻。讲者试图为 MR 实践提供一个更弱、更可辩护的识别假设——NOSH——并论证它比常数效应 / NEM 更弱，同时规避了单调性在连续工具 / 暴露情形下的模糊解释。报告的讨论者（Tchetgen Tchetgen）随后质疑 NOSH 是否真的弱于 NUCEM，以及它在二值暴露情形下的定义是否自洽。

二、最小内核 / 一个最简例子¶

符号与设定（基于二进制暴露、二进制工具、未测量混淆）：

可观测数据：(Z, X, Y)，分别表示工具（instrument）、暴露（exposure, treatment）、结果（outcome）。
潜在结果框架：Y_x 表示在暴露值 x 下的潜在结果（x = 0,1）；X_z 表示在工具值 z 下的潜在暴露状态（z = 0,1）。
核心参数：ATE = E[Y₁ - Y₀]。
个体异质性：
γᵢ = X^{(i)}{Z=1} - X^{(i)}{Z=0}：工具对个体 i 暴露状态的影响（"第一阶段异质性"）。
δᵢ = Y^{(i)}{X=1} - Y^{(i)}{X=0}：暴露对个体 i 结果的影响（"第二阶段异质性"）。
IV 核心假设（IV.1–IV.3）：(i) Z 与 X 相关（Z→X）；(ii) Z 与未测量混淆因子独立；(iii) Z 只通过 X 影响 Y（exclusion restriction）。

Wald 估计量（对二值 Z）：

\[\hat{\beta}_{IV} = \frac{E[Y \mid Z=1] - E[Y \mid Z=0]}{E[X \mid Z=1] - E[X \mid Z=0]}.\]

经典结果：在 IV.1–IV.3 + 常数效应（δᵢ = 常数）或单调性 + 无协变量条件下，Wald 估计量 = ATE 或 LATE。

NOSH 的最简特例（二值 Z, 连续 X, 连续 Y, 未测量混淆 U）：

假设以下数据生成过程：

\[X = \alpha_0 + \alpha_1 Z + \gamma(U) Z + \varepsilon, \quad Y = \beta_0 + \beta_1 X + \delta(U) X + \eta,\]

其中 γ(U) 和 δ(U) 是随机系数，取决于未测量混淆因子 U。NOSH 假设这两者均值独立：

\[E[\gamma(U) \cdot \delta(U)] = E[\gamma(U)] \cdot E[\delta(U)].\]

也就是说，工具-暴露关联的个体异质性与暴露-结果效应的个体异质性不相关。

为什么这个条件够？Wald 估计量的概率极限可以分解为：

\[\frac{E[Y \mid Z=1] - E[Y \mid Z=0]}{E[X \mid Z=1] - E[X \mid Z=0]} = \beta_1 + \frac{\text{Cov}_{\text{over }i}(\gamma_i, \delta_i)}{\bar{\gamma}},\]

其中 \(\bar{\gamma} = E[\gamma_i]\)（原文中的 "Cov(γ_i, δ_i) / E[γ_i]" 形式）。如果 Cov(γ_i, δ_i)=0（即 NOSH），则偏差项为零，Wald 估计量收敛到 ATE。

为什么这个条件比常数效应弱？ 常数效应要求 δᵢ 对所有 i 相等（即 δ(U)=0）——这是 NOSH 的一个特例（协方差自动为零），但 NOSH 允许 δᵢ 自由变化，只要它不跟 γᵢ 相关。

三、报告主体：讲者讲了什么¶

[0:01:04–0:04:14] 开场与动机 - 讲者（Neil Davies）介绍自己是流行病学家，来自布里斯托尔，合作者包括 Fernando Hartwig (主要方法论贡献者)、George Davey Smith、Linsheng Wang。 - 论文起源于新冠爆发期间，Fernando 在巴西抗疫导致论文进度延迟。 - 关键动机：遗传流行病学（孟德尔随机化）大量使用常数处理效应假设，这在经济计量学中已被视为不现实。讲者想为 MR 实践提供一个"更弱、更易辩护"的假设。 - 已发表关联论文：arXiv 2010.10017（主文）；另一篇技术注记（何时工具-暴露效应恒定即足以识别 ACE）。

[0:04:18–0:12:38] 背景：MR 与 IV 方法论 - 回顾经典 IV 文献：Angrist, Imbens & Rubin (1996) 的单调性与 LATE。 - 流行病学的 MR：Z 是遗传变异（基因分型），X 是风险因素（如 BMI），Y 是疾病（如冠心病）。MR 用 Z 当作自然实验工具。 - MR 的典型应用：双样本摘要数据 IV 估计（遗传变异-暴露关联从一个 GWAS，遗传变异-结果关联从另一个 GWAS），用 Wald 比例估计合并。 - 常数效应假设在 MR 中普遍使用，因为若允许异质性，则无法区分真正的异质性与工具的多效性效应（pleiotropy）。

[0:12:38–0:20:27] 第五条假设的必要性 & 现有假设回顾 - 列出五种常见的 IV.4 假设：无 IV 假设（仅给 IV 界）、常数暴露效应、无效应修正（NEM）、常数工具-暴露效应、单调性。 - 讲者展示无点识别假设时 IV 界的宽度对 10,000 样本不具信息性，从而论证必须做某种 IV.4 假设。 - 进一步用模拟揭示：即使在 10,000 样本下，IV 界仍极宽（ACE 界为 [0.17, 0.72]，RR 界更宽），且不随样本量收缩。

[0:20:27–0:26:05] 正式符号与各假设解释 - (幻灯片符号)： - Yᵢ(x)：个体 i 在暴露 x 下的潜在结果。 - 个体因果效应 = Yᵢ(1) - Yᵢ(0)。 - 总体验证平均因果效应 (ACE) = E[Y(1) - Y(0)]。 - Wald 估计量的直观：IV 对结果的影响除以对暴露的影响，在常数效应下 = ACE。 - 常数效应：假设 Yᵢ(1) - Yᵢ(0) = 常数（对所有 i）；经济计量学认为极强，MR 中默认使用。 - 无效应修正 (NEM)：要求处理效应与工具值无关——即潜在结果下 Yᵢ(1)-Yᵢ(0) 在 Z=1 和 Z=0 组中相同。 - 常数工具-暴露效应：假设工具对暴露的影响对所有个体相同（符号 ψ 表示），讲者引用一篇关联论文详细讨论此假设的充分/必要边界。

[0:30:14–0:32:50] NOSH 假设的核心 - 正式表述（从幻灯片第 6 张的公式推导）： - 个体层面效应分解：γᵢ = 工具对个体 i 暴露的效应，δᵢ = 暴露对个体 i 结果的效应。 - NOSH 要求 E[γᵢ δᵢ] = E[γᵢ] E[δᵢ]（即协方差为零）。 - 讲者解释：若 γᵢ 与 δᵢ 独立（不相关），则 IV 的扰动在暴露上的非均匀效应被结果的非均匀效应平均化——回收到一个代表性的平均效应。 - 讲者强调："the two heterogeneous effects are independent...you're picking up a representative sample of the treatment effects"。

[0:35:56–0:38:46] 模拟设计 - 模拟设定：X（暴露）是 Z（工具）、γ（随机第一阶段斜率）、一个非线性项的函数；Y（结果）是 X、δ（随机第二阶段斜率）、噪声的函数。 - 通过控制随机系数的相关性设定 5 个场景： 1. 常数效应（γ=常数, δ=常数） 2. 仅 γ 异质 + δ 常数 3. 仅 δ 异质 + γ 常数 4. γ 与 δ 皆异质但独立 5. γ 与 δ 皆异质且相关（即 NOSH 被违反） - 关键结论：场景 1–4 中 Wald 估计量无偏；场景 5 中产生明显偏差（本质上是 Cov(γ_i,δ_i) 非零引入的偏差）。

[0:38:46–0:42:30] 模拟结果详解 & 实证讨论 - 图表展示：偏倚为 0（场景 1–4）vs. 偏倚明显（场景 5），误差棒（标准误）在场景 5 并不更大——说明偏倚不是由方差增加引起。 - 讲者强调："you can get estimates of the causal effect even if homogeneity, no effect modification, and monotonicity do not hold...it's only when you introduce correlations between these two...that you get bias"。 - 实证启发：用 FTO 基因变异（与 BMI 和心脏病关联的例子）解释——由于个体不知道自己的遗传变异，因此异质性间的相关在直觉上不合常理，可能是弱的。

[0:43:30–0:44:30] 总结 - NOSH 要求工具-暴露关联与暴露-结果效应可以相互异质，但必须独立（均值不相关）。 - 讲者声称在 MR（连续工具 + 连续暴露）中，NOSH 可能比单调性或常数效应更合理。 - 承认该假设不可检验。

[0:46:05–1:00:14] Eric Tchetgen Tchetgen 的讨论 - Eric 以讨论者身份上场，系统性对比 NOSH 与 NUCEM 及其他识别假设。 - NUCEM（Wang & Tchetgen, 2018）：假设条件于未测量混淆 U 时 Cov(γ_a(U), α_g(U)) = 0，识别 ACE。Eric 声称： - 在二值 A 和 G 下 NOSH 强于 NUCEM（NOSH 需要单位水平独立性，NUCEM 仅需平均尺度上的协方差为零）。 - NUCEM 的识别不具有对称性（α_g(U) 常数 = 需要比 γ_a(U) 常数更弱，但产出更多）。 - 问题 2（不对称性）：如果 γ_a(U) ≡ 常数 ⇒ 只能识别 ACE；如果 α_g(U) ≡ 常数 ⇒ 可以识别整个 Y^(a) 分布（包括任意泛函）。 - 问题 3（正则性）：在二值 A、连续 G 下，NOSH 的导数定义（∂A/∂G）不良好定义。 - 问题 4（控制函数替代）：Eric 提出一个更一般的控制函数框架（非参数 g-formula），使用 A_c = A - E[A|G]（或更一般的 Imbens & Newey 单调工具变量法）可以不假设结果线性就识别潜在结果均值，远比 NOSH 灵活。 - [1:00:14–1:04:30] Neil 回应（较简短、未解决大部分异议）：承认自己需要阅读 NUCEM，表示有 "intuitive appeal" 但不了解两条件的相对强度；承认线性假设可能非必要。

四、对应论文与开放问题¶

对应论文： - 主文：F.P. Hartwig, L. Wang, G. Davey Smith, N.M. Davies (2020). Average causal effect estimation via instrumental variables: the no simultaneous heterogeneity assumption. arXiv: 2010.10017.（从元数据确认，转写多处提及。） - 技术注记（何时工具-暴露效应恒定足以识别 ACE）：讲者提到一篇附加论文，但无 arXiv 或标题。Eric 在讨论中暗示这可能与 Burgess 等人 (2014) 有重叠但未充分引用。 - 讨论者（Tchetgen）提到自己的文章：Wang & Tchetgen (2018)（NUCEM）；Cui & Tchetgen (2021)；Qiu et al. (2021)；TT & Vansteelandt (2013)（ETT 识别）。

开放问题（每条扎根在转写或幻灯片的依据）： 1. [Eric 问题 1, [0:48:06]]：NOSH 在二值 A 和 G 下是强于还是弱于 NUCEM？——转写中 Eric 质疑 NOSH 需要单位水平独立性，NUCEM 仅需平均尺度协方差为零。Neil 承认未钻研过 NUCEM，不能回答。 2. [Eric 问题 2, [0:48:06]]：NOSH 的识别是否具有不对称性？——如果 γ_a(U) 常数 ⇒ 仅识别 ACE；如果 α_g(U) 常数 ⇒ 识别整个潜在结果分布。这种不对称在 NOSH 下是否对应某种类似分化？ 3. [Eric 问题 3, [0:48:06]]：NOSH 在二值暴露、连续工具下的导数定义是否良好？——幻灯片中的导数 ∂A/∂G 对二值 A 无定义，且理论表述中这一点尚未澄清。 4. [Eric 问题 4-part 1, [0:48:06]]：NOSH 是否必要？——控制函数方法（如 Blundell & Powell, 1999; Imbens & Newey, 2000）使用非参数 g-formula，不要求结果线性，似乎比 NOSH 更通用。讲者承认 NOSH 并非必要，但强调其直觉价值。 5. [Eric 问题 4-part 2, [1:03:57] (Neil 回应)：转写中 Neil 声称线性假设可能非必要（"the linearity in the second stage is not necessary"），但未提供替代条件。这一矛盾需在论文中解决：NOSH 的正式理论是否默认 Y = β_0 + β_1 X + δ(U) X + η 这种线性结构？ 6. [Q&A 现场问题, [0:35:51]（观众提问）：如何扩展到序数暴露或序数工具？——Neil 的回答是即兴的（建议 dichotomize 或使用多变量 IV 模型），并没有明确的理论保证，这指向一个未解决的扩展方向。

Maintained by 陈星宇 · Homepage · Source on GitHub