Evidence factors from multiple, possibly invalid, instrumental variables¶

讲者: Youjin Lee
讨论人: Jose Zubizarreta
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-09-28
主题: 因果推断
视频: https://youtu.be/E37iFrVN-0k · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向：观测研究中的证据因子分析（Evidence Factor Analysis） 与工具变量（Instrumental Variables, IV） 的交叉。该子方向回答的核心问题是：如何从一个观测数据集（而非多个独立研究）中提取出多个统计上（近似）独立、且对不同类型的未测量混杂偏倚各自稳健的因果推断（test of the sharp null）？其目标是让单一研究具备“多源证据相互印证”的可信度，以应对复制危机（replication crisis）中系统偏倚导致虚假发现的问题。

奠基与主流路线： - 证据因子框架由 Paul Rosenbaum (2010, Biometrika) 提出：通过设计使一个研究中多个检验依赖于不同的处理分配假设，且一个检验的失效（因某种特定偏倚）不会自动破坏其他检验。传统上，证据因子要求检验统计量严格独立，但这限制了应用范围。 - 工具变量方法为处理未测量混杂提供了经典识别策略，但要求工具变量满足 A1（相关性）、A2（排他性）、A3（外生性）。当有多个候选工具变量时，多数现有方法（如 Han 2008, Kang et al. 2016, Guo et al. 2018）专注于合并它们得到一个因果结论，并允许部分工具违反 A2 或 A3（例如孟德尔随机化中的荟萃分析方法如 Burgess et al. 2013）。 - 强化设计（Reinforced Design）（Karmakar, Small & Rosenbaum, 2021, JASA）：首次将证据因子与多工具变量结合。它假设一个有序的部分排他性限制（ordered partial exclusion restriction）：若你事先知道一个顺序（例如 V={2,4}），使后续的工具在给定前面所有工具的条件下是有效的，则按该顺序的 IV 检验可产生近似独立的 P 值。但其局限是：该顺序必须正确，且若一个工具违反假设，后续所有检验可能都被污染。

这场报告站在哪里： - 报告（Lee, Zhao, Small & Karmakar）推进了强化设计，提出了一个更宽松的假设——无序的部分排他性限制（Unordered Partial Exclusion Restriction, UPER）。它不要求预先知道哪个工具是“好”的、也不需要指定检验顺序。只要存在一个未知的子集 \(V \subseteq \{1,...,K\}\)，使得在固定所有不属于 \(V\) 的工具的条件下，\(V\) 中的每个工具都是有效 IV，那么对每个工具（无论它是否属于 \(V\)）的检验可以成为近似证据因子。 - 为实现此目标，报告提出了两种构造近似独立检验的设计：（1）平衡块设计（Balanced Block Design）——通过重抽样使各工具组合分布均衡；（2）互分层（Mutual Stratification）——当工具变量是嵌套结构时，通过同时条件于所有其他工具来进行每个检验。后者是本报告的理论焦点。 - 本工作线在当前文献中的前沿性在于：它首次在证据因子框架下用量化分析（非严格独立）处理不确定的、部分无效的工具变量，并用非参数随机化检验与Rosenbaum式的敏感性分析来量化结论对未测量混杂的稳健性。

二、最小内核 / 一个最简例子¶

模型与符号（基于报告幻灯片 §Notation, 转写 [0:10:09]-[0:15:20]）： - 数据结构：有 \(I\) 个匹配层（strata），层 \(i\) 有 \(n_i\) 个个体（用指标 \(ij\) 表示）。 - 可观测变量： - 二元处理变量 \(D_{ij}\). - \(K\) 个二元候选工具变量 \(Z_{ij,1}, ..., Z_{ij,K}\). - 观测结果 \(R_{ij}\). - 可观测协变量 \(x_{ij}\)（通过精细分层被完全控制，同一层内 \(x_{ij}=x_{ij'}\)）. - 潜在变量（不可观测）： - 潜在结果 \(r_{T,ij}, r_{C,ij}\)（在给定处理水平下的潜在结果）。 - 未测量混杂因子 \(u_{ij,k}\)（对应第 \(k\) 个工具变量，未被 \(x\) 解释）。 - 目标：检验 Fisher 的严格零假设[^1]：

\[H_0: r_{T,ij}= r_{C,ij} \quad \forall i,j\]

- 假设（含无序部分排他性 UPER）： - A1（相关性）：每个候选 \(Z_k\) 与 \(D\) 相关。 - UPER：存在一个未知子集 \(V \subseteq \{1,...,K\}\)，满足：对于每个 \(k\in V\)，在给定所有其它工具 \(A_{-k} = (Z_{ij,1},...,Z_{ij,k-1}, Z_{ij,k+1},...,Z_{ij,K})\) 以及层 \(i\)（即 \(x\)）的条件下，\(Z_k\) 是有效的（即满足 A2 和 A3）。对于 \(k \notin V\)，其违反情况未知且可能相互关联。

最简例子（\(K=3\) 个嵌套工具）： - 想象一个研究关于“上大学”对收入的影响。有三个嵌套的工具变量： - \(Z_1=1\) 如果出生在离大学 50 公里以内。 - \(Z_2=1\) 如果出生在离大学 30 公里以内 (即 \(Z_2=1\) 只当 \(Z_1=1\))。 - \(Z_3=1\) 如果出生在离大学 10 公里以内 (即只当 \(Z_2=1\))。 - UPER 的含义：假设存在一些未知的“好”工具。例如，可能 \(V=\{Z_2\}\)。这意味着：如果我们控制 \(Z_1\) 和 \(Z_3\)（固定它们的取值），则 \(Z_2\) 是一个有效工具；但 \(Z_1\)（因与本地经济状况关联）或 \(Z_3\)（因只涵盖极少数家庭，可能有选择偏倚）可能无效。 - 核心思想——互分层：我们做三个单独的检验，每个都条件于所有其他工具： 1. 检验 \(Z_1\)：在 \(Z_2=0, Z_3=0\) 的子组中（只有这一子组有 \(Z_1\) 的变异），比较 \(Z_1=1\) vs \(Z_1=0\) 的结果差异。此时 \(Z_2, Z_3\) 的（可能存在的）排他性违反不对这个比较产生影响。 2. 检验 \(Z_2\)：在 \(Z_1=1, Z_3=0\) 的子组中比较。 3. 检验 \(Z_3\)：在 \(Z_1=1, Z_2=1\) 的子组中比较。 - 为何近似独立：因为每个检验使用的“受试者”与检验逻辑不同（例如，在检验 1 中，一个 \(Z_1=1,Z_2=0,Z_3=0\) 的人是“处理组”；在检验 2 中，同样的人是“对照组”）。这种分配使得检验统计量在零假设下随机相关但保守（stochastically larger than uniform）。从而，可以用元分析中的 Fisher 法或截尾乘积法合并这些 P 值。

三、报告主体：讲者讲了什么¶

[0:00:06 - 0:04:18] 引言与动机 - 以复制危机切入：观测研究中未测量混杂导致的系统偏倚会随着独立研究数增多而不随机的累积（例如，自我激励等混杂因素在任何关于教育的观测研究中都会向上偏倚效应）。关键提问：“能否让这些偏倚看起来更随机 / 独立？”而不是系统性的。 - 核心思路：使用多个工具变量，每个工具受不同偏倚影响的可能性不同，从而在同一数据集内实现“仿复制”。

[0:04:20 - 0:10:03] 回顾工具变量与证据因子 - 回忆经典 IV 三假设。报告主要关注 A2（排他性）与 A3（外生性）可能被违反的场景。 - 引出 证据因子 的概念（Rosenbaum 2010）：在一个观测设计中，存在多个统计上独立（或近似独立）的同一零假设的检验，每个检验依赖不同的分配假设。 - 引入 近似证据因子 的概念： 1. 一个检验的偏倚不必然影响另一个。 2. P 值向量 \((P_1,...,P_v)\) 是随机大于均匀分布（stochastically larger than uniform）的，即对任意坐标单调函数 \(g\) 有 \(\mathbb{E}[g(P)] \ge \mathbb{E}[g(U)]\)，其中 \(U\) 是 i.i.d. Uniform[0,1] — 这意味着联合分布比独立均匀分布更保守（倾向更大P值），从而允许使用 Fisher 法等合并 P 值而依旧控制 I 类误差。 - 举例：用 10 个候选 IV（如“住在大学附近”、“第一季度出生”等）检验教育因果效应，期望一个 IV 的偏倚与另一个不同。

[0:10:09 - 0:20:02] 符号与排他性限制 - 强化设计回顾（Karmakar et al., 2021）：假设有序的部分排他性（例：V={2,4} 意味着 \(Z_2\) 在给定 \(Z_1\) 后有效，\(Z_4\) 在给定 \(Z_1,Z_2,Z_3\) 后有效）。局限性：若 \(Z_1\) 无效，整个设计崩溃；必须知道顺序。 - 无序部分排他性限制（UPER） 是本工作关键创新。
幻灯片定义：对于 \(V \subseteq \{1,...,K\}\)，在固定 \(A_{-V}\) 后，个体只有两个潜在结果（取决于 \(D\)）。其核心是：你不需要知道哪个工具是“好”的，只需知道存在一个集合 \(V\)，使得当条件化于所有不在 \(V\) 的工具 时，\(V\) 中的工具是有效 IV。 - 比较：有序 UPER 要求条件化于前面的工具；无序 UPER 要求条件化于除了自己之外的所有其他工具。

[0:20:02 - 0:23:40] 构造方法一：平衡块设计 - 其思想是打破工具间的依赖：通过重抽样 / 匹配，使得在每个层内，所有可能的 \(K\) 维二元组合（如 \((0,0), (0,1), (1,0), (1,1)\)）都有相同的频数（如 1:1:1:1）。这使一个工具对另一个工具的分布不敏感。 - 局限性：需要每个组合都有非零观测；对于嵌套结构（如 \(Z_2=1\) 只当 \(Z_1=1\) 时），组合 \((Z_1=0, Z_2=1)\) 不存在，无法平衡。

[0:23:40 - 0:30:00] 构造方法二：互分层（核心理论） - 嵌套工具设置：\(Z_1 \ge Z_2 \ge ... \ge Z_K\)（正向嵌套）。
例：三种嵌套的距离指标。 - 互分层检验：对第 \(k\) 个工具，仅在其变异发生的唯一子组（\(Z_{k-1}=1, Z_{k+1}=0\)）内进行检验——即条件于所有其他工具。 - 为何 P 值近似独立（定理 1 的直观）：幻灯片指出，\(P_1\) 和 \(P_2\) 可能是负相关的（同一观测在第一个检验中是“处理组”，在第二个中是“对照组”），而 \(P_1\) 和 \(P_3\) 可以是条件独立的。报告的定理 1 表明，在 A1、UPER 及两个正则条件（条件1：检验统计量对偏倚方向单调；条件2：方差不退化）下，互分层产生的 P 值向量随机大于均匀分布，从而满足近似证据因子条件。
（讲者口头解释 [0:26:02-0:30:00]，但具体正则条件表述不完整，建议核对 arXiv 原文。）

[0:30:00 - 0:42:00] 模拟与数据应用 - 模拟：对比了 (a) 将嵌套 IV 合并为一个序数 IV 做 Kruskal-Wallis 检验，与 (b) 通过互分层得到多个近似独立 P 值再做截尾乘积法组合。
- 当所有工具都有效时，Kruskal-Wallis 检验效力更高（因为合并强化了工具）。
- 当某些工具无效时（违反排他性），Kruskal-Wallis 检验与组合检验都会出现 I 类误差膨胀（当错定 \(v\) 时）；但如果能正确指定有效工具的最小数量 \(v\)（例如，知道至少 1 个有效），则互分层方法能控制 I 类误差。
- 数据应用：研究肯尼亚西部儿童疟疾对发育迟缓的因果效应。使用 “蚊帐干预分配比例” 构造三个嵌套工具变量（\(Z_1\): 是否分配，\(Z_2\): 暴露≥20%，\(Z_3\): 暴露≥50%）。
- 结果：\(P_3\) 和组合 P 值均显著（<0.05）。但在敏感性分析（\(\Gamma=1.1\)）下，组合 P 值不再显著，说明结论对中等程度的未测量混杂不稳健。

[0:42:00 - 0:44:22] 总结与未来工作 - 研究局限： - 只检验Fisher近似零假设（常数效应用）而非弱零假设（平均效应）。 - 将一个序数/连续IV离散化为嵌套IV时，切分点选择随意，且可能因细分过多产生弱工具问题。 - 协变量调整目前仅通过精细分层，扩展到高维或连续协变量尚需方法（Jose在讨论中提及这一点 [0:51:00-0:52:30]）。

[0:44:55 - 0:56:59] 讨论部分（Discussant: Jose Zubizarreta） - Jose以Rosenbaum的“报纸类比”（区分“同一份报纸买很多份”和“很多份不同报纸”）为引，强调证据因子设计的核心是避免偏倚的系统性重复。 - 提出三点重要提问： 1. 效应异质性：如何扩展至弱零假设或归因效应（attributable effects）？ 2. 弱工具问题：切分点选择越精细，每个拟合可能越弱，是否存在强度-因子数的权衡？ 3. 协变量调整：能否用回归或 2SLS 替代精细分层？ - 讲者/合作者回应：在嵌套 IV 设置中，精细切分确实强化导致弱工具；回归调整可能实现自动化但敏感性分析的框架尚待发展（Bikram补充 [0:58:00-0:58:45]）。

四、对应论文与开放问题¶

对应论文（含合作者与年份，报告幻灯片已知）： - 主论文（本报告基于此）： - Youjin Lee, Anqi Zhao, Dylan S. Small, Bikram Karmakar. “Evidence factors from multiple, possibly invalid, instrumental variables.” 工作论文 / 已提交。 - 幻灯片末页引用提示：arXiv 尚未发布。最可能来源：Lee (Brown) 的学术主页或 Biometrika / JASA 投稿。需核查。 - 关键引用（报告提及）： - Karmakar, Small, & Rosenbaum (2021). “Reinforced designs: Multiple instruments plus control groups as evidence factors…” JASA, 116(533), 82-92. - Rosenbaum (2010). “Evidence factors in observational studies.” Biometrika, 97(2), 333-345. - 孟德尔随机化方法群：Burgess et al. (2013/2016), Bowden et al. (2015).

开放问题（每条均扎根于转写）： 1. 弱工具与切分点选择：如何确定从一个序数/连续 IV 构造嵌套 IV 的最优切分点，使得工具强度（A1）与证据因子数量（近似独立性）之间的权衡可量化？
依据：[0:44:08] 讲者承认切分点选择随意；讨论者 Jose 提及弱工具问题 [0:50:17-0:50:40]。 2. 超出 Fisher 零假设：如何将检验扩展到平均处理效应（Weak Null）或归因效应？
依据：[0:43:48] 讲者提出此点作为未来方向；讨论者 [0:49:50] 明确提问。 3. 协变量调整的灵活性：如何用回归（如 2SLS）、倾向得分匹配等方法进行协变量调整替代精细分层，并与证据因子框架结合？难点在于敏感性分析与独立性的维持。
依据：[0:50:20-0:52:05] Jose 提问；[0:58:30] Bikram 补充回归调整的敏感性分析仍是开放问题。 4. 平衡块设计的可行性：当 \(K\) 较大或工具非嵌套时，如何有效实施平衡块设计并证明其近似独立性质？
依据：幻灯片 [0:23:40] 标明平衡块设计对嵌套工具不可行；正文仅给出概念，缺少一般公式。

[^1]: 此处“零假设”是指每个个体的处理效应为零（Fisher's sharp null）。报告全程在这个意义上操作随机化检验。

Maintained by 陈星宇 · Homepage · Source on GitHub

Evidence factors from multiple, possibly invalid, instrumental variables¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论