Variance-based sensitivity analysis for weighting estimators results in more informative bounds¶

讲者: Student talks
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-03-14
主题: 因果推断
视频: https://youtu.be/j_nKU3hU-wc · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

本报告属于观测性研究中处理效应估计的敏感性分析（sensitivity analysis for unmeasured confounding）子方向。该方向的根本追问是：在条件可忽略性（conditional ignorability）可能不成立时，观测估计量（如倾向得分加权、回归调整、匹配）的结论对未测混杂有多敏感？经典路径包括：

基于参数或偏参数模型的敏感性分析，如 Cornfield (1959) 的吸烟与肺癌的“比值比”论证，Rosenbaum (1987) 的匹配研究中的 Γ 参数。
边缘敏感性模型（Marginal Sensitivity Models, MSM）：Tan (2006)、Aronow & Lee (2013)、Zhao et al. (2019)，约束每个个体的权重比（w*ᵢ / wᵢ）落在 [Λ⁻¹, Λ] 内，本质上是 L∞ 型约束，对全局最坏情况悲观。
E-value (VanderWeele & Ding, 2017)，基于风险比转换成单一汇总值。
f-敏感性模型 (Jin et al., 2022) 及其他组合模型。

当前前沿在寻找更紧（tighter）且更可解释的边界，避免因过度悲观而导致推断无用。本报告站在这一位置：提出方差基敏感性模型（Variance-Based Sensitivity Model, VBM），用 R² 参数化未测混杂对权重的分布影响，将敏感性分析归结为加权的 L2 范数优化问题，从而得到比 MSM 更紧的边界，且 R² 可被形式化基准化（benchmarking）。工作直接延续 Huang (2022) 关于推广实验结果的敏感性分析和 Hartman & Huang (2022) 关于调查加权的敏感性分析。

与主要文献的关系：
- 与 Zhao et al. (2019) 直接竞争：VBM 用平均误差替代全局最坏误差，在渐近和有限样本下给出更窄区间。
- 与 Tan (2006) 的“边际敏感性模型”对比，VBM 的参数 R² 不随样本量发散，且对 logit 模型避免无穷 Λ 问题。

注：转写稿从 [0:00:03] 开始似乎提及另一个“线性 IV 模型”例子，这与幻灯片中加权估计量、FARC 例子不符。经对照幻灯片（权威材料），确认报告主题是“Variance-based sensitivity analysis for weighting estimators”。转写稿中关于 Card 数据集、IV、OLS vs 2SLS 的内容很可能来自同一场会议的另一短报告或误混。以下分析以幻灯片为准，仅引用转写中与幻灯片一致的部分（如 R² 概念、优化框架）。

二、最小内核 / 一个最简例子¶

符号与模型¶

可观测数据：
- 处理指标 Z ∈ {0, 1}，结果 Y，预处理协变量 X（向量）。
- 存在未测混杂 U（可能多维，报告中假设一维）。
- 目标：处理组平均效应（ATT）
τ := E[Y(1) − Y(0) | Z = 1]。

加权估计量：
构造控制组权重 ŵᵢ（基于观测 X 估计倾向得分），
τ̂_W = (1/n₁) Σᵢ Zᵢ Yᵢ − (1/Σᵢ(1−Zᵢ) ŵᵢ) Σᵢ (1−Zᵢ) Yᵢ ŵᵢ。

理想权重：若同时观测 X 和 U，真权重为
w*ᵢ = Pr(Z=1|X,U) / (1 − Pr(Z=1|X,U))
= wᵢ · [Pr(U|X, Z=1) / Pr(U|X, Z=0)]，其中 wᵢ 仅用 X 估计。

方差基敏感性模型 σ(R²)¶

核心约束：未测混杂导致的权重变异不能超出观测权重变异太多，即
σ(R²) := { w ∈ ℝⁿ : 1 ≤ var(wᵢ) / var(wᵢ) ≤ 1/(1 − R²) }，
R² ∈ [0, 1)。R² = 0 意味着无未测混杂（w* = w）；R² → 1 意味着权重变异可任意大（未测混杂影响无限强）。

最简特例（d=1, 二值处理, 单个 U, w 已归一化）
假设 var(w) = 1（标准化），则约束等价于 var(w) ≤ 1/(1−R²)。令 λᵢ = wᵢ/wᵢ，则约束可写为加权平方和约束 Σ wᵢ λᵢ² ≤ 1/(1−R²)。

核心思想：该模型将未测混杂的效应约束为一个平均（L2）量，而非每个个体上界（L∞）。因此，当多数个体 λᵢ 接近 1，仅有少量大离群值时，L2 约束远弱于 L∞ 约束，从而边界更窄。

最优偏差界（定理 1）¶

对于固定 R²，最大偏差为
max Bias(τ̂_W | w*) = √(1 − cor(w, Y)²) · √(R²/(1−R²)) · √(var(Y)·var(w))。

√(1−cor(w,Y)²)：观测权重与结果相关性越强，偏差上限越小（因为已有部分变异被观测权重解释）。
√(R²/(1−R²))：R² 越大，偏差上限单调增。
√(var(Y)·var(w))：结果与权重的总体变异标度因子。

该闭式结果来自将优化问题转化为 Cauchy-Schwarz 不等式的应用（幻灯片第 8 页）。

三、报告主体：讲者讲了什么¶

（以下基于幻灯片结构，转写仅用于补充口语化解释；因转写与幻灯片内容多处不一致，时间点标注仅供参考，需对照视频核实。）

1. 引入与动机 [0:00:03–0:03:04]¶

讲者以 Cornfield (1959) 和 Rosenbaum (1987) 为例，说明敏感性分析的历史成功。然后指出当前大量敏感性模型却在实际中很少使用，原因在于：许多工作追求闭式解，限制了模型灵活性和可解释性。本研究的目标是提供一个更易被应用研究者采用的框架。

2. 方差基敏感性模型定义 [幻灯片 p.6–7]¶

定义权重比值 λᵢ = wᵢ/wᵢ，方差比约束 var(w)/var(w) ≤ 1/(1−R²)。讲者强调这等价于控制分布差异，而非每个个体上的比值边界。

转写中 [0:03:04–0:06:03] 有一大段关于“θ, ψ”优化框架的描述，与幻灯片中“objective β, parameter θ, sensitivity parameter ψ”的提法一致。但转写随后转入线性 IV 模型，与幻灯片冲突，故不采用。

3. 最优偏差界（定理 1）[幻灯片 p.8]¶

给出闭式解（如上节所示）。推导关键：利用 Cauchy-Schwarz 及权重正交分解。讲者解释该界由三项构成：相关性界、R² 依赖的不平衡水平、标度因子。
- 当观测权重与结果高度相关时，偏差上限降低（因为已有信息被利用）。
- R² 越大，潜在偏差越大。
- var(Y)·var(w) 大的数据对混杂更敏感。

4. 置信区间构建 [幻灯片 p.10–11]¶

引入百分位数 bootstrap 方法：对每个 bootstrap 样本，求解最大偏差界，得到 τ̂ ± 最大偏差 ± 抽样不确定性。报告展示不同 R² 下点估计和 95% 区间的变化（FARC 例子）。当 R² ≥ 0.25 时，区间跨零，效应不再统计显著。定义 R²* 为区间包含零的最小 R²。

5. 基准化（Benchmarking）R² [幻灯片 p.12–13]¶

如何判断 R² 取多大合理？用观测协变量做基准：对每个观测变量 Xⱼ，假装它是唯一未测混杂，计算其“等效 R²”： R̂² = R̂²_{-j} / (1 + R̂²_{-j})，其中 R̂²_{-j} = 1 − var(w_{-j})/var(w)（剔除 Xⱼ 后权重的变异比）。
- 将基准 R̂² 与 R² 比较。若多个变量基准值超过 R²，则结论高度敏感。
- FARC 例子中，暴力事件、海拔、GDP 的基准 R² 均 > 0.25，说明结论不稳定。

6. 放松相关性界 [幻灯片 p.14]¶

定理 1 假设未测混杂最大程度相关于结果（最悲观情形）。通过基准化可估计更现实的相关性界，进一步缩窄区间。

7. 与边缘敏感性模型（MSM）比较 [幻灯片 p.16–18]¶

核心对比： - MSM：约束 λᵢ ∈ [Λ⁻¹, Λ]，等价于 L∞ 范数（全局最坏情况）。
- VBM：约束 Σ wᵢ λᵢ² ≤ 1/(1−R²)，等价于加权 L2 范数（平均误差）。
- VBM 的区间严格不宽于 MSM 的区间（需形式条件），因此“更 informative”。

8. 实践优势：logit 模型下的无穷 Λ 问题 [幻灯片 p.20]¶

若使用 logistic 回归估计权重，当样本量增大时，MSM 的参数 Λ 的期望会发散至无穷，即使未测混杂很弱。而 R² 仅依赖于未测混杂的相对强度，不随 n 发散，因此 VBM 更稳定。FARC 例子中 GDP 的 Λ 基准值高达 16 亿，荒谬不可解释，而 R² 为 0.31 合理。

9. 数据例：FARC 和平协议 [幻灯片 p.1–4, 13, 19]¶

处理：总统在某市得票率是否超过 50%（代表对总统的接受度）。
结果：支持和平协议投票比例。
基线：暴力事件数、海拔、人口、GDP。
未加权 ATE：23.49 (SE 0.79)；加权 (IPTW) ATE：21.25 (SE 1.25)。
敏感性分析：R²* = 0.25。基准化显示多个变量达到该水平，结论不稳健。

10. 总结与展望 [幻灯片 p.22]¶

贡献：引入方差基敏感性模型（VBM）、R² 微积分工具、提供可基准化的参数、得出更紧边界。
相关论文：Huang (2022)、Hartman & Huang (2022)。
arXiv: 2208.01691。

四、对应论文与开放问题¶

对应论文（以幻灯片为准）¶

主论文：Melody Huang & Sam Pimentel (?)，“Variance-Based Sensitivity Analysis for Weighted Estimators Results in More Informative Bounds”，arXiv:2208.01691。

注：幻灯片第 22 页标题下仅列“Melody Huang Sam Pimentel University of California, Berkeley”，联系人为 melodyyhuang@berkeley.edu。转写中讲者自称合作者包括“Chingyang Zhao”，但幻灯片未列出，疑为口头致谢导师而非合作者。请核实原文。
相关工作：
Huang (2022)，“Sensitivity Analysis for Generalizing Experimental Results”。
Hartman & Huang (2022)，“Sensitivity Analysis for Survey Weighting”。

开放问题（源于幻灯片与问答环节）¶

开放问题	来源依据
1. 当未测混杂 U 多维时，如何避免保守性偏差？	问答部分（[0:27:24–0:30:03]）：讲者承认将多维 U 合并为一个超混杂会得到保守界；论文中给出了一个两维 U 的识别结果，但敏感性参数数量大增。能否在保持锐度下自动处理多维 U？
2. 能否构建一个自动化软件，用户只需输入因果图并标记未测节点，系统即输出 R² 形式敏感性结果？	问答（[0:26:56–0:27:53]）：讲者认为理论上可行但很难自动化，因为涉及代数推理。能否发展一套算法（例如基于 R² 微积分规则的图论方法）？
3. 优化问题在约束增多（如同时使用多种基准化+相关性界）时的计算效率与稳健性？	幻灯片 p.21 提及“更多细节在论文中”，但未在报告详述。大规模 bootstrap 重复求解非线性约束优化的算法选择。
4. 方差基模型能否扩展到更复杂的估计量（如 AIPW、双重稳健估计）或更复杂的目标（如 ATT、ATE、LATE）？	报告仅处理加权估计量的 ATT。讲者在问答中表示原则上适用于任何线性设定，但需重新推导偏差公式。
5. R² 微积分是否可推广到非线性模型（如广义线性模型、非参数模型）？	所有规则依赖线性回归的可加性。非线性下的类似代数系统尚需发展。

Maintained by 陈星宇 · Homepage · Source on GitHub