跳转至

Root-n-consistent estimators for average treatment effect with minimal sparsity

讲者: Yuhao Wang
讨论人: Rajarshi Mukherjee
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-05-09
主题: 因果推断
视频: https://youtu.be/HJCIQthynP0 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2011.08661 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

方向定位:这场报告位于 高维因果推断(high-dimensional causal inference) 的一个核心子问题:在观测数据有高维混杂变量(\(p \gg n\)\(p \rightarrow \infty\))时,如何对 平均处理效应(ATE)\(\sqrt{n}\)-一致估计并构造置信区间。

这个方向在追问什么: - ATE 的识别需要“无混杂性”(unconfoundedness),因此需要调整高维协变量 \(X\)。 - 经典的 AIPW / DML(Robins et al. 1994; Chernozhukov et al. 2018)利用 \(\sqrt{n}\)-一致估计 + 双稳健性(double robustness),但这一套做法需要 两个麻烦函数都能被以足够快的速度一致估计。 - 在高维稀疏设定下,这通常要求两个稀疏模型(outcome regression 与 propensity score)的稀疏度之积满足 \(s_r s_\pi = o(n / \log^2 p)\)(报告 slide "√n-consistency")。

奠基与主流路线: - Athey, Imbens, Wager (2018): 提出了只用 outcome regression 稀疏(\(s_r = o(\sqrt{n}/\log p)\)),允许 propensity score 任意复杂,即可得到 \(\sqrt{n}\)-一致估计。 - Chernozhukov et al. (2022): 推广到两者都稀疏但要求 \(\ell_1\)-范数有界。 - Bradic et al. (2019): 给出了若干不同的稀疏度组合条件。 - Smucler, Tan, Ning, Dukes, Vansteelandt 等人: 走向“仅有一个稀疏函数”的方向,但通常还需要对该非稀疏函数施加某种可估性假设(如稀疏投影)。 - 平行的非参数路线(非稀疏):对固定维数、关于光滑度(smoothness)的必要充分条件由 Robins, Li, Tchetgen, van der Vaart (2009) 给出。

当前 frontier & 这场报告的站位: - 这些工作共同暗示一个 “最小稀疏性”猜想:只要 两个麻烦函数之一是稀疏模型(\(s=o(\sqrt{n}/\log p)\)),另一个可以任意复杂(不可估),则 \(\sqrt{n}\)-一致估计可能。 - 这场报告的两项工作试图完全证实这个猜想,并且要求估计器 模型不可知(model-agnostic)——不需要事先知道哪一个函数是稀疏的。

关键参考文献(从幻灯片/摘要确认): - Wang & Shah (2020), arXiv:2011.08661: DIPW —— 兼容 outcome regression 任意复杂、propensity score 稀疏。 - Liu & Wang (2023): “Double calibration estimator” —— 实现“两者之一稀疏”的全覆盖,且扩展到了回归系数估计与近似稀疏。 - Bradic et al. (2019a/2019b): 给出了部分充分条件与必要条件。 - Athey et al. (2018): 互补于 DIPW 的方向。 - Robins et al. (2009): 非参数光滑度条件下的经典结果。 - Chernozhukov et al. (2018, 2022): DML 框架与高维线性模型结果。

候选论文 arXiv ID 已由元数据确认:2011.08661(Wang & Shah, 2020)。


二、最小内核 / 一个最简例子

全局符号(以报告为准): - 可观测 IID 数据: \((X_i, T_i, Y_i)_{i=1}^n\),其中 \(X_i \in \mathbb{R}^p\)(高维协变量),\(T_i \in \{0,1\}\)(二值处理),\(Y_i \in \mathbb{R}\)(观测结果)。 - 潜在结果: \((Y_i(1), Y_i(0))\),满足 \(Y_i = T_i Y_i(1) + (1-T_i) Y_i(0)\)。 - 目标 estimand(参数): 平均处理效应 \(\tau = \mathbb{E}[Y_i(1) - Y_i(0)]\)。 - 关键函数(麻烦函数): - 倾向得分:\(\pi(x) = \mathbb{P}[T=1|X=x]\)。 - 结果回归:\(r_t(x) = \mathbb{E}[Y|T=t, X=x]\)\(t=0,1\)。 - 核心标识假设: 无混杂性 \(Y(1), Y(0) \perp\!\!\!\perp T \mid X\)

一个最简特例(\(d=1\),仅一个协变量),用最直觉的方式讲清 DIPW 的核心思想: 1. 假设 世界最简单\(X\) 是标量(\(d=1\)),\(T\)\(X\) 决定:\(\mathbb{P}(T=1|X=x) = \sigma(\gamma x)\)(logistic link),但 \(\gamma\) 未知,需要从数据估计。\(Y(1), Y(0)\) 可以是任意复杂函数(比如二次/非光滑)。 2. 如果直接使用 IPW 估计器

\[\hat{\tau}_{\text{IPW}} = \frac{1}{n} \sum_i \frac{T_i Y_i}{\hat{\pi}(X_i)} - \frac{1}{n} \sum_i \frac{(1-T_i) Y_i}{1-\hat{\pi}(X_i)}.\]
虽然不需要估计 \(r_t(x)\),但 偏见很大:因为 \(\hat{\pi}\) 的估计误差会导致 IPW 的偏差是 \(O(s_\pi/(\sqrt{n}\log p) \times \text{某种量})\),对于 \(s_\pi = o(\sqrt{n}/\log p)\),这个偏差过大,不能保证 \(\sqrt{n}\)-一致。 3. 关键想法(DIPW):不直接用 \(Y_i\) 做 IPW,而是用 新构造的“伪结果变量” \(\mu_i\) 替换 \(Y_i\)
\[\hat{\tau}_{\text{DIPW}} = \frac{1}{n} \sum_i \left( \frac{T_i \mu_i}{\hat{\pi}(X_i)} - \frac{(1-T_i)\mu_i}{1-\hat{\pi}(X_i)} \right).\]
这里 \(\mu_i\) 不是任意的,它必须满足两个性质: - (a) 条件独立于 \(T_i\) 给定 \(X_i\):这是为了在分析偏见时可以运用 \(\mathbb{E}[T_i \mid X_i] = \pi(X_i)\) 的代数性质来抵消第一阶项。 - (b) 某种“校准”条件:具体来说,要求 \(\|X^\top \mu - X^\top \tilde{y}\|_\infty\) 很小(这是从泰勒展开后误差项分析出来的),其中 \(\tilde{y}\)\(Y_i\) 的某种变换。 4. 如何构造 \(\mu\):因为条件 (a) 和 (b) 同时满足是困难的(寻找 \(\mu\) 时一般需要用到 \(Y_i\),而这会引入依赖),所以 DIPW 引入 辅助样本(sample splitting):用一部分数据估计 \(\hat{\pi}\),再用另一部分数据求解校准方程,以此来解耦。

故事的核心:将“IPW 的偏见”转化为一个“校准问题”,而校准只依赖于 \(X\) 的协方差结构和 \(Y\) 的子高斯性,不依赖于结果回归模型 \(r_t(x)\)——它可以任意复杂


三、报告主体:讲者讲了什么

[0:00]–[0:05] 寒暄与介绍
报告由 OCIS 组织者引言,简述报告人与讨论人。

[0:05]–[0:15] 动机与问题设置
- 示例(大学教育对收入、疫苗对感染率)引出因果推断的必要性。 - 形式化定义:\(n\) 个 IID 样本 \((X_i,T_i,Y_i)\),潜在结果框架。 - 目标 estimand:\(\tau = \mathbb{E}[Y(1)-Y(0)]\)。 - 关键假设:无混杂性 + \(p \to \infty\) 的高维情形。

[0:15]–[0:20] 现有结果回顾(主要基于幻灯片 "√n-consistency")
- AIPW/DML 结构:估计 \(\pi(x), r_t(x)\),插件到 M-estimator。 - 当两者都是稀疏 GLM 时,标准结果需 \(s_r s_\pi = o(n/\log^2 p)\)。 - Athey et al. (2018): outcome 稀疏 (\(s_r = o(\sqrt{n}/\log p)\)),propensity 任意复杂。 - Bradic et al. (2019): 不同稀疏度组合条件。 - Bradic et al. (2019b): 必要性条件。

[0:20]–[0:23] 引出“最小稀疏性”猜想(幻灯片 "Minimal sparsity condition")
- 定义Minimal sparsity: 要么 \(s_r = o(\sqrt{n}/\log p)\)\(\pi\) 任意,要么 \(s_\pi = o(\sqrt{n}/\log p)\)\(r_t\) 任意。 - 目的是做出模型不可知的估计器(不知道哪个是稀疏的)。

[0:23]–[0:27] 已有文献的局限(幻灯片 "literature review")
- Athey 2018 只覆盖了“outcome 稀疏”的情形。 - Chernozhukov et al. (2022): 要求 \(\ell_1\)-范数有界。 - Smucler 等人: 虽然只要一个稀疏,但对另一个函数还需可估性假设(如稀疏投影)。

[0:27]–[0:35] 报告的核心贡献(幻灯片 "Our contributions")
- 两篇连续工作: 1. Debiased IPSW (Wang & Shah, 2020):覆盖“propensity 稀疏、outcome 任意复杂”情形(与 Athey 2018 互补)。 2. Double Calibration Estimator (Liu & Wang, 2023):正式解决完整的最小稀疏性问题——model-agnostic。 - 扩展:回归系数估计、近似稀疏。

[0:35]–[0:45] Part I: DIPW (Debiased Inverse Propensity Score Weighting) [详细讲解]
- 为什么用 IPW 而不是 AIPW? 因为 IPW 不需要估计 outcome regression。但 IPW 偏见太大。 - 解决思路:构造伪结果变量 \(\mu\)(高维向量),替换 IPW 中的 \(Y\)。 - 第二阶段分析:将 DIPW 的偏见分解为 \(\mathbb{E}[(\hat{\pi} - \pi) \cdot \text{某函数}]\),利用泰勒展开 / Hölder 不等式。得出偏见上界为:\(\|\hat{\gamma} - \gamma\|_2 \times \|X^\top\mu - X^\top \tilde{y}\|_\infty\)(带常数项)。第一项(\(\hat{\gamma}\)\(\ell_2\) 估计误差)由 Lasso 理论保证为 \(O(s_\pi \sqrt{\log p / n})\)。因此只需第二项(\(\ell_\infty\) 范数)足够小。 - 引入条件独立性和样本分裂。直接最小化 \(\ell_\infty\) 会使 \(\mu\)\(T\) 相关,破坏第一步分解。解决方案:用辅助样本 \(X_a, Y_a, T_a\) 代替原样本中的 \(X\) 部分来构造 \(\mu\)。从而将条件保持为“\(\mu\) 仅通过辅助样本与 \(T\) 相关”,而条件独立性可以在原始训练样本中保持。 - \(\mu\) 的构造方程\(\|X^\top\mu - X_a^\top \tilde{y}_a\|_\infty \le \eta\)(控制参数 \(\eta\)\(\sqrt{n}\) 量级的 \(\sqrt{\log p/n}\))。最终有:只要 outcome 是子高斯、X 有界,此范数即满足要求。 - 方差 vs. 偏见权衡:最小化 \(\|\mu\|_2\)\(\ell_\infty\) 约束,得到的 \(\mu\) 导致 DIPW 的方差比半参有效方差高一个常数因子(\(\sigma^2_{\text{semi-parametric}} + \sigma^2_\mu\),其中 \(\sigma^2_\mu = O(1)\))。 - 半参有效性的条件:如果 outcome regression 可以被一致估计(以慢到 \(1/\sqrt{\log n}\) 的速率即可),则通过交叉拟合并加回 outcome regression 的估计,即可达到半参有效界。

[0:45]–[0:50] 数值模拟与其它链接函数 [快速过]
- 数值实验(稀疏度 5 到 15)显示 DIPW 优于对比方法。 - 链接函数泛化:logistic → 任意有界一阶、二阶导数的 link(只需修正普通最小二乘中的权重)。

[0:50]–[1:05] Part II: Double Calibration Estimator
- 动机:把 DIPW 只校准 outcome 的思路,推广到 同时用两个方向校准(校准 \(\mu\) 处理 outcome 方向 + 校准 \(\hat{\gamma}\) 处理 propensity 方向)。 - 核心:替代 \(\mu\)\(\hat{\gamma}\) 为联合优化解,满足两个约束(各对应一个方向)。 - 报告给出了两种情况下(outcome 稀疏、propensity 稀疏)的渐近正态理论,但条件分布、方差表达式不同。 - 有趣发现:当 \(p\)\(n\) 小(如 \(p=O(\log n)\))时,所需稀疏度稍强于最小不等式(还需乘法因子),而当 \(p\)\(n\) 同阶时,正好是最小稀疏。这个“非平凡现象”值得注意。

[1:05]–[1:10] 扩展:回归系数与近似稀疏
- 线性模型 \(Y = T\theta + r(X) + \varepsilon\),其中 \(T\) 可以连续。将双校准推广到估计 \(\theta\)。 - 近似稀疏:稀疏函数内允许微小系数——双校准可类似扩展,\(s\) 被替换为 \(\ell_1\)-范数。

[1:10]–[1:15] 讨论(Rajarshi Mukherjee) [重点保留开放问题]
- Question 1 (低维类比):当 \(p<n\) 但不是固定维数(如比例渐近 \(p/n \to \text{constant}\)),假设 \(X\) 正态,可以用 Ridge 回归 + 偏差校正得到 \(\sqrt{n}\)-一致,不需要稀疏性? - Question 2 (非参数版本):是否可以刻画一个类似 Robins et al. (2009) 的“光滑度与维度四分之一”条件在稀疏设定下的必要充分条件? - Question 3 (双稳健泛函的一般化):对于其他双稳健泛函(如“处理组中的处理效应 (ATT)”)能否统一扩展到这种最小稀疏框架?

[1:15]–[1:20] 讲者回应
- 对于 Q2:DIPW/双校准的高斯/子高斯假设可被放松(通过 高阶影响函数 (Higher-Order Influence Functions) 或校准技巧)。 - 对于 Q3:在(与 Lin Liu 合作的)进行中工作中,正在刻画“哪些双稳健泛函可以用双校准方法”,已推广到 ATT 与回归系数(连续 \(T\))两个案例,正在努力形成一般理论。


四、对应论文与开放问题

对应论文(根据摘要、幻灯片、转写稿确认): - 核心论文:Wang, Y. & Shah, R.D. (2020). “Debiased Inverse Propensity Score Weighting for Estimation of Average Treatment Effects with High-Dimensional Confounders.” arXiv:2011.08661. (DIPW)——幻灯片与转写明确对应。 - 扩展论文:Liu, L. & Wang, Y. (2023). “Double Calibration Estimator for Average Treatment Effect with Minimal Sparsity.” (未提供 arXiv ID,转写中称 “very recently” 的 draft,需核实) - 两篇论文的作者为:Yuhao Wang, Rajen D. Shah (DIPW); Lin Liu & Yuhao Wang (Double calibration)。 - 提醒:转写稿中包含大量ASR拼写错误(如 "Rajashi" 应为 "Rajarshi",“generous linear model” 应为 "generalized linear model" ,"DIPW" 在转写中多次被误拼写为 "DRPW"/"trpws" 等);幻灯片及摘要的写法是权威的。

开放问题(根植于转写/讨论的具体位置,只罗列、不判断可行性):

  1. [1:02]–[1:05] (讨论 Q1) 必要性条件的完整刻画:如果 outcome 与 propensity 都非稀疏(\(s_r\), \(s_\pi\) 均超过 \(o(\sqrt{n}/\log p)\)),什么时候 ATE 的 \(\sqrt{n}\)-一致估计不可能/可能率达到 \(n^{-2/3}\) 等速率?报中已提了 Bradic et al. (2019b) 的部分必要性结果,但能否像非参情形 (Robins et al., 2009) 那样得到精确的 充分必要条件?(这一点在转写没有给出结论,但 Rajarshi 指出已有工作只讨论简单-简单假设检验,而真正需要的是复合-复合检验。)

  2. [1:05]–[1:10] (讨论 Q2) 震荡设定下的可行性:当 \(p \approx n\)\(X\) 满足某些协方差结构(如每一分量独立或等方差),是否可以显著弱化稀疏性假设(甚至无稀疏性)来达到 \(\sqrt{n}\)-一致估计?转写中 Rajarshi 示例性地讨论了 Ridge/OLS 偏差校正情形,讲者回应指向 “高阶影响函数” 可能有用。

  3. [1:10]–[1:15] (讨论 Q3) 统一框架:对 一般的双稳健泛函,在不指定哪一个麻烦函数稀疏的情况下,如何系统建立起“双校准”算法与理论?

  4. [1:15]–[1:20] 线性投影系数扩展到\(Y = T\theta + r(X) + \varepsilon\)\(T\) 可连续)的回归系数的双校准已经给出;但是否可以进一步扩展到 异质性处理效应 (CATE) 的线性投影?这一扩展的逻辑同 DIPW/双校准,但在范数限制上是否仍然直接成立?

  5. [1:15]–[1:20] 高阶影响函数的连接:如何将本报告中的双校准/欠参数校准方法与 HOIF(替代 AIW 更高的泰勒展开)的技术框架融合?讲者已在回答 Q2 时提到,这可能是放松高斯/子高斯假设的途径。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论