Root-n-consistent estimators for average treatment effect with minimal sparsity¶
讲者: Yuhao Wang
讨论人: Rajarshi Mukherjee
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-05-09
主题: 因果推断
视频: https://youtu.be/HJCIQthynP0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2011.08661 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
方向定位:这场报告位于 高维因果推断(high-dimensional causal inference) 的一个核心子问题:在观测数据有高维混杂变量(\(p \gg n\) 或 \(p \rightarrow \infty\))时,如何对 平均处理效应(ATE) 做 \(\sqrt{n}\)-一致估计并构造置信区间。
这个方向在追问什么: - ATE 的识别需要“无混杂性”(unconfoundedness),因此需要调整高维协变量 \(X\)。 - 经典的 AIPW / DML(Robins et al. 1994; Chernozhukov et al. 2018)利用 \(\sqrt{n}\)-一致估计 + 双稳健性(double robustness),但这一套做法需要 两个麻烦函数都能被以足够快的速度一致估计。 - 在高维稀疏设定下,这通常要求两个稀疏模型(outcome regression 与 propensity score)的稀疏度之积满足 \(s_r s_\pi = o(n / \log^2 p)\)(报告 slide "√n-consistency")。
奠基与主流路线: - Athey, Imbens, Wager (2018): 提出了只用 outcome regression 稀疏(\(s_r = o(\sqrt{n}/\log p)\)),允许 propensity score 任意复杂,即可得到 \(\sqrt{n}\)-一致估计。 - Chernozhukov et al. (2022): 推广到两者都稀疏但要求 \(\ell_1\)-范数有界。 - Bradic et al. (2019): 给出了若干不同的稀疏度组合条件。 - Smucler, Tan, Ning, Dukes, Vansteelandt 等人: 走向“仅有一个稀疏函数”的方向,但通常还需要对该非稀疏函数施加某种可估性假设(如稀疏投影)。 - 平行的非参数路线(非稀疏):对固定维数、关于光滑度(smoothness)的必要充分条件由 Robins, Li, Tchetgen, van der Vaart (2009) 给出。
当前 frontier & 这场报告的站位: - 这些工作共同暗示一个 “最小稀疏性”猜想:只要 两个麻烦函数之一是稀疏模型(\(s=o(\sqrt{n}/\log p)\)),另一个可以任意复杂(不可估),则 \(\sqrt{n}\)-一致估计可能。 - 这场报告的两项工作试图完全证实这个猜想,并且要求估计器 模型不可知(model-agnostic)——不需要事先知道哪一个函数是稀疏的。
关键参考文献(从幻灯片/摘要确认): - Wang & Shah (2020), arXiv:2011.08661: DIPW —— 兼容 outcome regression 任意复杂、propensity score 稀疏。 - Liu & Wang (2023): “Double calibration estimator” —— 实现“两者之一稀疏”的全覆盖,且扩展到了回归系数估计与近似稀疏。 - Bradic et al. (2019a/2019b): 给出了部分充分条件与必要条件。 - Athey et al. (2018): 互补于 DIPW 的方向。 - Robins et al. (2009): 非参数光滑度条件下的经典结果。 - Chernozhukov et al. (2018, 2022): DML 框架与高维线性模型结果。
候选论文 arXiv ID 已由元数据确认:2011.08661(Wang & Shah, 2020)。
二、最小内核 / 一个最简例子¶
全局符号(以报告为准): - 可观测 IID 数据: \((X_i, T_i, Y_i)_{i=1}^n\),其中 \(X_i \in \mathbb{R}^p\)(高维协变量),\(T_i \in \{0,1\}\)(二值处理),\(Y_i \in \mathbb{R}\)(观测结果)。 - 潜在结果: \((Y_i(1), Y_i(0))\),满足 \(Y_i = T_i Y_i(1) + (1-T_i) Y_i(0)\)。 - 目标 estimand(参数): 平均处理效应 \(\tau = \mathbb{E}[Y_i(1) - Y_i(0)]\)。 - 关键函数(麻烦函数): - 倾向得分:\(\pi(x) = \mathbb{P}[T=1|X=x]\)。 - 结果回归:\(r_t(x) = \mathbb{E}[Y|T=t, X=x]\),\(t=0,1\)。 - 核心标识假设: 无混杂性 \(Y(1), Y(0) \perp\!\!\!\perp T \mid X\)。
一个最简特例(\(d=1\),仅一个协变量),用最直觉的方式讲清 DIPW 的核心思想: 1. 假设 世界最简单:\(X\) 是标量(\(d=1\)),\(T\) 由 \(X\) 决定:\(\mathbb{P}(T=1|X=x) = \sigma(\gamma x)\)(logistic link),但 \(\gamma\) 未知,需要从数据估计。\(Y(1), Y(0)\) 可以是任意复杂函数(比如二次/非光滑)。 2. 如果直接使用 IPW 估计器:
故事的核心:将“IPW 的偏见”转化为一个“校准问题”,而校准只依赖于 \(X\) 的协方差结构和 \(Y\) 的子高斯性,不依赖于结果回归模型 \(r_t(x)\)——它可以任意复杂。
三、报告主体:讲者讲了什么¶
[0:00]–[0:05] 寒暄与介绍
报告由 OCIS 组织者引言,简述报告人与讨论人。
[0:05]–[0:15] 动机与问题设置
- 示例(大学教育对收入、疫苗对感染率)引出因果推断的必要性。
- 形式化定义:\(n\) 个 IID 样本 \((X_i,T_i,Y_i)\),潜在结果框架。
- 目标 estimand:\(\tau = \mathbb{E}[Y(1)-Y(0)]\)。
- 关键假设:无混杂性 + \(p \to \infty\) 的高维情形。
[0:15]–[0:20] 现有结果回顾(主要基于幻灯片 "√n-consistency")
- AIPW/DML 结构:估计 \(\pi(x), r_t(x)\),插件到 M-estimator。
- 当两者都是稀疏 GLM 时,标准结果需 \(s_r s_\pi = o(n/\log^2 p)\)。
- Athey et al. (2018): outcome 稀疏 (\(s_r = o(\sqrt{n}/\log p)\)),propensity 任意复杂。
- Bradic et al. (2019): 不同稀疏度组合条件。
- Bradic et al. (2019b): 必要性条件。
[0:20]–[0:23] 引出“最小稀疏性”猜想(幻灯片 "Minimal sparsity condition")
- 定义Minimal sparsity: 要么 \(s_r = o(\sqrt{n}/\log p)\) 且 \(\pi\) 任意,要么 \(s_\pi = o(\sqrt{n}/\log p)\) 且 \(r_t\) 任意。
- 目的是做出模型不可知的估计器(不知道哪个是稀疏的)。
[0:23]–[0:27] 已有文献的局限(幻灯片 "literature review")
- Athey 2018 只覆盖了“outcome 稀疏”的情形。
- Chernozhukov et al. (2022): 要求 \(\ell_1\)-范数有界。
- Smucler 等人: 虽然只要一个稀疏,但对另一个函数还需可估性假设(如稀疏投影)。
[0:27]–[0:35] 报告的核心贡献(幻灯片 "Our contributions")
- 两篇连续工作:
1. Debiased IPSW (Wang & Shah, 2020):覆盖“propensity 稀疏、outcome 任意复杂”情形(与 Athey 2018 互补)。
2. Double Calibration Estimator (Liu & Wang, 2023):正式解决完整的最小稀疏性问题——model-agnostic。
- 扩展:回归系数估计、近似稀疏。
[0:35]–[0:45] Part I: DIPW (Debiased Inverse Propensity Score Weighting) [详细讲解]
- 为什么用 IPW 而不是 AIPW? 因为 IPW 不需要估计 outcome regression。但 IPW 偏见太大。
- 解决思路:构造伪结果变量 \(\mu\)(高维向量),替换 IPW 中的 \(Y\)。
- 第二阶段分析:将 DIPW 的偏见分解为 \(\mathbb{E}[(\hat{\pi} - \pi) \cdot \text{某函数}]\),利用泰勒展开 / Hölder 不等式。得出偏见上界为:\(\|\hat{\gamma} - \gamma\|_2 \times \|X^\top\mu - X^\top \tilde{y}\|_\infty\)(带常数项)。第一项(\(\hat{\gamma}\) 的 \(\ell_2\) 估计误差)由 Lasso 理论保证为 \(O(s_\pi \sqrt{\log p / n})\)。因此只需第二项(\(\ell_\infty\) 范数)足够小。
- 引入条件独立性和样本分裂。直接最小化 \(\ell_\infty\) 会使 \(\mu\) 与 \(T\) 相关,破坏第一步分解。解决方案:用辅助样本 \(X_a, Y_a, T_a\) 代替原样本中的 \(X\) 部分来构造 \(\mu\)。从而将条件保持为“\(\mu\) 仅通过辅助样本与 \(T\) 相关”,而条件独立性可以在原始训练样本中保持。
- \(\mu\) 的构造方程:\(\|X^\top\mu - X_a^\top \tilde{y}_a\|_\infty \le \eta\)(控制参数 \(\eta\) 取 \(\sqrt{n}\) 量级的 \(\sqrt{\log p/n}\))。最终有:只要 outcome 是子高斯、X 有界,此范数即满足要求。
- 方差 vs. 偏见权衡:最小化 \(\|\mu\|_2\) 受 \(\ell_\infty\) 约束,得到的 \(\mu\) 导致 DIPW 的方差比半参有效方差高一个常数因子(\(\sigma^2_{\text{semi-parametric}} + \sigma^2_\mu\),其中 \(\sigma^2_\mu = O(1)\))。
- 半参有效性的条件:如果 outcome regression 可以被一致估计(以慢到 \(1/\sqrt{\log n}\) 的速率即可),则通过交叉拟合并加回 outcome regression 的估计,即可达到半参有效界。
[0:45]–[0:50] 数值模拟与其它链接函数 [快速过]
- 数值实验(稀疏度 5 到 15)显示 DIPW 优于对比方法。
- 链接函数泛化:logistic → 任意有界一阶、二阶导数的 link(只需修正普通最小二乘中的权重)。
[0:50]–[1:05] Part II: Double Calibration Estimator
- 动机:把 DIPW 只校准 outcome 的思路,推广到 同时用两个方向校准(校准 \(\mu\) 处理 outcome 方向 + 校准 \(\hat{\gamma}\) 处理 propensity 方向)。
- 核心:替代 \(\mu\) 和 \(\hat{\gamma}\) 为联合优化解,满足两个约束(各对应一个方向)。
- 报告给出了两种情况下(outcome 稀疏、propensity 稀疏)的渐近正态理论,但条件分布、方差表达式不同。
- 有趣发现:当 \(p\) 比 \(n\) 小(如 \(p=O(\log n)\))时,所需稀疏度稍强于最小不等式(还需乘法因子),而当 \(p\) 与 \(n\) 同阶时,正好是最小稀疏。这个“非平凡现象”值得注意。
[1:05]–[1:10] 扩展:回归系数与近似稀疏
- 线性模型 \(Y = T\theta + r(X) + \varepsilon\),其中 \(T\) 可以连续。将双校准推广到估计 \(\theta\)。
- 近似稀疏:稀疏函数内允许微小系数——双校准可类似扩展,\(s\) 被替换为 \(\ell_1\)-范数。
[1:10]–[1:15] 讨论(Rajarshi Mukherjee) [重点保留开放问题]
- Question 1 (低维类比):当 \(p<n\) 但不是固定维数(如比例渐近 \(p/n \to \text{constant}\)),假设 \(X\) 正态,可以用 Ridge 回归 + 偏差校正得到 \(\sqrt{n}\)-一致,不需要稀疏性?
- Question 2 (非参数版本):是否可以刻画一个类似 Robins et al. (2009) 的“光滑度与维度四分之一”条件在稀疏设定下的必要充分条件?
- Question 3 (双稳健泛函的一般化):对于其他双稳健泛函(如“处理组中的处理效应 (ATT)”)能否统一扩展到这种最小稀疏框架?
[1:15]–[1:20] 讲者回应
- 对于 Q2:DIPW/双校准的高斯/子高斯假设可被放松(通过 高阶影响函数 (Higher-Order Influence Functions) 或校准技巧)。
- 对于 Q3:在(与 Lin Liu 合作的)进行中工作中,正在刻画“哪些双稳健泛函可以用双校准方法”,已推广到 ATT 与回归系数(连续 \(T\))两个案例,正在努力形成一般理论。
四、对应论文与开放问题¶
对应论文(根据摘要、幻灯片、转写稿确认): - 核心论文:Wang, Y. & Shah, R.D. (2020). “Debiased Inverse Propensity Score Weighting for Estimation of Average Treatment Effects with High-Dimensional Confounders.” arXiv:2011.08661. (DIPW)——幻灯片与转写明确对应。 - 扩展论文:Liu, L. & Wang, Y. (2023). “Double Calibration Estimator for Average Treatment Effect with Minimal Sparsity.” (未提供 arXiv ID,转写中称 “very recently” 的 draft,需核实) - 两篇论文的作者为:Yuhao Wang, Rajen D. Shah (DIPW); Lin Liu & Yuhao Wang (Double calibration)。 - 提醒:转写稿中包含大量ASR拼写错误(如 "Rajashi" 应为 "Rajarshi",“generous linear model” 应为 "generalized linear model" ,"DIPW" 在转写中多次被误拼写为 "DRPW"/"trpws" 等);幻灯片及摘要的写法是权威的。
开放问题(根植于转写/讨论的具体位置,只罗列、不判断可行性):
-
[1:02]–[1:05] (讨论 Q1) 必要性条件的完整刻画:如果 outcome 与 propensity 都非稀疏(\(s_r\), \(s_\pi\) 均超过 \(o(\sqrt{n}/\log p)\)),什么时候 ATE 的 \(\sqrt{n}\)-一致估计不可能/可能率达到 \(n^{-2/3}\) 等速率?报中已提了 Bradic et al. (2019b) 的部分必要性结果,但能否像非参情形 (Robins et al., 2009) 那样得到精确的 充分必要条件?(这一点在转写没有给出结论,但 Rajarshi 指出已有工作只讨论简单-简单假设检验,而真正需要的是复合-复合检验。)
-
[1:05]–[1:10] (讨论 Q2) 震荡设定下的可行性:当 \(p \approx n\) 且 \(X\) 满足某些协方差结构(如每一分量独立或等方差),是否可以显著弱化稀疏性假设(甚至无稀疏性)来达到 \(\sqrt{n}\)-一致估计?转写中 Rajarshi 示例性地讨论了 Ridge/OLS 偏差校正情形,讲者回应指向 “高阶影响函数” 可能有用。
-
[1:10]–[1:15] (讨论 Q3) 统一框架:对 一般的双稳健泛函,在不指定哪一个麻烦函数稀疏的情况下,如何系统建立起“双校准”算法与理论?
-
[1:15]–[1:20] 线性投影系数扩展到:\(Y = T\theta + r(X) + \varepsilon\)(\(T\) 可连续)的回归系数的双校准已经给出;但是否可以进一步扩展到 异质性处理效应 (CATE) 的线性投影?这一扩展的逻辑同 DIPW/双校准,但在范数限制上是否仍然直接成立?
-
[1:15]–[1:20] 高阶影响函数的连接:如何将本报告中的双校准/欠参数校准方法与 HOIF(替代 AIW 更高的泰勒展开)的技术框架融合?讲者已在回答 Q2 时提到,这可能是放松高斯/子高斯假设的途径。
Maintained by 陈星宇 · Homepage · Source on GitHub