Root-n-consistent estimators for average treatment effect with minimal sparsity¶

讲者: Yuhao Wang
讨论人: Rajarshi Mukherjee
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-05-09
主题: 因果推断
视频: https://youtu.be/HJCIQthynP0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2011.08661 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

方向定位：这场报告位于 高维因果推断（high-dimensional causal inference） 的一个核心子问题：在观测数据有高维混杂变量（\(p \gg n\) 或 \(p \rightarrow \infty\)）时，如何对 平均处理效应（ATE） 做 \(\sqrt{n}\)-一致估计并构造置信区间。

这个方向在追问什么： - ATE 的识别需要“无混杂性”（unconfoundedness），因此需要调整高维协变量 \(X\)。 - 经典的 AIPW / DML（Robins et al. 1994; Chernozhukov et al. 2018）利用 \(\sqrt{n}\)-一致估计 + 双稳健性（double robustness），但这一套做法需要 两个麻烦函数都能被以足够快的速度一致估计。 - 在高维稀疏设定下，这通常要求两个稀疏模型（outcome regression 与 propensity score）的稀疏度之积满足 \(s_r s_\pi = o(n / \log^2 p)\)（报告 slide "√n-consistency"）。

奠基与主流路线： - Athey, Imbens, Wager (2018): 提出了只用 outcome regression 稀疏（\(s_r = o(\sqrt{n}/\log p)\)），允许 propensity score 任意复杂，即可得到 \(\sqrt{n}\)-一致估计。 - Chernozhukov et al. (2022): 推广到两者都稀疏但要求 \(\ell_1\)-范数有界。 - Bradic et al. (2019): 给出了若干不同的稀疏度组合条件。 - Smucler, Tan, Ning, Dukes, Vansteelandt 等人: 走向“仅有一个稀疏函数”的方向，但通常还需要对该非稀疏函数施加某种可估性假设（如稀疏投影）。 - 平行的非参数路线（非稀疏）：对固定维数、关于光滑度（smoothness）的必要充分条件由 Robins, Li, Tchetgen, van der Vaart (2009) 给出。

当前 frontier & 这场报告的站位： - 这些工作共同暗示一个 “最小稀疏性”猜想：只要 两个麻烦函数之一是稀疏模型（\(s=o(\sqrt{n}/\log p)\)），另一个可以任意复杂（不可估），则 \(\sqrt{n}\)-一致估计可能。 - 这场报告的两项工作试图完全证实这个猜想，并且要求估计器 模型不可知（model-agnostic）——不需要事先知道哪一个函数是稀疏的。

关键参考文献（从幻灯片/摘要确认）： - Wang & Shah (2020), arXiv:2011.08661: DIPW —— 兼容 outcome regression 任意复杂、propensity score 稀疏。 - Liu & Wang (2023): “Double calibration estimator” —— 实现“两者之一稀疏”的全覆盖，且扩展到了回归系数估计与近似稀疏。 - Bradic et al. (2019a/2019b): 给出了部分充分条件与必要条件。 - Athey et al. (2018): 互补于 DIPW 的方向。 - Robins et al. (2009): 非参数光滑度条件下的经典结果。 - Chernozhukov et al. (2018, 2022): DML 框架与高维线性模型结果。

候选论文 arXiv ID 已由元数据确认：2011.08661（Wang & Shah, 2020）。

二、最小内核 / 一个最简例子¶

全局符号（以报告为准）： - 可观测 IID 数据: \((X_i, T_i, Y_i)_{i=1}^n\)，其中 \(X_i \in \mathbb{R}^p\)（高维协变量），\(T_i \in \{0,1\}\)（二值处理），\(Y_i \in \mathbb{R}\)（观测结果）。 - 潜在结果: \((Y_i(1), Y_i(0))\)，满足 \(Y_i = T_i Y_i(1) + (1-T_i) Y_i(0)\)。 - 目标 estimand（参数）: 平均处理效应 \(\tau = \mathbb{E}[Y_i(1) - Y_i(0)]\)。 - 关键函数（麻烦函数）: - 倾向得分：\(\pi(x) = \mathbb{P}[T=1|X=x]\)。 - 结果回归：\(r_t(x) = \mathbb{E}[Y|T=t, X=x]\)，\(t=0,1\)。 - 核心标识假设: 无混杂性 \(Y(1), Y(0) \perp\!\!\!\perp T \mid X\)。

一个最简特例（\(d=1\)，仅一个协变量），用最直觉的方式讲清 DIPW 的核心思想： 1. 假设 世界最简单：\(X\) 是标量（\(d=1\)），\(T\) 由 \(X\) 决定：\(\mathbb{P}(T=1|X=x) = \sigma(\gamma x)\)（logistic link），但 \(\gamma\) 未知，需要从数据估计。\(Y(1), Y(0)\) 可以是任意复杂函数（比如二次/非光滑）。 2. 如果直接使用 IPW 估计器：

\[\hat{\tau}_{\text{IPW}} = \frac{1}{n} \sum_i \frac{T_i Y_i}{\hat{\pi}(X_i)} - \frac{1}{n} \sum_i \frac{(1-T_i) Y_i}{1-\hat{\pi}(X_i)}.\]

虽然不需要估计 \(r_t(x)\)，但 偏见很大：因为 \(\hat{\pi}\) 的估计误差会导致 IPW 的偏差是 \(O(s_\pi/(\sqrt{n}\log p) \times \text{某种量})\)，对于 \(s_\pi = o(\sqrt{n}/\log p)\)，这个偏差过大，不能保证 \(\sqrt{n}\)-一致。 3. 关键想法（DIPW）：不直接用 \(Y_i\) 做 IPW，而是用 新构造的“伪结果变量” \(\mu_i\) 替换 \(Y_i\)：

\[\hat{\tau}_{\text{DIPW}} = \frac{1}{n} \sum_i \left( \frac{T_i \mu_i}{\hat{\pi}(X_i)} - \frac{(1-T_i)\mu_i}{1-\hat{\pi}(X_i)} \right).\]

这里 \(\mu_i\) 不是任意的，它必须满足两个性质： - (a) 条件独立于 \(T_i\) 给定 \(X_i\)：这是为了在分析偏见时可以运用 \(\mathbb{E}[T_i \mid X_i] = \pi(X_i)\) 的代数性质来抵消第一阶项。 - (b) 某种“校准”条件：具体来说，要求 \(\|X^\top \mu - X^\top \tilde{y}\|_\infty\) 很小（这是从泰勒展开后误差项分析出来的），其中 \(\tilde{y}\) 是 \(Y_i\) 的某种变换。 4. 如何构造 \(\mu\)：因为条件 (a) 和 (b) 同时满足是困难的（寻找 \(\mu\) 时一般需要用到 \(Y_i\)，而这会引入依赖），所以 DIPW 引入 辅助样本（sample splitting）：用一部分数据估计 \(\hat{\pi}\)，再用另一部分数据求解校准方程，以此来解耦。

故事的核心：将“IPW 的偏见”转化为一个“校准问题”，而校准只依赖于 \(X\) 的协方差结构和 \(Y\) 的子高斯性，不依赖于结果回归模型 \(r_t(x)\)——它可以任意复杂。

三、报告主体：讲者讲了什么¶

[0:00]–[0:05] 寒暄与介绍
报告由 OCIS 组织者引言，简述报告人与讨论人。

[0:05]–[0:15] 动机与问题设置
- 示例（大学教育对收入、疫苗对感染率）引出因果推断的必要性。 - 形式化定义：\(n\) 个 IID 样本 \((X_i,T_i,Y_i)\)，潜在结果框架。 - 目标 estimand：\(\tau = \mathbb{E}[Y(1)-Y(0)]\)。 - 关键假设：无混杂性 + \(p \to \infty\) 的高维情形。

[0:15]–[0:20] 现有结果回顾（主要基于幻灯片 "√n-consistency"）
- AIPW/DML 结构：估计 \(\pi(x), r_t(x)\)，插件到 M-estimator。 - 当两者都是稀疏 GLM 时，标准结果需 \(s_r s_\pi = o(n/\log^2 p)\)。 - Athey et al. (2018): outcome 稀疏 (\(s_r = o(\sqrt{n}/\log p)\))，propensity 任意复杂。 - Bradic et al. (2019): 不同稀疏度组合条件。 - Bradic et al. (2019b): 必要性条件。

[0:20]–[0:23] 引出“最小稀疏性”猜想（幻灯片 "Minimal sparsity condition"）
- 定义Minimal sparsity: 要么 \(s_r = o(\sqrt{n}/\log p)\) 且 \(\pi\) 任意，要么 \(s_\pi = o(\sqrt{n}/\log p)\) 且 \(r_t\) 任意。 - 目的是做出模型不可知的估计器（不知道哪个是稀疏的）。

[0:23]–[0:27] 已有文献的局限（幻灯片 "literature review"）
- Athey 2018 只覆盖了“outcome 稀疏”的情形。 - Chernozhukov et al. (2022): 要求 \(\ell_1\)-范数有界。 - Smucler 等人: 虽然只要一个稀疏，但对另一个函数还需可估性假设（如稀疏投影）。

[0:27]–[0:35] 报告的核心贡献（幻灯片 "Our contributions"）
- 两篇连续工作： 1. Debiased IPSW (Wang & Shah, 2020)：覆盖“propensity 稀疏、outcome 任意复杂”情形（与 Athey 2018 互补）。 2. Double Calibration Estimator (Liu & Wang, 2023)：正式解决完整的最小稀疏性问题——model-agnostic。 - 扩展：回归系数估计、近似稀疏。

[0:35]–[0:45] Part I: DIPW (Debiased Inverse Propensity Score Weighting) [详细讲解]
- 为什么用 IPW 而不是 AIPW？ 因为 IPW 不需要估计 outcome regression。但 IPW 偏见太大。 - 解决思路：构造伪结果变量 \(\mu\)（高维向量），替换 IPW 中的 \(Y\)。 - 第二阶段分析：将 DIPW 的偏见分解为 \(\mathbb{E}[(\hat{\pi} - \pi) \cdot \text{某函数}]\)，利用泰勒展开 / Hölder 不等式。得出偏见上界为：\(\|\hat{\gamma} - \gamma\|_2 \times \|X^\top\mu - X^\top \tilde{y}\|_\infty\)（带常数项）。第一项（\(\hat{\gamma}\) 的 \(\ell_2\) 估计误差）由 Lasso 理论保证为 \(O(s_\pi \sqrt{\log p / n})\)。因此只需第二项（\(\ell_\infty\) 范数）足够小。 - 引入条件独立性和样本分裂。直接最小化 \(\ell_\infty\) 会使 \(\mu\) 与 \(T\) 相关，破坏第一步分解。解决方案：用辅助样本 \(X_a, Y_a, T_a\) 代替原样本中的 \(X\) 部分来构造 \(\mu\)。从而将条件保持为“\(\mu\) 仅通过辅助样本与 \(T\) 相关”，而条件独立性可以在原始训练样本中保持。 - \(\mu\) 的构造方程：\(\|X^\top\mu - X_a^\top \tilde{y}_a\|_\infty \le \eta\)（控制参数 \(\eta\) 取 \(\sqrt{n}\) 量级的 \(\sqrt{\log p/n}\)）。最终有：只要 outcome 是子高斯、X 有界，此范数即满足要求。 - 方差 vs. 偏见权衡：最小化 \(\|\mu\|_2\) 受 \(\ell_\infty\) 约束，得到的 \(\mu\) 导致 DIPW 的方差比半参有效方差高一个常数因子（\(\sigma^2_{\text{semi-parametric}} + \sigma^2_\mu\)，其中 \(\sigma^2_\mu = O(1)\)）。 - 半参有效性的条件：如果 outcome regression 可以被一致估计（以慢到 \(1/\sqrt{\log n}\) 的速率即可），则通过交叉拟合并加回 outcome regression 的估计，即可达到半参有效界。

[0:45]–[0:50] 数值模拟与其它链接函数 [快速过]
- 数值实验（稀疏度 5 到 15）显示 DIPW 优于对比方法。 - 链接函数泛化：logistic → 任意有界一阶、二阶导数的 link（只需修正普通最小二乘中的权重）。

[0:50]–[1:05] Part II: Double Calibration Estimator
- 动机：把 DIPW 只校准 outcome 的思路，推广到 同时用两个方向校准（校准 \(\mu\) 处理 outcome 方向 + 校准 \(\hat{\gamma}\) 处理 propensity 方向）。 - 核心：替代 \(\mu\) 和 \(\hat{\gamma}\) 为联合优化解，满足两个约束（各对应一个方向）。 - 报告给出了两种情况下（outcome 稀疏、propensity 稀疏）的渐近正态理论，但条件分布、方差表达式不同。 - 有趣发现：当 \(p\) 比 \(n\) 小（如 \(p=O(\log n)\)）时，所需稀疏度稍强于最小不等式（还需乘法因子），而当 \(p\) 与 \(n\) 同阶时，正好是最小稀疏。这个“非平凡现象”值得注意。

[1:05]–[1:10] 扩展：回归系数与近似稀疏
- 线性模型 \(Y = T\theta + r(X) + \varepsilon\)，其中 \(T\) 可以连续。将双校准推广到估计 \(\theta\)。 - 近似稀疏：稀疏函数内允许微小系数——双校准可类似扩展，\(s\) 被替换为 \(\ell_1\)-范数。

[1:10]–[1:15] 讨论（Rajarshi Mukherjee） [重点保留开放问题]
- Question 1 (低维类比)：当 \(p<n\) 但不是固定维数（如比例渐近 \(p/n \to \text{constant}\)），假设 \(X\) 正态，可以用 Ridge 回归 + 偏差校正得到 \(\sqrt{n}\)-一致，不需要稀疏性？ - Question 2 (非参数版本)：是否可以刻画一个类似 Robins et al. (2009) 的“光滑度与维度四分之一”条件在稀疏设定下的必要充分条件？ - Question 3 (双稳健泛函的一般化)：对于其他双稳健泛函（如“处理组中的处理效应 (ATT)”）能否统一扩展到这种最小稀疏框架？

[1:15]–[1:20] 讲者回应
- 对于 Q2：DIPW/双校准的高斯/子高斯假设可被放松（通过 高阶影响函数 (Higher-Order Influence Functions) 或校准技巧）。 - 对于 Q3：在（与 Lin Liu 合作的）进行中工作中，正在刻画“哪些双稳健泛函可以用双校准方法”，已推广到 ATT 与回归系数（连续 \(T\)）两个案例，正在努力形成一般理论。

四、对应论文与开放问题¶

对应论文（根据摘要、幻灯片、转写稿确认）： - 核心论文：Wang, Y. & Shah, R.D. (2020). “Debiased Inverse Propensity Score Weighting for Estimation of Average Treatment Effects with High-Dimensional Confounders.” arXiv:2011.08661. （DIPW）——幻灯片与转写明确对应。 - 扩展论文：Liu, L. & Wang, Y. (2023). “Double Calibration Estimator for Average Treatment Effect with Minimal Sparsity.” （未提供 arXiv ID，转写中称 “very recently” 的 draft，需核实） - 两篇论文的作者为：Yuhao Wang, Rajen D. Shah (DIPW); Lin Liu & Yuhao Wang (Double calibration)。 - 提醒：转写稿中包含大量ASR拼写错误（如 "Rajashi" 应为 "Rajarshi"，“generous linear model” 应为 "generalized linear model" ，"DIPW" 在转写中多次被误拼写为 "DRPW"/"trpws" 等）；幻灯片及摘要的写法是权威的。

开放问题（根植于转写/讨论的具体位置，只罗列、不判断可行性）：

[1:02]–[1:05] (讨论 Q1) 必要性条件的完整刻画：如果 outcome 与 propensity 都非稀疏（\(s_r\), \(s_\pi\) 均超过 \(o(\sqrt{n}/\log p)\)），什么时候 ATE 的 \(\sqrt{n}\)-一致估计不可能/可能率达到 \(n^{-2/3}\) 等速率？报中已提了 Bradic et al. (2019b) 的部分必要性结果，但能否像非参情形 (Robins et al., 2009) 那样得到精确的 充分必要条件？（这一点在转写没有给出结论，但 Rajarshi 指出已有工作只讨论简单-简单假设检验，而真正需要的是复合-复合检验。）
[1:05]–[1:10] (讨论 Q2) 震荡设定下的可行性：当 \(p \approx n\) 且 \(X\) 满足某些协方差结构（如每一分量独立或等方差），是否可以显著弱化稀疏性假设（甚至无稀疏性）来达到 \(\sqrt{n}\)-一致估计？转写中 Rajarshi 示例性地讨论了 Ridge/OLS 偏差校正情形，讲者回应指向 “高阶影响函数” 可能有用。
[1:10]–[1:15] (讨论 Q3) 统一框架：对 一般的双稳健泛函，在不指定哪一个麻烦函数稀疏的情况下，如何系统建立起“双校准”算法与理论？
[1:15]–[1:20] 线性投影系数扩展到：\(Y = T\theta + r(X) + \varepsilon\)（\(T\) 可连续）的回归系数的双校准已经给出；但是否可以进一步扩展到 异质性处理效应 (CATE) 的线性投影？这一扩展的逻辑同 DIPW/双校准，但在范数限制上是否仍然直接成立？
[1:15]–[1:20] 高阶影响函数的连接：如何将本报告中的双校准/欠参数校准方法与 HOIF（替代 AIW 更高的泰勒展开）的技术框架融合？讲者已在回答 Q2 时提到，这可能是放松高斯/子高斯假设的途径。

Maintained by 陈星宇 · Homepage · Source on GitHub