Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy¶

讲者: Rahul Singh, Talk 1
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-10-25
主题: 因果推断
视频: https://youtu.be/o1lYQc-dWSU · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于 「受污染数据 (corrupted data) 下的因果推断」 这一子方向。该方向追问的核心问题是：当研究者观测到的协变量、处理甚至结局都受了污染（测量误差、缺失、离散化、差分隐私噪声），能否仍从这种被污染的数据中识别并估计出因果参数，并进行有效的频率推断（置信区间、假设检验）？

奠基与主流路线：传统上，对这一问题的处理依赖专门的纠偏步骤。
- 测量误差：经典对策是拥有辅助信息（如重复测量、工具变量、负对照），要求知道或能估计出误差的协方差结构（Hausman et al., 1991; Schennach, 2007; Loh & Wainwright, 2012）。
- 缺失值：多重插补（Rubin, 1976）是主流，但后续的推断往往忽略了插补本身引入的额外不确定性。
- 差分隐私：高维噪声注入（Duchi et al., 2018; Abowd & Schmutte, 2019）会带来「隐私-精度 trade-off」，许多工作证明了其存在。
- 半参数效率理论：Newey (1994), Robins et al. (1995) 为无污染数据下的高效推断提供了框架。去偏机器学习（DML）（Chernozhukov et al., 2016, 2018, 2021）用交叉拟合和 Neyman 正交性处理 nuisance 函数的慢速估计。
当前 Frontier 与这场报告的站位：
- 痛点：上述传统方法或因要求知道噪声结构（如误差协方差）而限制了应用，或因步骤分离（先清洗再推断）而不调整清洗的方差，或在高维污染（如 DP 噪声）下被认为不可能实现√n 推断。
- 报告站位：Rahul Singh 和 Anish Agarwal 提出一个端到端（end-to-end）框架，旨在一起解决四种数据污染（测量误差、缺失、离散化、差分隐私），且无需知道污染协方差结构。其核心技术假设是真实协变量近似低秩。他们通过矩阵补全（matrix completion） 进行数据清洗，然后将清洗好的协变量嵌入到双稳健（doubly robust） 半参数估计函数中，并使用样本分裂实现推断。关键的理论承诺是：尽管数据清洗的收敛速度慢于 √n（矩阵补全的典型速度），但最终的因果参数估计仍能达到 √n 一致、渐近正态、半参数有效。 这实质上是将「双率鲁棒性」（double rate robustness）扩展到了协变量被矩阵补全估计的场景。
- 相关关键工作：报告引用了 PCA 大因子模型的高维处理（Bai, 2003; Bai & Ng, 2013）、合成控制中利用因子模型估计 ATT 的工作（Xiong & Pelger 2019; Agarwal et al. 2020; Athey et al. 2021），以及主成分回归（Agarwal et al. 2020）。本报告区别于这些工作的关键在于，它不要求假设因子模型成立，只要求低秩近似，且跨出了一大步——从「恢复潜在因子」到「用恢复的因子做下游因果推断并量化不确定性」。
- 对研究者（陈星宇）的连接点：与本方向高度重合。研究者精通半参数理论和估计论，对 DML 框架很熟悉，且擅长处理最小化界。这场报告正是 DML 思想在「协变量受污染」场景下的精致应用和理论推广。此外，矩阵补全涉及到的张量（Tensor）结构与研究者对高阶 U-统计量的 einsum 复杂性存在 潜在的技术联系（矩阵补全可视为一种低秩张量近似，而 PCA 作为数据清洗等价于一个线性投射，这个投射可以用张量网络表示其计算成本），但本报告中并未展开此计算复杂性角度。

二、最小内核 / 一个最简例子¶

在不假设任何高阶方法的前提下，用一个最简单的特例来理解本工作的核心思想。

可观测数据：我们有一个独立但不一定同分布（i.n.i.d.）的样本 {(Y_i, D_i, Z_i), i=1,...,n}。
- Y_i ∈ ℝ — 结局变量。
- D_i ∈ {0, 1} — 二元处理变量。
- Z_i ∈ ℝ^p — 污染后的协变量向量。
潜在 / 真是但不可观测的量：
- X_i ∈ ℝ^p — 真实的无污染的协变量向量。这是真正的混杂因子。
- H_i ∈ ℝ^p — 加性噪声，例如满足均值为 0 且次指数的高斯或拉普拉斯噪声。
- δ_i ∈ {0, 1}^p — 随机缺失指示符，遵循某种分布。
数据生成过程：
- 结局方程：Y_i = γ₀(D_i, X_i) + ε_i，其中 γ₀ 是未知的回归函数（例如，线性）。
- 污染过程：Z_i = (X_i + H_i) ⊙ δ_i，其中 ⊙ 表示逐元素相乘。这就是幻灯片里说的 Zi,· = [Xi,· + Hi,·] ⊙ δ_i,·。
- 关键假设：真实协变量矩阵 X ∈ ℝ^{n×p} （第 i 行为 X_i）近似低秩。即存在一个秩 r 的矩阵 L 使得 ‖X - L‖ 很小，且 r << min(n, p)。
目标（Estimand）：
- 平均处理效应 (ATE)：τ = (1/n) Σ_i τ_i，其中 τ_i = E[Y_i(1) - Y_i(0) | X_i]。
  - 这等价于报告中的 θ₀。
  - 一个最简例子：假设 γ₀(D_i, X_i) = β D_i + X_i^T θ，那么 ATE 就是 β。
最小特例：d=1, p=2, r=1, 完全观测 (δ_i = 1)：
- 数据：Y_i, D_i, 和 Z_i = [Z_{i1}, Z_{i2}]（两个受污染协变量）。真实 X_i = [X_{i1}, X_{i2}] 是未被观测的，但假设它们是完美线性相关的，即 X_i2 = c * X_i1（秩为 1）。这对应报告中的 r=1。
- 问题：用 Z_i 估计 ATE β。
- 核心思想（四步走）：
  1. 数据清洗 (Implicit, on Train Set)：
    - 将测试集 (Y_i, D_i, Z_i) 和训练集数据分开。用训练集 {(Y_j, D_j, Z_j), j in Train} 的数据估计 PCA 方向。由于两列协变量近似线性相关，PCA 会识别出这个一维子空间。
    - 隐式清洗 (Slide [0:17:30])：在测试集上，不对 Z_i 进行显式矩阵补全，而是用训练集学到的低维投影方向 ê，将 Z_i 投影到低维新特征上：X_hat_i = ê^T Z_i。
  2. 估计 Nuisance 函数 (on Train Set)：
    - 回归模型：用 {Y_j, D_j, X_hat_j} 在训练集上拟合一个模型（例如 OLS）来估计 γ₀，得到 γ̂。例如，γ̂(D, X_hat) = β̂_γ D + X_hat^T θ̂。
    - 倾向得分模型：用 {D_j, X_hat_j} 在训练集上拟合一个模型（例如 logit）来估计倾向得分 e₀(X_hat) = P(D=1|X_hat)，得到 ê。
  3. 构造双稳健估计函数 (on Test Set)：
    - 对于测试集每个样本 i，计算 Neyman 正交得分函数（即双稳健矩条件）： ψ(W_i; τ, γ̂, ê) = (D_i / ê(X_hat_i) - (1-D_i)/(1-ê(X_hat_i))) * (Y_i - γ̂(D_i, X_hat_i)) + γ̂(1, X_hat_i) - γ̂(0, X_hat_i) - τ
      - 注意：这里使用的 X_hat_i 是基于训练集投影的测试集受污染数据 Z_i 经过投影得到的，而不是测试集自身矩阵补全出来的。
  4. 推断：
    - 求解方程 Σ_{i in Test} ψ(W_i; τ̂, γ̂, ê) = 0 得到 τ̂。
    - 由于交叉拟合，τ̂ 的方差可以用经典矩估计方差公式估计，并且 √n τ̂ 的渐近分布是标准正态。
- 为什么这能工作？
  - 双率鲁棒性（Double Rate Robustness）：即使 γ̂ 或 ê 估计得很慢（例如，快于 n^{-1/4}），只要它们的乘积比 √n 快，τ̂ 就能达到 √n 收敛。这里数据清洗误差 X_hat - X 融入到了 γ̂ 和 ê 的估计误差中，而如果 γ̂ 和 ê 的估计误差本身是慢速的，但它们的乘积足够快，则最终 τ̂ 仍能快速收敛。这是 DML 的经典结果，这里巧妙地将其应用于被矩阵补全的协变量。
  - 样本分裂（Sample Splitting）：通过分裂，测试集上的 τ̂ 和训练集上的 γ̂, ê 几乎独立，使得 ψ 的方差可以用简单的经验方差公式，避免了数据清洗引入的强相关性破坏 CLT。
  - 低秩假设：保证 PCA 能有效地从 Z_i 中恢复出低维方向 ê，即使 Z_i 自身有高维噪声。

三、报告主体：讲者讲了什么¶

[0:00:06 - 0:06:27] 动机：2020 年人口普查的数据污染¶

问题：2020 年人口普查引入差分隐私 (DP)，通过添加合成噪声来保护个人隐私。这引发了关于「隐私 vs 精度」 trade-off 的广泛担忧。引用《纽约时报》头版文章和专家（Cynthia Dwork, Charles Manski, John Abowd）观点。
具体污染：
- 差分隐私：注入拉普拉斯噪声以实现可否认性（plausible deniability）。列举对比：2010 年模拟黑客攻击表明 5200 万到 1.79 亿人可被重新识别。
- 离散化（Discretization）：对工资数据进行四舍五入（如小时工资 $20.50 → $21），以进一步模糊个体数据。举出亚特兰大联储工资追踪器例子，显示离散化后数据严重退化（甚至出现一段直线），最终政策被推迟。
- 传统污染：测量误差 (Measurement Error)、缺失值 (Missing Values)，在因果推断文献中已有处理，但仍未解决「端到端」的推理问题。
标准工作流程缺陷：社会科学家的标准做法是（1）数据清洗后（2）进行数据分析，但通常忽略清洗步骤带来的偏倚和方差。本报告目标是提出一个端到端流程：清洗 → 估计 → 推断，其中推断时自动调整了数据清洗的影响。

[0:09:00 - 0:10:48] 模型与符号¶

目标参数：平均处理效应 (ATE) θ₀，定义在 i.n.i.d.（独立但不同分布）数据上。讲者特别提到「因为数据受污染，我们很可能不相信它们是同分布的」，这与研究者陈星宇对 i.n.i.d. 的关注一致。
观测数据：(Y_i, D_i, Z_i)。
污染模型（Slides 13-17，对应关键公式）：
- Y_i = γ₀(D_i, X_i) + ε_i （结局方程，回归函数 γ₀）
- Z_i· = [X_i· + H_i·] ⊙ δ_i· （污染协变量）
- 视觉例子：用 5 个真实协变量的散点图展示了测量误差（加高斯噪声）、缺失值（一些点消失）、离散化（取值变为整数点）、差分隐私（加拉普拉斯噪声，点分散得更随机）。
- 讲者强调，拉普拉斯噪声的尾是次指数的（subexponential），这对后续理论很重要。

[0:10:48 - 0:13:54] 核心假设：真实协变量近似低秩¶

关键假设（Slide 18-19）：X （n×p 矩阵）近似低秩。即可以用一个秩为 r 的矩阵很好逼近，r << min(n,p)。
直觉：重复测量模型。p 个协变量近似来自 r 个潜在因子的线性组合。一个可视化示例：3 个协变量（p=3）明显地呈现在一个 2 维超平面上（r=2）。
理由（Slide 20-21）：在人口普查数据中成立。展示了 Autor 等 (2013) 的数据，30 个协变量中前 5 个主成分就能解释大部分方差。还列举了 PSID、CPS、县和通勤区级别的数据都呈现类似结构。
备注：这个假设弱于假设因子模型成立；它不仅需要因子结构，还允许有近似误差（approximation error），而且论文会跟踪这些误差。

[0:14:28 - 0:15:32] 算法的期望与挑战¶

期望：端到端程序，能像数据无污染一样估计，但置信区间会修正数据清洗；不需要知道污染协方差；从而在某种程度上实现「隐私与精度兼顾」。
三个挑战与应对（Slide 26-28）：
- 挑战 1：清洗误差速度慢。矩阵补全的最佳收敛速度通常慢于 n^{-1/2}（例如 n^{-1/3} 或 n^{-1/4}），如何获得 √n 一致的 ATE？ → 双率鲁棒性（Double Rate Robustness）：使用 Neyman 正交的得分函数。如果回归和倾向得分的估计误差的乘积快于 √n，即便各自慢一些，最终 ATE 也能 √n 收敛。这派生自 DML 文献。
- 挑战 2：清洗引入强相依性。矩阵补全后的 X̂，其行之间可能不再独立。如何用 CLT？ → 样本分裂（Sample Splitting） 和 隐式数据清洗（Implicit Data Cleaning）：只在训练集 (Train) 上做显式数据清洗（PCA），然后将清洗后的信息（投影方向）用于测试集 (Test)，但对测试集不做显式矩阵补全。这样打破大部分依赖性。
- 挑战 3：矩阵补全的误差测度与半参数参数的误差测度不匹配。矩阵补全的误差通常是 Frobenius 范数（平均恢复），而 ATE 关注的是以 X 为条件的条件矩。 → 需要构建一个框架，将从矩阵补全到置信区间的整个链条串起来。

[0:15:32 - 0:18:20] 算法具体细节¶

「隐式数据清洗 + 样本分裂」算法（Slide 29）：
1. 分裂样本为 Train 和 Test。
2. 在 Train 上：
  - 数据清洗：用 PCA 得到 X̂_train（低维投影）。
  - 回归：用 OLS 估计 γ̂（以 D_i 和 X̂_i 为自变量，Y_i 为因变量）。
  - 平衡权重：用 BAL（一种特殊的 OLS）估计倾向得分 ê，从而构造平衡权重。这颗「误差校正平衡权重」据报是新贡献。
3. 在 Test 上：
  - 估计 ATE：使用双稳健得分函数 ψ(W_i; θ, γ̂, ê)（函数形式与标准 DML 相近，但将 X 替换为 X̂，注意 X̂ 是基于上面学到的投影方向，从 Z_{test} 计算来的，不是重新 PCA）。
  - 定理（Informal, Slide 38）：
    - ‖X̂ - X‖_F / √(np) = o_P(1) （一致性）
    - θ̂ →_P θ₀ （一致性）
    - √n (θ̂ - θ₀) →_d N(0, 1) （渐近正态）
    - P(θ₀ ∈ CI) → 0.95 （覆盖渐近正确）

[0:18:20 - 0:19:58] 数值模拟¶

测量误差（Slide 31）：显示 t-Statistic 的直方图很好地拟合了标准正态分布。
覆盖概率：当信号-噪声比从 20 变到 100 时，点估计仍准确，标准误差自适应增大，覆盖概率维持在约 95%（在 1000 次模拟中 CI 包含真值 2.2 的比例）。还测试了对秩的正则化（设定 5、7、10）的鲁棒性，结果显示覆盖概率仍保持名义水平。
缺失值、离散化和差分隐私（Slides 32-34）：类似的结果，即同样的代码在四种污染下都有效。这是报告的一个强负面结果：对于这些看似大不相同的污染，可以用同一把「低秩 + 双稳健估计」的钥匙打开。

[0:20:05 - 0:22:15] 理论¶

假设：
1. 每行噪声 H_i 均值为 0，次指数（Subexponential）。
2. 每行缺失指示 δ_i 次指数。
3. X 近似低秩。论文中用一个非线性因子模型验证了它。
结果：从 ‖X̂ - X‖_F 的收敛到 θ̂ 的 √n 收敛，通过有限样本次分析（non-asymptotic）实现。这种方法允许处理非参数情况，如 CATE。
关键原理：慢速数据清洗可以迎来快速因果推断。通过将慢速的 PCA 误差“吸收”进 γ̂ 和 ê（这些本身也可能慢速），利用双稳健矩条件的不敏感性，最终 θ̂ 的收敛速度只由 γ̂ 和 ê 的误差乘积决定，从而实现 √n。

[0:22:22 - 0:25:13] 案例研究：进口竞争对本地就业的影响¶

数据与目标：复用 Autor et al. (2013) 通勤区级（commuting zone）数据。原始因果参数是 部分线性 IV（Partially Linear IV），属于 ATE 的一般化，在报告的处理范围内。
合成污染：对真实数据人工添加测量误差、缺失值、离散化、以及校准到 2020 年人口普查水平的差分隐私噪声。
结果对比（Slide 43）：
- 红：原始论文的 2SLS 点估计和 CI。
- 青：本报告用清洁数据的点估计和 CI（比 2SLS 的 CI 更窄，因为 2SLS 是⾮有效的而本方法是有效的，且数据近似低秩被利用了）。
- 往后走（添加更多噪声）：点估计稳定，CI 自适应地增大。
结论（Slide 44-45）：存在对经济研究有代表性的情形，其中可以同时实现隐私（个体层面）和精度（人口层面）。

[0:25:13 - 0:29:29] Q&A¶

缺失机制：与 MAR（随机缺失）的关系？讲者回答了其允许行内依存的缺失（如果我缺失收入数据，也更可能缺失配偶的收入数据），这比 MCAR 更一般。
为什么更强数据污染导致更窄置信区间？并非如此。讲者表示仿真中覆盖在很大范围内稳定，只有在数据非常不「秩低」时才会下偏。
结局变量受污染（如 DP 噪声加到 Y 上）怎么办？讲者回答结局受污染时，这相当于增加了结局方程中的误差项 ε_i，相对无害。但结果变量有缺失（选择性离失，attrition bias）的情况也在一份附录中考虑了，论文里它刻画了带选择性偏差的后果。

四、对应论文与开放问题¶

(a) 对应论文¶

A. Agarwal and R. Singh. "Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy". 2022.
- 笔记：该视频是 2022 年的 OCIS 报告。根据讲者所述，论文的 arXiv 编号大概率与之相关（待用户查 arxiv.org）。论文的基本脚注：联系 email: rahul.singh@mit.edu。
主要引用的去偏 / 正交化工作：Chernzhoukow et al. (2018, 2021) "Double/Debiased Machine Learning for Treatment and Structural Parameters".
矩阵补全：Candès & Recht (2009), Chatterjee (2015), 以及他们团队的前期工作：Agarwal, Shah, Singh (2020) 用主成分回归 (PCR) 做合成控制。

(b) 开放问题（依据转写中片段）¶

结局变量 Y 也受污染怎么办？（Q&A，[0:27:30]）
- 原文："[讲者] absolutely so in the paper we also consider what happens with corrupted treatment D and corrupted outcome Y, when the outcome Y is corrupted in this way in this kind of additive way it's relatively harmless right that's kind of captured by the Epsilon term. What if the outcome is missing, well it's kind of an extension in one of the appendices we think about attrition bias where the outcome is selectively missing."
- 问题：如果结局被非随机缺失（如选择性离失），且缺失机制依赖于不可观测的真实协变量（即与 X 相关而不是仅仅与 Z 相关），当前框架能否推广？
更复杂的噪声模式（Confounded Noise）（结尾 Slide, [0:24:47]）
- 原文："in future work you're trying to think about confounded noise and sample selection bias".
- 问题：如果噪声 H_i 或缺失指示 δ_i 与结局或处理相关（被供断，confounded），而非仅仅是外部独立噪声？例如，测量误差质量与指标值本身有关。
对 p/n 比率的影响（Q&A 和直觉）
- 问题：协变量数量 p 必须多大才能让低秩近似可以运作？当 p 和 n 同阶时，样本量与变量数之比为 1，PCA 还能否有效恢复子空间？有没有一个像「秩 r 不能太大，且 p / √n 或 p^2 / n 需要某个关系」的精确有限样本刻画？这触及了高维统计统计后门。
ATT 与更一般的因果对比
- 报告本身覆盖 LATE、CATE 等，但在环境污染情景下对 ATT 的假设和效率界有何不同？特别是当处理 D 是连续变量时（如 D = 进口冲击程度），如何构造「误差校正平衡权重」。

对于研究者（陈星宇）的开放问题建议（不评价可行性，只列出从报告中挖掘出的硬信号）： * 利用高阶影响函数（HOIF）：本报告使用了一阶双稳健矩条件（Neyman 正交性）。如果回归 γ̂ 和倾向得分 ê 的估计误差乘积达不到 √n 的要求（例如两者都很慢），则一阶方法失效。研究者专精 HOIF（Higher-Order Influence Functions），可以直接构造二阶或更高阶的 Neyman 正交得分，从而降低对各个 nuisance 函数收敛速度的要求，使得矩阵补全的慢速误差可以被更高阶的正交性吸收。这是一个技术性极强但清晰的延伸方向，并且直接利用了研究者的「非常熟悉」和「中等熟悉」技术栈。 * 计算成本与张量网络：研究中数据清洗用的是 PCA，其计算复杂度是 O(min(n,p)^2)，而如果 n 和 p 都很大，PCA 成本很高。目前报告没有讨论计算-统计 trade-off。研究者对张量网络 / einsum 复杂性的背景可以用于：探索用硬阈值化 SVD 或随机 SVD 实现矩阵补全，并分析其在多项式时间约束下的理论性质。或者：当秩 r 很大时，是否可以通过压缩张量网络的方式来近似投影映射，从而降低计算成本。这是投向 statistical-computational tradeoff 领域中一个具体的、与现有工作耦合度高的新课题。

Maintained by 陈星宇 · Homepage · Source on GitHub