Distributional Balancing for Causal Inference: A Unified Framework via Characteristic Function Distance¶

讲者: Chan Park
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-05-05
主题: 因果推断
视频: https://youtu.be/sUlOJmdwUY8 · 幻灯片

官方摘要：Weighting methods are essential tools for estimating causal effects in observational studies, with the goal of balancing pre-treatment covariates across treatment groups. Traditional approaches pursue this objective indirectly, for example, via inverse propensity score weighting or by matching a finite number of covariate moments, and therefore do not guarantee balance of the full joint covariate distributions. Recently, distributional balancing methods have emerged as robust, nonparametric alternatives that directly target alignment of entire covariate distributions, but they lack a unified framework, formal theoretical guarantees, and valid inferential procedures. We introduce a unified framework for nonparametric distributional balancing based on the characteristic function distance (CFD) and show that widely used discrepancy measures, including the maximum mean discrepancy and energy distance, arise as special cases. Our theoretical analysis establishes conditions under which the resulting CFD-based weighting estimator achieves root-N consistency. Since the standard bootstrap may fail for this estimator, we propose subsampling as a valid alternative for inference. We further extend our approach to an instrumental variable setting to address potential unmeasured confounding. Finally, we evaluate the performance of our method through simulation studies and a real-world application, where the proposed estimator performs well and exhibits results consistent with our theoretical predictions.

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2601.15449 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告归于因果推断中的加权估计这个子方向。该方向的核心追问是：在观察性研究中，如何构造权重以消除由观测协变量X分布不均衡带来的混杂偏差，从而识别和估计平均处理效应（ATE）或局部平均处理效应（LATE）。

奠基与主流路线： - IPW（逆概率加权）：直接估计倾向性得分 \( e(X) = \Pr(A=1|X) \)，然后用 \( w = A/e(X) + (1-A)/(1-e(X)) \) 构造加权估计。若倾向性得分模型（如逻辑回归）正确，则根n一致；若模型误设，则不一致。 - 矩平衡方法（如CBPS, 熵平衡）：不直接建模倾向性得分，而是通过求解优化问题，使处理组和对照组的加权协变量在指定矩（如均值、二阶矩）上精确匹配（Imai & Ratkovic, 2014 JRSS-B; Hainmueller, 2012 Political Analysis; Chan, Yam & Zhang, 2015 JRSS-B）。这能容忍一定程度的倾向性得分模型误设，但匹配有限个矩无法保证整个协变量分布对齐，当结果回归无法被所选矩函数稀疏近似时，剩余偏差可能不随样本量消减。

分布性平衡（Distributional Balancing）：近年来出现的路线，直接匹配处理组和对照组的整个协变量分布，而非有限矩。常用度量包括最大均值差异（MMD）、能量距离（Energy Distance）、Wasserstein距离等（Gretton et al., 2012 JMLR; Székely et al., 2004 InterStat）。优点是完全非参数，不依赖倾向性得分模型形式，亦无需预选矩函数；但其局限也很突出：（i）每种度量独立发展，无统一框架；（ii）缺乏对所得加权估计的形式化统计理论（一致性、收敛率）；（iii）有效推断（置信区间、假设检验）方法几乎空白。

这场报告站在哪：它提出了一个统一框架，用特征函数距离（CFD）作为核度量，将MMD（Gaussian核）、能量距离、以及更一般的内核函数（如通过指定权重函数ω构造的任意核）统一起来。在这个框架下，报告给出了： 1. 理论基础：在适当结果回归平滑度条件下，证明了加权估计的根n一致性； 2. 推断方法：指出标准bootstrap对该非正则估计量失效，提出用子抽样（subsampling / m-out-of-n bootstrap）构造有效置信区间。 3. 扩展：将框架推广到工具变量（IV）设定下的LATE估计。

二、最小内核 / 一个最简例子¶

模型与数据： - 可观测数据：独立同分布样本 \( \{O_i = (Y_i, A_i, X_i)\}_{i=1}^n \)，其中： - \( X \in \mathbb{R}^d \)：预处理协变量。 - \( A \in \{0,1\} \)：二元处理指示变量。 - \( Y \in \mathbb{R} \)：结局变量。 - 潜在结果：\( Y(1), Y(0) \) 为处理与对照的潜在结局。 - 目标参数（estimand）：ATE \( \tau^* = \mathbb{E}[Y(1) - Y(0)] \)。 - 标准识别假设： - 一致性：\( Y = Y(A) \)。 - 可忽略性（无未测量混杂）：\( Y(a) \perp A \mid X,\ a\in\{0,1\}\)。 - 正性：\( \exists c>0 \) 使得 \( c \leq e(X) \leq 1-c \)。

一个最简特例（d=1，连续X）：假设 \( d=1 \)，只有一个连续协变量X。传统IPW需要估计 \( e(X) \)；熵平衡只能匹配X的均值和方差，但无法保证加权后X的分布形状与边际分布相同。本报告的方法：

构造CFD权重：选定权重函数 ω（例如标准正态密度 \( \omega(t) = \frac{1}{\sqrt{2\pi}} e^{-t^2/2} \)）。定义CFD：
\[\text{CFD}(P,Q) = \int |\varphi_P(t) - \varphi_Q(t)|^2 \omega(t) dt,\]
其中 \( \varphi_P, \varphi_Q \) 为分布P、Q的特征函数。CFD=0当且仅当P=Q（当ω支撑遍及全空间且正值时）。对于样本，设 \( W \) 为n维权重向量，令 \( P_1^{(w)} \) 为加权的处理组经验分布（权重 \( w_i \) 赋予处理组样本）、\( P_0^{(w)} \) 为对照组的加权经验分布、\( \hat{P} \) 为边际经验分布。求解二次规划：
\[\min_{w} \left\{ \text{CFD}(\hat{P}_1^{(w)}, \hat{P}) + \text{CFD}(\hat{P}_0^{(w)}, \hat{P}) + \text{CFD}(\hat{P}_1^{(w)}, \hat{P}_0^{(w)}) + \lambda \|w\|_2^2 \right\},\]
受限于：\( \sum_{i:A_i=1} w_i = n_1, \sum_{i:A_i=0} w_i = n_0, w_i \ge 0 \)。（λ>0确保正定性与唯一解）。利用CFD的核表示，目标函数化为关于w的二次型，可用标准凸二次规划求解。
CFD加权估计量：
\[\hat{\tau}_{\text{CFD}} = \frac{1}{n_1} \sum_{i:A_i=1} w_i Y_i - \frac{1}{n_0} \sum_{i:A_i=0} w_i Y_i.\]
根n一致性条件（在此特例下直观理解）：如果结果回归 \( m(x) = \mathbb{E}[Y|X=x, A=a] \) 足够平滑（当ω为Gaussian时，要求m无限可微；当ω对应Matérn核时，要求m有s阶Sobolev光滑度且 \( s > d/2 \)），则 \( \hat{\tau}_{\text{CFD}} \) 达到根n收敛率。这意味着即使不用结果回归做双稳健（AIPW），单靠分布平衡也能达到参数速度。

三、报告主体：讲者讲了什么¶

[0:00–0:05] 开场与概述 - 讲者Chan Park介绍自己为UIUC助理教授，合作者为博士生Diptanil Santra（UIUC）和Guanhua Chen（UW-Madison）。论文见arXiv 2601.15449。 - 概述三点贡献：提出CFD分布性平衡框架（统一现有方法）、建立根n一致性理论、提供基于子抽样的有效推断。

[0:05–0:12] 背景：为何需要加权
- 用“Alzheimer疫苗”例子直观说明：处理组与对照组的协变量分布（如年龄）天然不同 → 简单均值差分不是ATE。 - 展示oracle权重 \( w^* \propto 1/\Pr(A|X) \) 如何让加权后两个组的分布重合于边际分布，从而识别ATE → 引出IPW公式。

[0:12–0:15] 现有方法的局限
- IPW参数方法：若倾向性得分模型错定，加权估计不一致。 - IPW非参数方法：可避免模型错定，但收敛速度慢（非参数速率），通常达不到根n。 - 熵平衡 / CBPS：仅匹配有限个指定矩（如均值、方差）。幻灯片用一维直方图演示：熵平衡后均值对齐但分布形状仍不同；若结果回归不能由这些矩函数近似，剩余偏差不消失。

[0:15–0:20] 现有分布性平衡的局限
- 方法孤立（MMD、能量距离各自为政）、缺理论（仅点估计，无收敛率证明）、缺推断工具（无置信区间）。 - 讲者明确表示：“这是我们的贡献所在。”

[0:20–0:26] CFD定义与性质
- 定义：\( \text{CFD}(P,Q) = \int |\varphi_P(t)-\varphi_Q(t)|^2 \omega(t) dt \)，要求 ω非负、可积、支撑为ℝ^d。此时CFD是适当散度（=0 iff P=Q）。 - 性质2：核表示。当ω满足上述条件时，CFD等价于：

\[\text{CFD}(P,Q) = \mathbb{E}_{X,X'\sim P} K(X,X') + \mathbb{E}_{Y,Y'\sim Q} K(Y,Y') - 2\mathbb{E}_{X\sim P,Y\sim Q} K(X,Y),\]

其中核函数 \( K(u,v) = \int e^{i t^\top (u-v)} \omega(t) dt \) 是ω的逆Fourier变换（实值、正定且通常平移不变）。这一表示使CFD在经验版本下化为关于Gram矩阵的二次型 → 易于优化。

[0:26–0:32] CFD框架与优化问题
- 将三个加权CFD（处理vs边际、对照vs边际、处理vs对照）求和并加L2正则，转化为含线性约束的二次规划（QP）。正则化参数λ取 \( \lambda \propto 1/n \) 可放松对权重上界的假设（无λ时需额外假设 \( \|w\|_\infty \) 以某速率有界，此处字幕可能听错为“cubic rate”，待核实）。 - QP有唯一全局解。计算复杂度为 \( O(n^3) \)，讲者自承是大规模数据时的瓶颈。

[0:32–0:40] 根n一致性理论
- 定理主要条件： 1. X有紧支撑。 2. 正则化 λ → 0 且 λ = O(1/n)。 3. 条件方差 \( \operatorname{Var}(Y|X,A) \) 有界。 4. 结果回归 \( m_a(x) = \mathbb{E}[Y|X=x,A=a] \) 属于以K为核的RKHS（K由所选ω决定）。 - 证明sketch：将MSE分解为三部分： - (i) 剩余混杂偏差（加权分布与边际分布差异导致的偏差）。 - (ii) 抽样误差（来自加权均值的方差）。 - (iii) 结果方差。因CFD驱动的加权使加权分布与边际分布靠近，且结果回归在相应RKHS中，故 (i) 被CFD项控制。结合 (ii)(iii) 的标准界，得MSE=O(1/n)。

「由ω选择决定平滑度假设」的关键洞见： - 取 ω=Gaussian密度 → 对应Gaussian核，RKHS包含无限可微函数 → 隐含要求结果回归无限光滑。 - 取 ω∝多元t分布密度（乘积形式） → 对应乘积Matérn核，RKHS为各坐标方向Sobolev空间的乘积。 - 取 ω∝各向同性D维体的分布 → 对应标准Matérn核，RKHS为通常Sobolev类 \( H^s \) → 要求结果回归s次可微且s > d/2。 - 讲者强调：“使用MMD的研究者选择Gaussian核时其实默认了无限光滑性，他们不一定明确此假设。”

[0:40–0:50] 与Wasserstein距离的对比
- Wasserstein距离在结构上与CFD类似（都由Functional MMD表示，只测试函数空间不同：CFD为RKHS，Wasserstein为Lipschitz类）。 - 关键差异：Wasserstein距离的经验收敛率为 \( n^{-1/d} \)（当d≥3） → 导致剩余混杂偏差至多O(\( n^{-2/d} \))，无法达到根n。故基于Wasserstein的加权估计无法保证根n一致性。 - 讲者强调：“尽管最优传输在经济计量中很流行，但用于ATE估计的统计速率是致命缺陷。”

[0:50–1:00] 推断困难与子抽样方案
- 为什么标准bootstrap失效：讲者称CFD加权估计为非正则估计量。直观原因：约束QP的边界（不等式+等式）导致权重对数据微小扰动极敏感（类似于Lasso系数路径的非连续）。幻灯片用ChatGPT生成的“regular vs non-regular”漫画生动说明。 - 子抽样方法： - 以更小的规模m（如m = n^{0.7}）进行无放回抽取，重复B次，计算各次估计量的γ/2与1-γ/2分位数，再按尺度因子调整得到原样本置信区间。 - m的选择有数据驱动法（如基于波动度的网格搜索），但讲者称最优选法超出本文范围。 - 幻灯片展示模拟结果：子抽样覆盖接近95%（略保守），而bootstrap在某些ω选择下低估覆盖（如t分布ω、能量距离）。

[1:00–1:10] 仿真与实例
- 仿真：d=10，ATE真值=1。比较CFD（含多种ω）、IPW-MLE、IPW-CBPS。在倾向性得分线性与非线性两种机制下： - CFD偏差远小于标准误，经验标准误随n增大按 \( 1/\sqrt{n} \) 衰减。 - 子抽样覆盖≈95%（略保守）；bootstrap在高非正则设定下失败。 - IPW-MLE/CBPS在模型正确时好，模型误设时差。 - 实例：401k参与对净金融资产的影响（LATE设定）。CFD估计≈12,000美元，置信区间不包含0；DML/AIPW估计类似（区间略窄）；IPW结果表现差。

[1:10–末尾] 讨论与开放问题
- 为何CFD是“好的统一框架”：相比于Wasserstein导致较差收敛率、KL散度因支撑不重叠而爆炸（连续协变量），CFD在“根n速率+广泛适用性+统一现有方法”之间取得良好平衡。 - 非正则性根源：Q&A环节有听众质疑，如果最终估计是加权平均，为什么对数据扰动那么敏感？讲者解释：尽管加权是线性组合，但权重本身是通过带边界约束的QP从数据中学习的，权重wi可能大量处于边界，导致非连续性传递到估计量。 - 与AIPW的对比：AIPW是正则、渐近线性、半参有效的“金标准”，但需要为每个结果估计结果回归；CFD权重复用，适合“多结果、单次计算”场景。二者互补。

四、对应论文与开放问题¶

对应论文： - arXiv 2601.15449 (2026)：「Distributional Balancing for Causal Inference: A Unified Framework via Characteristic Function Distance」，作者：Diptanil Santra, Guanhua Chen, Chan Park。标题、合作者和摘要均与报告及幻灯片吻合。报告中讲者将“Diptanil”误读为“Dithya”（ASR也可能转写错），应以arXiv作者名为准。

开放问题（扎根于转写）： 1. 最优ω选择问题（[0:19:08–0:19:17]）：用户可自由选ω但如何最优选未知。讲者称“尚未完全解决”。可能的子问题：是否可以用交叉验证或最小化估计量渐近方差来选ω？若ω来自数据驱动选择，理论根n一致性是否仍成立？ 2. 大规模数据的可扩展计算（[0:49:33–0:49:40]）：当前QP为O(n³)，不适合大样本。是否有随机化逼近（如Nyström近似、随机特征映射或基于低阶多项式算法的张量网络方法）？研究者（陈）的高阶U-统计量/张量收缩经验可能在此处直接适用。 3. 子抽样保守性改善（[0:49:47–0:49:54]）：子抽样置信区间偏保守。讲者提出两种可能：更精细地调参，或“一种完全不同的方法”。这或许对应于构造基于自适应/数据驱动的m选择、bootstrap校正项，或利用HOIF（高阶影响函数）重构估计量正则性。 4. 非正则性的严格证明与替代推断（[0:59:01]附近和讨论环节）：讲者目前仅凭直觉与模拟，未正式证明该估计量的非正则性（即 Gateaux 导数不存在或路径wise导数不连续）。是否可以从约束QP的几何出发，给出非正则性的正式条件？非正则性是否可通过在目标函数中引入平滑惩罚来缓解，进而使bootstrap有效？

Maintained by 陈星宇 · Homepage · Source on GitHub