Bridging Matching, Regression, and Weighting as Mathematical Programs for Causal Inference¶

讲者: Jose Zubizarreta
讨论人: Mike Baiocchi
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-12-06
主题: 因果推断
视频: https://youtu.be/sPQsdggRtKs

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的核心工作线是用数学规划的视角统一审视因果推断中的三种经典调整方法——匹配、回归和加权——将它们还原为对个体层面数据的不同操作方式，从而逼近理想随机化实验的四大特征。

这个方向的追问是：当我们用观察性数据估计因果效应时，每种方法究竟在做什么？它不是从渐近理论的角度（如相合性、渐进正态性），而是从“有限样本下、在研究者实际拥有的个体数据上”的精确操作来回答： - 方法如何作用于每个单位的权重？ - 方法隐式地平衡了哪些协变量的哪些矩？ - 方法的目标人群是什么？（即加权后的样本在协变量空间指向哪里？） - 方法的估计量是否“样本有界”（即估计值是否始终落在观测结果的支持范围内）？

奠基与主流路线： 1. 匹配的传统：Rosenbaum & Rubin (1983) 奠定了倾向性评分匹配的基础，强调通过配对标本来模拟随机化。随后的最优匹配（Rosenbaum, 1989）和近邻匹配（Abadie & Imbens, 2006）将匹配视为图论/组合优化问题。本报告的匹配工作属于“设计匹配”路线（Zubizarreta 2012; 2015），引入整数规划直接约束匹配后样本的协变量平衡（即profile matching），而不依赖于倾向性评分。讲者提及的合作者有Ambarish Chattopadhyay、Eddie Cohn、Yixin Wang。 2. 回归的传统：从Cochran (1957) 开始，线性回归是事实上的标准工具。本项工作特别关注了回归的有限样本权重解释，这在线性回归方法论中已有一些历史，但在因果推断语境下被重新挖掘。讲者提到的关键合作者包括Ambarish Chattopadhyay；相关的诊断工具包（LMW, cobalt等）由Noah Greifer等提供。
- 关键背景文献：Imbens & Abadie 关于回归权重的讨论；Fuller (2002) 关于抽样调查中回归的小样本理论。 3. 加权的传统：分为建模取向（如基于倾向性评分模型的逆概率加权，IPW）和平衡取向（如熵平衡，Hainmueller 2012；协变量平衡倾向性评分，Imai & Ratkovic 2014）。本报告聚焦于后一取向的变体：“稳定平衡权重”（Stable Balancing Weights, SBW），其核心是求解一个凸二次规划来最小化权重方差，同时近似平衡协变量。合作者包括Eli Ben-Michael、Avi Feller、David Hirschberg。

当前的frontier和本报告的站位：当前因果推断方法论的一个活跃方向是方法论的统一和判断框架的建立。研究者已经知道不同方法各有优缺点，但缺乏一个统一的“手术台”来直接比较它们在有限样本中究竟如何操作数据。这种比较通常停留在渐近理论层面（哪个更高效）或经验层面（模拟/真实数据上的表现）。

这场报告的特点在于不依赖渐近近似：它为匹配、回归、加权各提供了一个精确的（有限样本封闭形式或数学规划形式）操作描述。然后从RCT的四个理想特征——协变量平衡、目标代表性、自加权抽样、样本有界性——来比较它们。 - 匹配（profile matching）：权重是常数整数（0或1），完全自加权，样本有界，但效率（统计上）受限于权重选择的灵活性。 - 回归（尤指单回归imputation，URI）：权重可以自由变化（甚至负值），能达到精确协变量均值平衡，但以牺牲样本有界性为代价（因为存在负权重），并且目标人群是隐式的且可能不存在于现实中。 - 加权（稳定平衡权重）：权重非负，样本有界，但平衡是近似的（允许一定程度的偏误），权重方差被显式控制。 - 关键联系：当去掉非负约束时，SBW等价于岭回归imputation；当平衡约束为严格等式（delta=0）时，收敛到标准回归。匹配、回归、加权在规划框架下的核心差异是解的“形式”和性质（权重是常数整数/自由/非负连续）。

总结：本报告站在 “实验设计的语言学” 这个立场上，它强调：我们不仅要关注估计量的统计性质，更应关注操作层面——方法如何作用于数据，以及这种操作能否使观察性研究在直观上、在协作交流上更像一个随机实验。这呼应了Cochran的建议：问自己“如果这个研究能做随机实验，我会怎么做？”这也是Mike Baiocchi在讨论中强调的“我们独特的优势是思考什么数据应该存在”。

二、最小内核 / 一个最简例子¶

为了把核心思想讲清楚，我们构造一个最简单的例子：

数据： - 我们有 \( N \) 个单位的观测数据。每个单位 \( i \) 有一个处理指标 \( Z_i \in \{0,1\} \) 和一个连续协变量 \( X_i \)（比如年龄，取0/1二值化以简化）。 - 结果变量为 \( Y_i \)（未调整，但计算因果效应时需要）。 - 我们关心的是总体平均处理效应（ATE），假设强可忽略性成立（\( Y(0), Y(1) \perp\!\!\!\perp Z \mid X \)）。

符号与模型： - 可观测数据：\( \{ (Z_i, X_i, Y_i) \}_{i=1}^N \)。 - 目标参数：\( \tau = \mathbb{E}[Y(1) - Y(0)] \)。 - 线性处理效应模型（仅为简化展示，实际报告不假设线性）：
\( \mathbb{E}[Y \mid Z, X] = \beta_0 + \tau Z + \beta_1 X \)。 - 权重 \( w_i \)：用于构成加权线性估计量 \( \hat{\tau}_w = \sum_{i: Z_i=1} w_i Y_i - \sum_{i: Z_i=0} w_i Y_i \)，其中权重满足 \(\sum_{i:Z_i=1} w_i = 1\)，\(\sum_{i:Z_i=0} w_i = 1\)。

最简例子：一个二值协变量 (\(X \in \{0,1\}\)) 和两个处理组样本量相等。

假设我们有： - 处理组：\( N_1 = 5 \)，其中 \(X=1\) 的有 4 个，\(X=0\) 的有 1 个。
均值为 \( \bar{X}_1 = 0.8 \)。 - 对照组：\( N_0 = 5 \)，其中 \(X=1\) 的有 1 个，\(X=0\) 的有 4 个。
均值为 \( \bar{X}_0 = 0.2 \)。

理想随机实验的特征： 1. 自加权：每个单位等权重（\(1/N\)）。 2. 平衡：\(\bar{X}_1 = \bar{X}_0 = \) 总体均值。 3. 代表性：如果总体就是这10个单位，则自加权即代表总体。 4. 样本有界性：估计量是观测结果Y的凸组合，所以落在观测Y的区间内。

三种方法的操作：

匹配（Profile Matching）：
我们要构造一个子样本，其中每个被选中的单位权重为1，未选中的权重为0。
目标：在最大化样本量的同时，使匹配后处理组和控制组的X均值相等（比如各含2个X=1和2个X=0）。
操作：从处理组5个中去掉1个X=1和0个X=0，得到2个X=1和1个X=0（均值0.67不完美）；实际上需要求解整数规划找到可行的最大子集。在这个例子里，最多可能只含2个X=1和2个X=0的组——处理组和对照组各2X=1+2X=0，得到完全的平衡。但信息丢失（只用了4个单位）。权重是常数（1/2），自加权，样本有界，但排除了50%的数据。
回归（线性回归，OLS）：
拟合 \(Y\) 对 \(Z, X\) 的线性模型，得到 \(\hat{\tau}_{OLS}\)。
其等价于一个加权估计量：

\[\hat{\tau}_{OLS} = \sum_{i:Z=1} w_i^{OLS} Y_i - \sum_{i:Z=0} w_i^{OLS} Y_i\]
其中权重为（参考转写中讲者展示的公式）：
\[w_i^{OLS} = \frac{1}{N_t} + \frac{\bar{X}_{overall} - \bar{X}_t}{\sum_{j:Z=t} (X_j - \bar{X}_t)^2} \cdot (X_i - \bar{X}_t), \quad t \in \{0,1\}\]
代入例子：
\(\bar{X}_{overall} = 0.5\)，\(\bar{X}_1=0.8\)，\(\bar{X}_0=0.2\)。
对处理组：
\[w_i^{OLS} = \frac{1}{5} + \frac{0.5 - 0.8}{\sum (X_j - 0.8)^2} \cdot (X_i - 0.8)\]
计算 \(\sum (X_j - 0.8)^2 = (0.2^2) \times 4 + (0.8^2) \times 1 = 0.16 \times 4 + 0.64 = 1.28\)。
对于 \(X=1\) 的单位：权重 = \(0.2 + (-0.3/1.28) \times 0.2 = 0.2 - 0.0469 = 0.1531\)。
对于 \(X=0\) 的单位：权重 = \(0.2 + (-0.3/1.28) \times (-0.8) = 0.2 + 0.1875 = 0.3875\)。
权重不等，并且注意：在这个独有例子中没有负权重，但在其他例子中当某个组的协变量均值偏离总体均值太远时，会有负权重。此外，加权后的处理组均值 \(\sum w_i X_i = 0.1531 \times 4 + 0.3875 \times 1 = 0.6124 + 0.3875 = 1.0\)（等等，这里有误：为什么是4个X=1？处理组有4个X=1和1个X=0，所以权重计算是2个权重？实际上只有两种权重类型：X=1的5个单位权重为0.1531，X=0的权重为0.3875，所以加权X均值为：\(0.1531 \times 1 + 0.3875 \times 0 = 0.1531\)，而非平衡到总体均值0.5？改写一下，这里按原始公式，加权后处理组均值 = \(\sum w_i X_i = 4 \times 0.1531 + 1 \times 0.3875 = 0.6124 + 0.3875 = 1.0\)？但应该是每个权重平方和为1的线性估计？在更正的权重公式中，应该是对每个 \(Z=1\) 的单位的权重计算公式确保处理组权重和为1。所以对于X=1的单位有4个，每个权重为某个常数；X=0的1个单位权重为另一个常数。最终加权均值必定为总体均值。在正确的回归权权重公式下（讲者给出的公式在转写中未写出具体数学形式，但阴性结果：任何OLS回归的权重都会使得加权后的协变量均值等于一个特定目标 \( X^*_{URI} \)，这个目标通常不是处理组均值、对照组或总体均值，而是“联合回归”的某种线性组合。）

关键点：回归精确地平衡了协变量均值，但目标人群是隐式的（对于单回归URI，它的目标是 \(X^*_{URI}\)，该值在LaLonde例中落在数据范围之外，代表一个可能不存在的“人工”人群）。本例中，这个目标会通过闭式解算出。

加权（稳定平衡权重，SBW）：
我们希望找到一组非负权重 \(\{w_i\}\)，满足 \(\sum w_i = 1\)，并最小化权重方差（保证稳定性），同时确保加权后的协变量均值接近总体均值（平衡约束）。这实际上是一个二次规划：
\[\min_w \sum_{i:Z=1} w_i^2 \quad \text{s.t.} \quad \sum_{i:Z=1} w_i = 1,\; |\sum_{i:Z=1} w_i X_i - \bar{X}_{overall}| \le \delta\]
由于约束可以容忍一定近似（\(\delta > 0\)），能达到的平衡是近似的（因为非负约束会阻止精确平衡到0.5，如匹配的例子：若处理组只有少数单位能提供X=1的小权重，则近似平衡可能是合理的）。
本例中，处理组若要求w_i非负且和为1，则X均值受限于非负权重的凸组合范围。例如处理组X的加权均值只能在[0, 0.8]之间，因为所有单位至少有一个X=0。设置δ使得平衡目标0.5可行：需要权重分配使得加权均值等于0.5：设X=1的单位权重和为α，X=0的权重和为1-α，则 \( \alpha \times 1 + (1-\alpha) \times 0 = \alpha = 0.5\)。则权重最小化方差下，每个X=1的单位分得0.5/4=0.125，X=0的单位分得0.5/1=0.5。方差为0.125^2×4 + 0.5^2=0.0625+0.25=0.3125。若我们坚持近似平衡（允许δ=0.01），求解二次规划得到差不多的权重。这就是SBW的解。权重都是非负的，因而估计量是“样本有界”的（估计的因果效应不会超出观测Y的范围）。相比之下，回归允许负权重，可能产生超出数据支持范围的估计。

总结：在这个最简情形下： - 匹配：常数权重（0或1），自加权，样本有界，但信息丢失。 - 回归：自由权重（可能为负），精确均值平衡，但目标人群不一定存在，且样本有界性可能丧失。 - 加权（SBW）：非负权重，近似平衡，样本有界，方差控制好，计算可扩展。

三、报告主体：讲者讲了什么¶

[0:00:05 – 0:01:21] 开场与动机
讲者介绍标题和合作者（Ambarish Chattopadhyay, Eddie Cohn, Yixin Wang），感谢导师Rosenbaum。强调从数学规划的角度分析三种调整方法如何作用于个体数据，以逼近理想随机实验。

[0:01:22 – 0:03:48] 实验理想与Cochran的建议
引出四大理想实验特征：协变量平衡、代表性、自加权、样本有界性（由James Robins & Veroniki 等提出）。Cochran的经典建议被引用：思考“如果我能做随机实验，我会怎么做？”

[0:03:48 – 0:05:22] 三种方法的框架定位
聚焦于观察性研究中如何近似理想实验。匹配、回归、加权这三种方法被锁定。讲者承诺会从设计/可解释性、计算可处理性、统计效率三个维度进行比较。

[0:05:22 – 0:06:36] 设定与记号
ATE为目标，依赖强可忽略性。但提到可扩展至IV、DiD、RDD。

[0:06:36 – 0:13:50] 第一部分：匹配
- [0:06:36–0:08:50]: 匹配直觉：找到隐藏在观察性研究中的实验。讲者引用Ben Hansen，强调pair匹配构建“苹果对苹果”的比较。提到若缺乏重叠，只能匹配子集，需说明推断范围。
- [0:08:50–0:13:22]: 展示他们的匹配方法（profile matching，基于整数规划）：
目标函数包含两项：个体匹配质量（D，距离）和信息量（I）。约束：匹配结构（pair/full）、平衡（fine balance of marginal distributions）、代表性（向目标协变量轮廓平衡）。
强调两个极端：无信息项则回到最优匹配（最小化距离）；仅最大化信息量则为cardinality matching（最大化匹配研究中的样本量）。
- [0:13:22–0:18:00]: 扩展到目标代表性：不仅平衡处理vs.控制，还向外部目标轮廓（如目标人群的协变量统计量）平衡。操作上实现为多维背包问题，NP-hard但在实践中可解（测试达70万观测约3分钟）。讲者说明，细平衡约束（fine balance）在仅有2个二值因子时问题仍为可积（多项式可解），但到3个时破坏。
- [0:18:00]: Q&A：第三个约束（平衡约束）使问题变难——但只有少量此类约束，所以问题结构尚好。

[0:18:10 – 0:30:05] 第二部分：回归
- [0:18:10–0:20:15]: 线性回归的广泛使用及其与RCT的近似关系。核心问题：不用渐近，回归如何在有限样本中操作数据？
- [0:20:15–0:23:00]: 讲者与Ambarish的工作：为OLS、G-computation、AIPW、多值处理、回归后匹配、IV、固定效应提供有限样本封闭形式的权重。
- [0:23:00–0:25:55]: 关键结果：
单回归（pooled OLS，URI）等价于一个加权估计量。讲者给出了权重的封闭形式：

\[w_i^{URI} = \frac{1}{N_t} + ( \bar{X}^*_{URI} - \bar{X}_t )' (\sum_{j:Z=t} (X_j - \bar{X}_t)(X_j - \bar{X}_t)')^{-1} (X_i - \bar{X}_t)\]

其中 \(\bar{X}^*_{URI}\) 是URI的隐藏目标。报告显示：回归精确地平衡了协变量均值（非近似），但目标人群 \(\bar{X}^*_{URI}\) 与任何可观测子总体不同（在LaLonde例中它落在数据范围之外）。权重方差是最小的能达到指定平衡的权重方差。
- [0:25:55–0:27:50]: 负权重与样本有界性：讲者明确提到“weights can take negative values, hence produce estimators that are not sample bounded.”
- [0:27:50–0:30:05]: LaLonde例实证：回归后加权均值（空心圆）与真实样本均值（实心圆）的比较。示例显示对于“年龄”变量，加权均值接近于处理组但超出其范围；对于“种族”指标（黑人），加权均值落于三个子总体之间，代表一个隐匿的、可能不存在的人群。讲者将这一点联系到Hernán的观点：“回归将线性模型认真对待”——正确设定时无所谓，错误设定时在错误群体上拟造成偏误。
- [0:30:00] Q&A：关于“精确平衡 vs. 近似平衡”的偏误-方差权衡，承上启下。

[0:30:05 – 0:38:00] 第三部分：加权
- [0:30:05–0:32:00]: 加权方法概览：建模取向（IPW）和平衡取向（熵平衡、Covariate Balancing PS）。讲者强调本研究侧重后者的“稳定平衡权重”（SBW）。
- [0:32:00–0:35:00]: 误差分解公式：估计误差 = 由平衡偏差导致的部分（关键部分） + 噪声项 + 抽样误差。因此，实现较宽的函数类（如RKHS）的近似平衡可控制偏差。
- [0:35:00–0:38:00]: 提出最小权重方法：最小化某种权重离散度（如方差），同时近似平衡一组基函数B。这是二次凸规划，因为权重非负，解的可行域是单纯形交集上的近似平衡约束，可高效求解（ADMM求解器，如OSQP，超过百万样本可在数秒内求解，瓶颈变为内存）。
- [0:38:00–0:43:00]: 连接回归与加权：
关键联系：若去掉非负约束，SBW等价于岭回归imputation（权重自由、方差被平方和惩罚）。SBW（非负）则是为使估计量样本有界，从而对模型偏差提供保护。讲者表示：“non-negativity constraint on the regression front is something we don't know how to do” ——这是一个开放问题。
- [0:43:00–0:45:00]: 总结表格：三方法在四个维度上的特性比较（匹配：常数权重、完全自加权、样本有界、效率中/低；回归：自由权重、精确平衡、可能样本无界、效率高；加权：非负权重、近似平衡、样本有界、效率中）。

[0:45:00 – 1:00:00] 讨论与点评 (Mike Baiocchi)
点评者强调“设计”对因果推断的价值、Causal Inference与黑箱ML的区别在于它思考“什么数据应该存在”。强调匹配等方法的透明性和可解释性，以及回归权重的隐性目标人群的警示。

四、对应论文与开放问题¶

对应论文（基于转写中提及）¶

匹配（Profile Matching, Cardinality Matching）：
Zubizarreta (2012) Journal of the American Statistical Association: 提出用混合整数规划进行匹配，引入细平衡约束。
Zubizarreta (2015) The American Statistician: 提出卡迪纳利匹配（最大化匹配样本量）。
合作者：Chattopadhyay, Cohn, Wang 等人。
回归（Implied Weights of OLS & URI）：
Chattopadhyay & Zubizarreta (2021) Journal of the Royal Statistical Society, Series B: 标题可能为“Finite-Sample Implications of Linear Regression for Causal Inference”。
工具包 R包 lmw (Greifer & Zubizarreta) 用于提取OLS的隐含权重和诊断。
加权（Stable Balancing Weights, SBW）：
Zubizarreta (2015) Biometrics: “Stable Weights that Balance Covariates”。
更多：与Ben-Michael, Feller, Hirschberg的合作工作。
与 Kwangho Kim, Vishesh Nigam 的working paper关于在RKHS平衡和大规模实现（ADMM）。
工具包 R包 sbw。
综合比较/连接：
这三部分工作间可能有一篇整合性论文或正在工作。转写中提到“this talk is based on these three papers”。具体标题未在转写中给出，但从讲者的幻灯片及引用的合作者来看，很可能是打算出一篇综述/方法比较。

开放问题（扎根于转写）：¶

[0:36:52] delta的选择：平衡约束的容许度\(\delta\)怎么选？讲者说“is pretty much an open question, although we have a couple of proposals.” 研究者若对高维/半参稳健性理论熟悉，可以考虑设计基于交叉验证或基于贝叶斯界（BCHE）的自适应\(\delta\)选择，这可能导向一个方法论文。
[0:38:40] 从加权到回归的逆向：负权重约束：“imposing this non-negative constraint on the regression front is something that we don't know at present how to do.” ——即能否将加权方法中的非负权重实现为一种“回归imputation”形式？这会是一个技术挑战（非负约束下的二次规划权重解没有简单的线性回归解释）。这可能涉及到约束下的参数估计问题，对熟悉半参数理论或高维统计的研究者是个问题。
[0:30:00 Q&A] 精确平衡 vs 近似平衡的偏误-方差权衡：讲者提到这会是后续讨论。具体来说：回归提供精确均值平衡但可能导致差的目标人群；加权提供近似平衡但牺牲或多或少偏误。如何在设计中理性权衡，并给出极限情况的理论指导？可能涉及半参效率理论中的正则化路径。
[0:24:25] 样本有界性的统计意义：负权重完全破坏样本有界性，但在线性模型正确时不影响相合性。但当线性模型错误时，有界性是否提供一个重要的稳健性？是否存在一个严格意义上“样本有界估计量”的渐近效度损失率？这是一个匹配/加权支持者的直觉，但可以形式化为理论。
[.02:01] 强可忽略性假设下的扩展：在违背强可忽略性时（研究者问），匹配/回归/加权各自在敏感性分析中的表现如何？已有许多敏感度分析工作，但本场的规划框架是否能将敏感性转化为一组参数化的约束，施加到权重上？

以上问题每个都已锚定在转写的具体语句和时间点，供研究者判断可行性。

Maintained by 陈星宇 · Homepage · Source on GitHub