How to learn more from observational factorial studies Discussant [new format]: José Zubizarreta (Harvard) and Luke Keele (UPenn)¶

讲者: Ruoqi Yu, Peng Ding
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-10-10
主题: 因果推断
视频: https://youtu.be/OObh7pMyDW4

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的核心工作是：将因果推断中处理单个二元处理的平衡权重（balancing weights）方法，系统性地推广到多因素（factorial）观测研究场景，并提出一套同时估计多个因子主效应与低阶交互效应的统一加权框架。

它所在的研究子方向：这个方向追问的是——

“当我们有多个（可能很多）二元处理因子（如4种化学暴露、10种政策组合）时，如何用观测数据无偏地估计每个因子的边际效应（main effect）以及它们之间的交互效应（interaction），并做有效推断？”

奠基与主流路线： - 传统做法是将“所有处理组合”视为一个多水平处理（multi-level treatment），然后用逆概率权重（IPW，Rosenbaum & Rubin 1983 基准）或针对多值处理的平衡权重（如Imbens 2000，Lopez & Gutman 2017）来平衡所有组的协变量分布。但当因子数K大时（例如K=10），处理组合数（2^K=1024）爆炸，许多组为空或极稀疏，这种方法在计算和识别上都不可行。 - 另一个路线：在田地实验设计（Fisher 1935、Box Hunter Hunter 1978）中，析因实验通过“效果层次原则”（lower-order effects更重要）与“效果稀疏性”原则，用分数析因设计（fractional factorial）大幅减少所需处理组合。这个报告将实验设计的这种稀疏性思想移植到观测研究中：假设高阶交互可忽略，则不必平衡所有2^K组，只需平衡到某个低阶项K'（例如主效应+两两交互）。

这场报告的位置： - 它不属于创新一个全新的“因果识别”框架（没有用工具变量、代理变量或敏感性分析），而是属于方法论的“桥接”工作：一端是成熟的实验设计（factorial design）原则，另一端是观测因果推断中已被证明有效的“平衡权重”技术栈。 - 最直接竞争/相关工作：Hainmueller (2012) 的熵平衡（entropy balancing）；Imai & Ratkovic (2014) 的协变量平衡倾向得分（CBPS）；Zubizarreta (2015) 的稳定权重 – 报告都引了。但此前这些工作主要关注单处理或少量多水平处理，报告首次显式地利用“效果层次假设”来大幅减少平衡约束数，并同时处理“某些处理组合未观测到”的场景（通过“不完备析因设计”推广）。 - 报告也区别于“多重比较校正”或“稀疏估计”（如LASSO-based factorial effect estimation），因为它是从设计层面（权重构造）解决混淆，而不是从分析层面做模型选择。

技术边界标注：转写稿中提到“Dasgupta, 2015”的人名疑似应为“Dasgupta et al. (2015)”或相关作者（字幕可能误）；提及“Chan et al.”的方差估计器，这里很可能指Chan et al. (2016 JASA)的校准权重（calibration weights）方差公式。具体引用以论文正文为准。

二、最小内核 / 一个最简例子¶

假设场景：我们想研究两个二元处理因子（K=2）——服用药物A（Z1=1/0）和服用药物B（Z2=1/0）——对未来6个月心血管事件风险Y的影响。有观测数据：每个个体i有四个潜在结果Y_i(z1, z2)，但只能观测到一个。我们还有协变量X（年龄、性别、BMI）。

符号体系： - 处理组合：\(z = (z_1, z_2) \in \{0,1\}^2\)，共4种组合：(0,0), (0,1), (1,0), (1,1)。 - 潜在结果：\(Y(z)\)，在可忽略性（unconfoundedness）和SUTVA下，\(E[Y(z) \mid X]\) 与观测结果可联系。 - 感兴趣的析因效应（用对比向量定义）： - A的主效应（main effect of A）：\( \tau_{A} = \frac{1}{2}[ (\mu_{11}+\mu_{10}) - (\mu_{01}+\mu_{00}) ]\)，即在所有B水平上平均的A的效应。 - B的主效应类似。 - A×B交互效应：\( \tau_{AB} = \frac{1}{2}[ (\mu_{11}-\mu_{10}) - (\mu_{01}-\mu_{00}) ]\)。 - 其中\(\mu_{ab} = E[Y(a,b)]\)。

最简特例下的核心困难： - 如果我们只关心A的主效应，简单的在“A=1组”与“A=0组”之间比较观测Y均值是有偏的，因为不仅X分布不同，B的分布也不同（例如服用A的人更可能也服用B）。这就是报告里强调的：“有多个处理时，仅仅平衡协变量是不够的，还需要将其他处理因子作为额外的协变量来平衡。” - 报告提出的平衡权重法，对于A的主效应，要找一组权重w_i，使得在加权后的A=1组和加权后的A=0组中，以下都平衡： 1. 协变量X的分布（如均值、二阶矩等）； 2. 处理因子B的分布（即B=1的比例在两组加权后相等）； 3. 如果是“异质处理效应模型”（heterogeneous treatment effects model），还需要平衡X与B的交互。

为什么K=2已经很能说明问题： - 全析因设计（所有4组都观测到）可以用“对比向量法”（±1/2、±1/2等）直接写出估计量。 - 如果 (1,1) 组极少甚至为空（如A和B一起服用的患者在数据中很少），报告提出的“不完备析因设计”推广——利用“高阶交互可忽略”假设（这里假设A×B交互为0）——可以将(1,1)的期望结果用其他三组线性表达，从而用只有三组的观测数据仍能无偏估计A和B的主效应，但不能估计A×B交互。

三、报告主体：讲者讲了什么¶

[0:00–0:04] 开场与议程 - 主持人（可能为Shan，来自OCIS）介绍格式：本场有两位讨论人（Jose Zubizarreta, Luke Keele），鼓励观众在Q&A区提问。 - 讲者Ruoqi Yu开始报告。

[0:04–0:11] 动机与应用背景 - 为什么要做多因素观测研究：以化学混合物（VOC）暴露为例——个体同时暴露于多种化学物（苯、甲苯、乙苯、MTBE），大多数文献只“一种化学物一次”分析，忽视了联合效应与交互。 - 具体数据源：美国国家健康与营养调查（NHANES）2003-2012年数据的女性、育龄期子集，N=2003。四个二元因子（每种VOC的血浓度是否超过检测限）。结局：心率（反映心脏毒性）。 - 为什么不能用随机实验：伦理+实际不可行（暴露有害）。只能用观测数据。

[0:11–0:20] 平衡权重的基本思想与“直接推广”的困境 - 回顾单处理（K=1）的平衡权重：选择权重直接平衡处理组与对照组的协变量分布（如均值），不需要显式估计倾向得分。熵平衡（Hainmueller 2012）、稳定权重（Zubizarreta 2015）等。 - 直觉的直接推广：把16种（2^4）处理组合视作16个“处理水平”，用多值处理平衡方法（如Imbens 2000, Lopez & Gutman 2017）同时平衡所有组的协变量分布。 - 困境：当K大时（如K=10），处理组合数2^K爆炸，许多组稀疏或为空；计算上要平衡上千组协变量分布，不可行。 - 报告提出的转机：利用实验设计的“效果层次原则”——更高阶交互通常更不重要、更难以解释、更小——假设仅关注主效应与低阶交互（最高K'阶），从而不必平衡所有2^K组，只平衡必要的子集。

[0:20–0:25] 核心符号、模型与框架 - 处理：Z = (Z_1,…,Z_K)，K个二元因子。 - 潜在结果框架（Dasgupta 2015? 实际上更可能是Dasgupta et al. 2015或更早的Schoenfeld 2003等人的框架）：对每个处理组合z，有潜在结果Y(z)。 - 析因效应用对比向量定义：主效应的对比向量c的第j个元素为+1/2^? 或 -1/2^(K-1)? 此处转写不太清晰。重要的是：每个析因效应可写为“正部分期望”减去“负部分期望”： \(\tau = E[Y | positive] - E[Y | negative]\)。

[0:25–0:30] 理想权重的定义与估计 - 理想权重：\( w(z) \propto f(x) / f(x|z) \)，即正部分的协变量密度 / 给定处理组合z的协变量密度，使得加权后各组协变量分布都趋近于总体的边际分布。 - 实际构造权重：最小化某个凸函数 \( \sum_i m(w_i) \)（报告使用m(x)=x²，即稳定权重）满足： - 平衡约束（两层）： 1. 对于广义可加模型（treatment effect not interacting with X）：需要平衡两组间协变量基函数\(\phi(X)\)的均值；以及处理组合的低阶项（如主效应、两两交互）的均值。 2. 对于异质处理效应模型（treatment effects vary with X）：需要平衡\(\phi(X)\)与处理组合低阶项的乘积的均值。 - 非负约束 \(w_i \ge 0\)。

[0:30–0:33] 目标与双问题求解 - 统一形式：\( \min_w \sum_i m(w_i) \)，使得 \( \sum_i w_i \cdot \text{basis}_h(X_i, Z_i) = 0 \)（对每个平衡约束 h），且非负。 - 报告通过拉格朗日对偶转化为无约束凹最大化问题：对偶参数\(\lambda_h\)对应平衡约束的拉格朗日乘子。权重有闭式解 \( \hat{w}_i = (m')^{-1}(\lambda^\top \text{basis}_i) \) 形式，仅依赖对偶解。

[0:33–0:37] 理论性质（具体结果字幕可能不精确） - 使用 m(x)=x²（稳定权重）时，加权估计量是： - 相合的（consistency） - 渐近正态的（asymptotically normal） - 渐近方差可分解为两部分：潜在结果在平衡基函数张成的线性空间上的投影方差 + 残差方差。 - 提出了一个一致方差估计量（motivated by Chan et al.），且计算只依赖对偶问题的输出（几乎无额外成本）。

[0:37–0:40] 不完备析因设计的推广（报告的技术亮点之一） - 若某些处理组合（如(1,1,1)）在观测中完全未出现，则不能直接使用全析因设计框架。 - 策略：利用“高阶交互可忽略”假设（如假设三阶交互为0），将缺失组的期望结果表示为观测组期望结果的线性组合。 - 这源于析因效应与期望结果的线性系统存在一一对应关系：\(\tau = C \cdot \mu\)，其中\(\mu\)是各组合的期望结果向量，C是傅里叶对比矩阵。当缺失某些结果时，利用C的可逆性（在忽略高阶交互的假设下），可以“反解”出加权后的对比向量——新对比向量不再是简单的±1/2，而是取决于观测组和假设的加权系数。 - 报告以K=3缺失(1,1,1)为例：假设三阶交互为0，则主效应对比向量中(1,1,1)的系数从±1/4被“分摊”到其他7组，从而可以只用7组观测数据无偏估计。

[0:40–0:50] 模拟研究 - 设定：K=3（8种组合），仅有主效应非零，5个协变量。 - 三个结果模型：(1) 加法型（Y1，协变量与处理独立）；（2）异质型（Y2，协变量与处理交互）；（3）误设型（Y3，包含非线性项如sin、max，不在平衡基函数中）。 - 比较四种方法：未调整、线性回归调整、广义可加平衡（仅平衡X）、异质处理效果平衡（平衡X与Z的交互）。 - 结果（表2/3转写未给出具体数值，但趋势清晰）： - 加法型下三种调整方法表现接近、明显优于未调整。 - 异质型下，“异质处理效果平衡”方法RMSE最小，优势显著。 - 误设型下，平衡方法仍稳健（覆盖率在0.90-0.95之间，未显著恶化）。 - 方差估计与覆盖：方差估计（第四列）与模拟方差（第三列）比值接近1，95%置信区间覆盖接近名义水平（即使在误设下也≈0.93）。

[0:50–0:55] 实际数据分析（NHANES VOC） - 假设：只考虑4个主效应+6个两两交互（K'=2）。用异质处理效果平衡。 - 结果：平衡前，各组的协变量均值差异（标准化）极大（smoking差异达70%）；平衡后，所有标准化均值差接近0。 - 分析发现：苯（benzene）、甲苯（toluene）、MTBE的暴露显著提高心率；两两交互均不显著（与许多文献认为只有交互才重要的观点相反）。

[0:55–0:59] 总结与讨论（包括回应讨论者） - 两条核心： 1. 若高阶交互可忽略，则只需平衡有限个约束（不是所有2^K组分布）。 2. 多处理时平衡协变量不够，还必须平衡其他处理因子。 - 回应Jose Zubizarreta（讨论者）： - 为什么选“精确平衡”而非“近似平衡”？答：低阶约束严格平衡，高阶可放松容忍度。 - 为什么加非负约束？（Luke也问了）答：直觉上“一个人不能算负一个人”；且这避免外推。注意：非负约束使优化更加困难（报告说了“derive a unconstrained concave problem was more complicated”）。 - 回应Luke Keele（讨论者）： - 关于m(x)选择（超参数λ的隐藏作用）和偏压-方差权衡：报告坦言，当前做法是让使用者自己选m(x)；最优数据驱动选择（如最小化渐近方差）是未来工作。

四、对应论文与开放问题¶

对应论文（根据报告及slides确定）： - Yu, R. & Ding, P. (2023). Balancing Weights for Causal Inference in Observational Factorial Studies. arXiv, 上线日期正好是报告当天（2023-10-10）。[准确] - 不知是否还有其他合作者，转写未提。注意：arXiv ID未在转写中给出，研究者需自行查找（关键词“balancing weights factorial causal inference Yu Ding”）。

讨论中提到的开放问题（从转写最后讨论环节提取，每条标明源时间）：

超参数（m(x)选择）的偏误-方差权衡优化 [0:55、0:57]：报告使用m(x)=x²给了渐近方差公式。但Luke指出，m(x)隐含一个“偏误-方差权衡超参数”（他在自己工作中显式设置λ）。Ying回应：可以通过最小化渐近方差中的“残差方差项”来数据驱动选择最优m。具体操作尚未在报告中给出。
近似平衡 vs 精确平衡 [0:57]：Jose指出在稀疏数据中（尤其处理组合多时）精确平衡可能不可行。Ying建议对低阶项严格平衡，对高阶非零项加容忍度。但容忍度δ如何选择缺乏理论指导。
目标人群的明确定义 [0:56]：加权后，每一个“正部分”和“负部分”的加权分布都趋向于整个观测样本的边际分布。这意味着目标人群是整条数据（即NHANES全国代表性人口）。但在更一般的抽样调查中，这个目标可能因权重设计而变，需要更清晰的讨论。
多重比较校正 [Jose提到]：由于要同时估计多个（报告例子是10个）因子效应，多重检验（multiple testing） 的问题在论文中被提及了吗？报告讨论环节Jose问到，Ying未作答。此为一个明显的缺口。
敏感性分析 [Jose提到]：当未观测混杂存在时，这些平衡权重估计是否敏感？将敏感性分析（如基于Rosenbaum bounds或E-value框架）移植到多因子场景是自然扩展。
负权重的解释与推广 [Luke]：报告拒绝负权重是“convenience”而非原则。Luke追问：允许负权重可避免外推吗？Ying回答直觉性理由（不能负一人）。但从统计效率角度看，无约束权重（允许负值）可能降低方差，值得探索。
可忽略性假设的维度诅咒：虽用了效果层次假设降低了处理组合数的维度，但协变量X的维度（平衡约束数）仍可能很大。高维协变量场景（p > n）下基函数选择与正则化：报告没有讨论。
与线性回归调整的联系 [Jose]：论文是否与“用线性回归调整多水平处理”有对偶关系（类似Lin 2013对ATE的发现）？报告未探讨，是理论连接点。

研究者注意：以上问题每条都是从转写的讨论或报告中的隐含缺口出发，不意味着哪个方向最可行或最重要。判断是否匹配自身武器库（如高维统计、U-统计量计算等）由研究者决定。

Maintained by 陈星宇 · Homepage · Source on GitHub

How to learn more from observational factorial studies Discussant [new format]: José Zubizarreta (Harvard) and Luke Keele (UPenn)¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论