跳转至

Optimizing Experimental Design for Causal Effect Estimation with Partial Measurements

作者: Leopold Mareis
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.26818


一、领域脉络与小综述

这个方向是什么

本文研究的核心问题是:在预算约束下,如何通过部分测量(即只采集部分变量的样本,而非完整观测所有变量)来优化实验设计,以更高效地估计一个已知的因果效应(具体为工具变量模型中的因果效应 λ₂₃)。这是一个连接因果推断(工具变量估计)、实验设计(adaptive sampling)和渐近方差优化的交叉子方向。其根本统计问题是在给定初始数据和有限额外预算的条件下,选择最优的样本分配(多少完整样本、多少部分样本)以最小化估计量的渐近方差。当前该方向的成熟度较低,大部分工作集中在“是否停止采样”的序贯决策上,而本文是少数将“部分测量”和“预算约束”纳入解析优化框架的工作。

发展脉络(history)

  1. 奠基工作:工具变量与弱工具变量

    • Staiger & Stock (1994) [14]:奠定了弱工具变量问题的理论基础,指出当工具变量与处理变量的相关性很弱时,IV估计量会变得不稳定且方差极大。本文直接引用此工作作为其动机来源——当 |ω₁₁λ₁₂| 很小时,需要更多数据来降低 σ̂₁₂ 的方差。
    • Drton (2016) [3]:系统总结了线性结构方程模型中的代数问题,包括 trek rule、参数识别等。本文引用其结论:当 λ₁₂ ≠ 0 时,λ̂₂₃ = σ̂₁₃ / σ̂₁₂ 是无偏估计量。这构成了本文估计量的基础。
  2. 主要进展:自适应采样与主动学习

    • Murphy (2005) [11] 和 Pallmann et al. (2018) [12]:代表了自适应实验设计的主流思路——根据累积数据动态决定是否停止采样(即“非预定样本量”方法)。本文指出这些方法关注的是“何时停止”,而非“采集什么”。
    • Cohn, Ghahramani & Jordan (1996) [2] 和 Saar-Tsechansky & Provost (2004) [13]:代表了主动学习(active learning)的思路,即选择能带来最大信息增益的样本进行标注。本文指出这些方法关注的是“选择哪个样本”,而非“选择哪些变量”。
  3. 当前 Frontier:基于渐近方差的协变量选择

    • Henckel, Perković & Maathuis (2022) [6]:在因果线性模型中,基于渐近方差比较不同有效调整集(adjustment sets)的效率,并给出了最优调整集的图论刻画。本文引用此工作作为“基于渐近方差进行静态选择”的代表,并与之形成对比——本文处理的是动态的、带预算约束的部分测量问题。
  4. 本文的位置:本文在上述工作的基础上,提出了一个概念上不同的方法:它不是决定“何时停”或“选哪个样本”,而是决定“在预算约束下,应该采集多少完整样本(X₁₂₃)和多少部分样本(X₁₂)”。它将实验设计问题转化为一个实数域上的解析可求解的优化问题,这是该方向上一个新颖的切入点。

子线索聚类

  1. 工具变量理论与弱工具变量([1, 3, 10, 14]):这一簇关注IV估计量的识别条件、一致性和渐近分布,特别是弱工具变量带来的方差膨胀问题。本文的估计量 λ̂₂₃ 和方差公式 v(γ) 完全建立在这一簇的理论之上。
  2. 自适应实验设计与序贯分析([11, 12]):这一簇关注如何根据累积数据动态调整实验方案,核心是“停止规则”。本文与之不同,关注的是“采样内容”而非“停止时机”。
  3. 基于方差优化的协变量选择([6]):这一簇关注在给定数据下,如何从所有有效调整集中选出使渐近方差最小的那个。本文与之不同,关注的是在预算约束下,如何通过采集新数据(包括部分数据)来降低方差。

这个方向在追问的核心问题

  1. 如何量化“部分测量”的价值? 在什么条件下,采集部分变量比采集完整变量更有效?
  2. 如何在预算约束下进行最优分配? 给定完整样本和部分样本的不同成本,最优的样本数量组合是什么?
  3. 如何将这种优化与假设检验结合? 如何在最优采样方案下,进行功效分析和样本量计算,以检测非零因果效应?

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者将现有自适应采样方法([11, 12])和主动学习方法([2, 13])描述为关注“何时停止”或“选择哪个样本”,而忽略了“选择哪些变量”这一维度。同时,将 Henckel et al. (2022) [6] 的工作描述为“静态”的协变量选择。通过这种方式,作者将自己的工作定位为填补“在预算约束下,通过部分测量进行动态优化”这一空白,使其成为“显然的下一步”。
  • 哪些竞争路线被他淡化或回避了:作者淡化了序贯决策的复杂性。本文的优化是一次性的(给定初始数据后,一次性决定 m₁ 和 m₂),而非真正的序贯自适应(即每采集一个样本后重新评估)。作者在结论中承认“我们的方法可以扩展到序贯设置”,但并未在本文中处理。
  • 什么明显该被引 / 该存在、却没出现在 intro 里? 本文没有引用任何关于贝叶斯实验设计(Bayesian optimal experimental design, BOED)的工作。BOED 是处理“在预算下选择最有信息量的测量”这一问题的经典框架,通常通过最大化信息增益(如互信息)来实现。本文的“最小化渐近方差”目标与 BOED 的“最大化信息增益”目标有很强的概念联系,但作者完全回避了这一文献。这是一个值得研究者去查的问题:BOED 方法是否能在本文的设定下给出更好的结果?或者,本文的解析解是否可以被视为 BOED 在特定模型(高斯、线性)下的一个特例?

张力

未见明显对立引用。所有被引工作都在各自的子方向上被作者合理地定位,没有发现彼此矛盾或在略不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • X₁:工具变量(随机变量)。
    • X₂:处理变量(随机变量)。
    • X₃:响应变量(随机变量)。
    • λ₁₂:X₁ 对 X₂ 的因果效应(参数,待估?不,本文假设已知其非零)。
    • λ₂₃:X₂ 对 X₃ 的因果效应(参数,本文的 estimand)。
    • ωᵢⱼ:误差项 ε 的协方差矩阵 Ω 的元素。ω₂₃ 代表未观测到的混杂强度。
    • σᵢⱼ:可观测变量 X 的协方差矩阵 Σ 的元素。
    • n₁:初始完整样本(X₁₂₃)的数量。
    • n₂:额外部分样本(X₁₂)的数量。
    • γ:n₂ / n₁,部分样本与初始样本的比例。
    • b:额外预算。
    • c₁:采集一个完整样本(X₁₂₃)的成本。
    • c₂:采集一个部分样本(X₁₂)的成本。
    • m₁:用预算 b 购买的额外完整样本数量。
    • m₂:用预算 b 购买的额外部分样本数量。
  • 模型

    • 数据生成机制由线性结构方程模型(Model 1)给出:
      X₁ = ε₁
      X₂ = λ₁₂ X₁ + ε₂
      X₃ = λ₂₃ X₂ + ε₃
      
    • 误差项 ε = (ε₁, ε₂, ε₃)ᵀ 服从均值为零、协方差矩阵为 Ω 的三元正态分布。Ω 是一个对角块矩阵,其中 ε₁ 与 (ε₂, ε₃) 独立,但 ε₂ 和 ε₃ 可以相关(通过 ω₂₃ 建模混杂)。
    • 已知量:λ₁₂ ≠ 0(工具变量与处理变量相关)。ω₁₁, ω₂₂, ω₃₃ > 0。ω₂₂ω₃₃ > ω²₂₃(保证 Ω 正定)。
    • 待估对象:λ₂₃。
  • 可观测数据

    • 初始数据:n₁ 个独立同分布的完整观测 (X₁, X₂, X₃)ᵢ。
    • 额外数据:n₂ 个独立同分布的部分观测 (X₁, X₂)ⱼ(即只观测了工具变量和处理变量,没有观测响应变量 X₃)。
    • 想要但观测不到的量:在部分样本中,X₃ 是缺失的。此外,误差项 ε 和混杂结构(由 ω₂₃ 参数化)是不可直接观测的,只能通过协方差结构来识别。

第二步:讲最小内核

本文的核心思路可以用一个最简特例来理解:假设没有混杂(ω₂₃ = 0),且所有变量方差为 1(ω₁₁ = ω₂₂ = ω₃₃ = 1)

在这个特例下,模型简化为: * X₁ ~ N(0, 1) * X₂ = λ₁₂ X₁ + ε₂, ε₂ ~ N(0, 1) * X₃ = λ₂₃ X₂ + ε₃, ε₃ ~ N(0, 1)

此时,协方差矩阵 Σ 为: * σ₁₂ = λ₁₂ * σ₁₃ = λ₁₂ λ₂₃ * σ₂₂ = 1 + λ²₁₂ * σ₃₃ = 1 + λ²₂₃ (1 + λ²₁₂)

要解决的问题:我们有 n₁ 个完整样本 (X₁, X₂, X₃),并有一笔额外预算 b。采集一个完整样本的成本是 c₁,采集一个部分样本 (X₁, X₂) 的成本是 c₂(c₂ < c₁)。我们想决定用这笔预算购买 m₁ 个完整样本和 m₂ 个部分样本,以最小化 λ̂₂₃ 的渐近方差。

核心思路: 1. 估计量:λ̂₂₃ = σ̂₁₃ / σ̂₁₂。分子 σ̂₁₃ 只能用 n₁ 个完整样本估计。分母 σ̂₁₂ 可以用所有 n₁ + n₂ 个样本(包括部分样本)来估计,因为部分样本也包含了 X₁ 和 X₂。 2. 方差来源:λ̂₂₃ 的方差主要来自两个部分:分子 σ̂₁₃ 的方差和分母 σ̂₁₂ 的方差。分母的方差在弱工具变量(λ₁₂ 很小)时会非常大。 3. 部分测量的价值:采集部分样本 (X₁, X₂) 可以只降低分母 σ̂₁₂ 的方差,而不影响分子 σ̂₁₃ 的方差。在弱工具变量场景下,分母的方差是总方差的主要贡献者,因此用更便宜的部分样本专门去降低分母方差,可能比用昂贵的完整样本同时降低分子和分母方差更划算。 4. 优化问题:将渐近方差 v(γ) 表示为 n₂/n₁ 的函数,然后加上预算约束 c₁m₁ + c₂m₂ ≤ b,并考虑总样本量变为 n₁ + m₁。最终得到一个关于 m₁ 和 m₂ 的优化问题。由于模型是高斯线性的,这个优化问题可以解析求解(Theorem 2)。

在这个特例下,Theorem 2 的条件 χ₁ ≤ χ₂ 会退化成什么? 代入 ω₁₁ = ω₂₂ = ω₃₃ = 1, ω₂₃ = 0,得到: * χ₁ = (c₁ - c₂)(σ₁₁σ²₁₃σ₂₂ - 2σ₁₁σ₁₂σ₁₃σ₂₃) = (c₁ - c₂)(1 * (λ₁₂λ₂₃)² * (1+λ²₁₂) - 0) = (c₁ - c₂) λ²₁₂ λ²₂₃ (1+λ²₁₂) * χ₂ = 2σ²₁₂σ²₁₃c₂ + σ₁₁σ²₁₂c₂σ₃₃ = 2λ²₁₂ (λ₁₂λ₂₃)² c₂ + 1 * λ²₁₂ * c₂ * (1 + λ²₂₃(1+λ²₁₂)) = λ²₁₂ c₂ [2λ²₁₂λ²₂₃ + 1 + λ²₂₃(1+λ²₁₂)]

条件 χ₁ ≤ χ₂ 变为: (c₁ - c₂) λ²₁₂ λ²₂₃ (1+λ²₁₂) ≤ λ²₁₂ c₂ [2λ²₁₂λ²₂₃ + 1 + λ²₂₃(1+λ²₁₂)] 两边除以 λ²₁₂ (>0): (c₁ - c₂) λ²₂₃ (1+λ²₁₂) ≤ c₂ [2λ²₁₂λ²₂₃ + 1 + λ²₂₃(1+λ²₁₂)] 整理后得到: c₁ λ²₂₃ (1+λ²₁₂) ≤ c₂ [2λ²₁₂λ²₂₃ + 1 + λ²₂₃(1+λ²₁₂) + λ²₂₃(1+λ²₁₂)] = c₂ [1 + λ²₂₃(2 + 4λ²₁₂ + 2λ⁴₁₂)? 需要仔细算]

这个条件清晰地展示了权衡:左边是采集完整样本的“成本”(c₁)乘以分母方差的“重要性”(与 λ²₂₃ 和 λ²₁₂ 相关)。右边是采集部分样本的“成本”(c₂)乘以一个包含分子方差(常数 1)和分母方差(与 λ²₂₃ 和 λ²₁₂ 相关)的项。当 λ₁₂ 很小时,左边变小,右边趋近于 c₂ * 1,条件更容易满足,即更倾向于采集部分样本。这正是“弱工具变量”场景。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在预算约束下,通过采集部分变量(X₁₂)的样本,来优化工具变量模型中因果效应 λ₂₃ 的估计精度。
  2. 核心工具/方法:利用高斯图模型下的渐近方差公式,将最优采样分配问题转化为一个实数域上的解析可求解的优化问题(Theorem 2),并基于此给出了假设检验的显著性水平、功效和 p-value 的计算公式(Lemma 1, Corollary 3, 4)。
  3. 主要结论:证明了在特定参数配置下(特别是弱工具变量且混杂与因果效应方向相反时),采集部分样本可以降低渐近方差;给出了最优的完整样本与部分样本数量分配的解析解;并通过两个真实数据例子展示了该方法能显著降低估计方差(21% 和 68%)。

关键设定与假设

  • 模型:严格遵循 Model 1 的三元高斯线性结构方程模型。这是所有理论推导的基础。
  • 估计量:使用矩估计量 λ̂₂₃ = σ̂₁₃ / σ̂₁₂。分子 σ̂₁₃ 仅基于 n₁ 个完整样本,分母 σ̂₁₂ 基于所有 n₁ + n₂ 个样本(加权平均)。
  • 渐近框架:假设 n₁ → ∞,且 n₂/n₁ → γ(一个常数)。这是 Cramér's Theorem 应用的前提。
  • 预算约束:预算 b 和成本 c₁, c₂ 是固定的正数,且 c₂ < c₁。优化问题在连续域上求解,然后取整。
  • 假设的放宽/强化:相比标准 IV 文献,本文没有对工具变量的强度做任何假设(除了 λ₁₂ ≠ 0),而是将其作为优化的一部分。相比 Henckel et al. (2022) [6],本文的设定更窄(仅限 IV 模型),但引入了动态采样和预算约束。

主要结果

  1. Theorem 1 (渐近方差公式):给出了在部分测量下,λ̂₂₃ 的渐近方差 v(γ) 的显式表达式(公式 2)。这个公式是后续所有优化的基础。它清晰地展示了方差如何依赖于模型参数(λ₁₂, λ₂₃, ωᵢⱼ)和样本比例 γ。

    • 直觉:v(γ) 随着 γ 增加而减少,但减少的速率取决于参数。Corollary 2 给出了 v(γ) 递减的条件(公式 3),即 λ²₁₂ < -(ω₂₂ + 2ω₂₃/λ₂₃)/ω₁₁。这要求 ω₂₃λ₂₃ < 0,即混杂效应与因果效应方向相反。
    • 解决的技术难点:推导出 v(γ) 的简洁解析形式,特别是从 Σ 参数化转换到原始参数化 (Λ, Ω) 的过程,使得后续的优化成为可能。
  2. Theorem 2 (最优预算分配):给出了在预算约束下,最优的额外完整样本数 m₁ 和部分样本数 m₂ 的解析解。

    • 直觉:解的形式取决于一个条件 χ₁ ≤ χ₂。如果条件成立,最优策略是只采集部分样本(m₁ = 0, m₂ = b/c₂)。否则,会采集一些完整样本。这个条件本质上是在比较“用完整样本降低方差”和“用部分样本降低方差”的性价比。
    • 解决的技术难点:将离散优化问题松弛为连续优化问题,并利用 v(γ) 的解析形式,通过求导找到了全局最优解。关键步骤是证明最优解一定在预算边界上,从而将二维问题降为一维。
  3. Lemma 1 & Corollary 3 (假设检验):基于最优采样方案,给出了检验 H₀: λ₂₃ ≤ 0 的显著性水平、功效和 p-value 的计算公式。

    • 直觉:这些公式是标准的基于渐近正态性的假设检验,但其中的方差和样本量是根据 Theorem 2 的最优分配来计算的。这使得研究者可以在实验设计阶段就计算出,在给定预算下,能检测到多大规模的效应。
    • 解决的技术难点:处理 null hypothesis 下的方差依赖于未知参数 µ 的问题。Lemma 1 通过取 supremum over µ ≤ 0 来保证显著性水平被控制。

证明路线与技术技巧

  • 整体路线

    1. 推导渐近方差:利用 Cramér's Theorem(Delta Method 的多元版本),从三个样本矩 (m̂₁₂;₁, m̂₁₃;₁, m̂₁₂;₂) 的联合渐近正态性,推导出 λ̂₂₃ 的渐近方差 v(γ)。这一步的关键是计算样本矩的协方差,用到了 Isserlis' theorem [7] 来计算四阶矩。
    2. 建立优化问题:将 v(γ) 代入,并考虑预算约束和总样本量变化,得到关于 (m₁, m₂) 的优化问题(公式 4)。
    3. 求解优化问题:证明最优解在预算边界上,将问题转化为单变量优化。通过求导并令导数为零,得到一个关于中间变量 ξ 的二次方程,从而得到解析解。
    4. 构建假设检验:基于最优采样方案下的渐近分布,构建 Wald-type 检验,并推导出功效和 p-value 的公式。
  • 关键跳跃点

    • 从 v(γ) 到优化问题:将 v(γ) 中的 γ 替换为 m₂/(n+m₁),并除以 (n+m₁) 得到目标函数。这个“除以 (n+m₁)”的操作是关键的,因为它将“方差”和“样本量”的权衡统一到了一个目标函数中。
    • 求解导数方程:求解 ∂h/∂m = 0 的过程需要复杂的代数运算。作者巧妙地引入中间变量 ξ = (b - c₁m) / [c₂(n+m)],将复杂的导数方程简化为一个关于 ξ 的二次方程,从而得到了简洁的解析解。
  • 技术技巧点名

    • Cramér's Theorem (Delta Method):用于推导 λ̂₂₃ 的渐近分布。
    • Isserlis' theorem:用于计算高斯分布下样本矩的协方差(E[X²ᵢX²ⱼ] 和 E[X²ᵢXⱼXₖ])。
    • 拉格朗日乘数法/边界优化:通过证明最优解在预算边界上,将约束优化转化为无约束优化。
    • 变量替换:引入 ξ 简化导数方程。

真实例子与应用

本文有两个真实数据例子和一个反例。

  1. Aggressive Driving 数据集

    • 数据/场景:10932 名司机的驾驶数据,包含环境变量(照明)和驾驶行为(驾驶风格、速度)。通过 PC 算法 [9] 学习到的 DAG 暗示了一个 IV 结构:(X₁, X₂, X₃) = (照明, 驾驶风格, 速度)。
    • 方法应用:假设已有 500 个完整样本,额外预算 300,完整样本成本 1,部分样本成本 0.3。应用 Theorem 2 得到最优分配 (m₁, m₂) ≈ (211, 293)。
    • 结果:优化后的估计方差为 1.012,而基线方法(只采集完整样本)的方差为 1.274,方差降低了 21%
    • 说明的问题:验证了该方法在真实数据上的有效性,展示了在非合成数据中,部分测量确实能带来方差缩减。
  2. ICU Data (MIMIC-IV)

    • 数据/场景:2000 名 ICU 患者数据,使用 Lasix(呋塞米)排水。通过构造,将“护理人员平均处方剂量”作为工具变量,“实际用药量”为 X₂,“排水速率”为 X₃。
    • 方法应用:假设已有 200 个完整样本,额外预算 100,完整样本成本 1,部分样本成本 1/7。应用 Theorem 2 得到最优分配 (m₁, m₂) = (88, 77)。
    • 结果:优化后的估计方差为 8.879×10⁻⁹,而基线方法的方差为 2.809×10⁻⁸,方差降低了 68%
    • 说明的问题:在另一个完全不同的领域(医疗)中,该方法再次展示了显著的方差缩减效果,且效果比第一个例子更明显,说明其适用性较广。
  3. Assembly Line 数据(反例)

    • 数据/场景:来自汽车装配线的 15581 个数据点,具有已知的 IV 结构。
    • 结果:该数据的协方差矩阵使得 Theorem 2 的条件 χ₁ ≤ χ₂ 不成立,因此最优策略是不采集任何部分样本,只采集完整样本。
    • 说明的问题:这个反例非常重要,它证明了本文的方法不是在所有情况下都推荐部分测量。它提供了一个清晰的“何时不该用”的边界,增强了方法的可信度和实用性。

🔎 结论是否比证明窄

  • 结论声称:“Our method can considerably reduce the necessary budget and the number of complete samples.”(摘要)
  • 证明范围:这个结论在 Theorem 2 的框架下是严格证明的,但仅限于高斯线性模型特定的 IV 结构。作者在结论中承认“Even relaxing the Gaussian Graphical Model assumption and comparing the asymptotic normality of maximum likelihood estimators on partial datasets is feasible.”,但这只是一个 conjecture,并未在本文中证明。
  • 具体语句:在结论部分(Section 7),作者写道:“The central idea of Optimization Problem 4, combining asymptotic variances and budgeting, is not limited to instrumental variable problems and can be derived for more complex causal DAGs.” 这是一个泛化的 claim,但本文只在一个非常具体的三元 IV 模型上证明了它。对于更复杂的 DAG,识别条件、方差公式和优化问题的形式都会完全不同,远非“可以推导”这么简单。这是一个典型的“结论比证明宽”的例子。

四、开放问题

  1. 非高斯/非参数化推广:本文的所有理论都建立在高斯线性模型之上。能否将核心思路(部分测量降低渐近方差)推广到非参数或半参数模型?例如,在 Proximal Causal Inference 或更一般的 IV 设定下,如何定义“部分测量”并推导其渐近方差?这扎根于作者在结论中的陈述:“Even relaxing the Gaussian Graphical Model assumption... is feasible.”
  2. 序贯决策:本文的优化是一次性的。一个更自然的扩展是序贯实验设计:在每采集一批样本后,根据更新的参数估计重新求解优化问题,决定下一步采什么。这扎根于作者在结论中的陈述:“...our approach can be extended to sequential settings.”
  3. 更复杂 DAG 下的部分测量:作者声称其核心思想可以推广到更复杂的 DAG。一个具体的问题是:在一个有多个工具变量或多个处理变量的 DAG 中,如何定义“部分测量”的最优集合?例如,是采集 (X₁, X₂) 还是 (X₁, X₃)?这扎根于作者在结论中的泛化 claim。
  4. 与贝叶斯最优实验设计(BOED)的关系:本文完全回避了 BOED 文献。一个值得探索的问题是:在本文的设定下,最大化信息增益(如互信息)的 BOED 方法,与本文最小化渐近方差的方法,会给出相同的采样策略吗?如果不同,哪个更优?这是一个由“明显该被引却没出现”的文献所暗示的 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论