跳转至

Semiparametric Inference for Half-Trek Estimators in Linear Structural Equation Models

作者: Leopold Mareis, Nils Sturma, Mathias Drton
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.26931


一、领域脉络与小综述

这个方向是什么

这个子方向研究的是:在线性结构方程模型(SEM) 中,当变量间存在潜在混杂(由双向边表示)时,如何从观测协方差矩阵中识别推断结构系数(即因果效应)。该方向的核心挑战在于,由于混杂的存在,简单的回归估计是有偏的,必须借助工具变量(IV)等策略。该领域已发展出丰富的图形化识别准则,但大多数工作止步于“是否可识别”以及“如何构造估计量”,而缺乏对估计量渐近分布和推断方法的系统研究。本文正是填补这一空白——为一种重要的图形化识别准则(半跋准则,HTC)下的估计量,提供完整的半参数推断理论。

发展脉络(history)

  1. 奠基工作:工具变量与线性SEM
  2. Wright (1928)Bowden & Turkington (1985) 奠定了经典工具变量(IV)估计的基础。在简单图 X1 → X2 → X3, X2 ↔ X3 中,系数 β23 可通过 β23 = E[X1X3] / E[X1X2] 识别,因为 X1X2 相关但与 ε3 不相关。这是所有后续图形化准则的起点。

  3. 主要进展:图形化识别准则的扩展

  4. Brito & Pearl (2006)Tian (2009) 将 IV 思想扩展到更丰富的混杂结构,提出了基于图的识别条件。
  5. Foygel et al. (2012) 提出了半跋准则(HTC),这是第一个多项式时间可构造的准则,适用于任意有向混合图(包括循环图),且对误差协方差结构无限制。HTC 通过为每个节点 v 寻找一个“见证集” Y_v,并构造一个 IV 系统 A_v β_v = b_v 来识别系数。这是本文的直接基础。
  6. Chen et al. (2016, 2017)Kumor et al. (2019)Barber et al. (2022) 进一步扩展了识别准则,例如使用“辅助变量”或“工具割集”。
  7. García-Puente et al. (2010)Hollering et al. (2026) 则通过 Gröbner 基计算提供了完备的(但计算代价高)识别条件。

  8. 当前 Frontier:从识别到推断

  9. 尽管 HTC 提供了封闭形式的理性估计量,但其渐近分布和推断方法一直缺失。本文直接回答了这个问题。
  10. 在更一般的半参数框架下,Chamberlain (1987)Newey (1990) 刻画了 IV 估计的效率界。Mareis & Drton (2026) 推导了前门估计量的有效影响函数。Witte et al. (2020)Henckel et al. (2022, 2024) 则研究了无混杂或acyclic图下的方差最优调整集。这些工作为本文提供了理论背景,但并未直接处理 HTC 估计量的推断问题。

  11. 本文的位置:本文是第一个为 HTC 估计量提供完整半参数推断理论的工作。它填补了从“识别”到“推断”的关键缺口,将图形化识别理论与现代半参数效率理论连接起来。

子线索聚类

  • 线索一:图形化识别准则(Foygel et al., 2012; Brito & Pearl, 2006; Tian, 2009; Chen et al., 2016, 2017; Kumor et al., 2019; Barber et al., 2022)。这一簇关注的是“在什么图形条件下,系数可由协方差矩阵唯一确定”。它们通常给出充分条件,并构造相应的估计量。本文的 HTC 估计量属于这一簇。
  • 线索二:半参数效率与推断(Chamberlain, 1987; Newey, 1990; van der Vaart, 1998; Tsiatis, 2006; Witte et al., 2020; Henckel et al., 2022, 2024; Mareis & Drton, 2026)。这一簇关注的是“给定一个识别策略,如何构造渐近有效的估计量并做推断”。本文属于这一簇,但专注于 HTC 这一特定识别策略。
  • 线索三:完备识别与代数方法(García-Puente et al., 2010; Hollering et al., 2026)。这一簇使用代数几何(Gröbner 基)来刻画所有可识别参数,但计算代价高,不提供封闭形式的估计量。本文的 HTC 是多项式时间可构造的,但并非完备准则。

这个方向在追问的核心问题

  1. 识别问题:给定一个图 G,哪些结构系数 β 可由观测协方差矩阵 Σ 唯一确定?HTC 给出了一个充分条件,但并非必要条件。
  2. 估计问题:对于可识别的系数,如何构造一个封闭形式的、计算上可行的估计量?HTC 提供了这样的估计量。
  3. 推断问题:这个估计量的渐近分布是什么?如何计算标准误和置信区间?这是本文回答的核心问题
  4. 效率问题:对于给定的图,是否存在一个达到半参数效率界的估计量?HTC 估计量是否达到这个界?本文指出,在经典单IV情形下是,但在更复杂图中通常不是

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者明确指出,尽管 HTC 提供了封闭形式的估计量,但“no asymptotic distribution, no standard errors, no confidence regions, and no such theory has been available”(第1页)。因此,本文是“显然的下一步”——为 HTC 估计量建立完整的推断理论。
  • 哪些竞争路线被他淡化或回避了
  • 作者淡化了完备识别准则(如 Gröbner 基方法)的实用性,称其“计算代价高”,而 HTC 是“多项式时间可构造的”。这暗示了 HTC 是更实用的选择。
  • 作者回避了非参数或半参数方法(如双机器学习)在非线性因果效应中的应用,因为本文专注于线性 SEM。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
  • 没有引用关于弱工具变量的文献(如 Stock & Yogo, 2005)。在 Fulton Fish Market 例子中,wave3 的 first-stage 相关性仅为 0.38,可能是一个弱工具变量,但本文未讨论其对推断的影响。
  • 没有引用关于多阶段估计中不确定性传播的通用理论(如 Newey & McFadden, 1994 中的两阶段 M-估计量)。本文的递归校正本质上是一种多阶段估计,但作者选择从影响函数的角度直接推导,而非引用通用理论。

张力

未见明显对立引用。所有被引工作都沿着“从识别到推断”的渐进路径发展,彼此之间没有根本矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • V:节点集合,每个节点对应一个观测变量 X_v
  • D:有向边集合,w → v 表示 wv 的父节点,系数为 β_{wv}
  • B:双向边集合,v ↔ w 表示 ε_vε_w 相关(潜在混杂)。
  • pa(v)v 的父节点集合。
  • sib(v)v 的兄弟节点集合(通过双向边相连)。
  • β|V| × |V| 参数矩阵,β_{wv}w → v 的系数,若 w → v ∉ Dβ_{wv} = 0
  • ε|V| 维误差向量,均值为 0,协方差矩阵为 ε_vε_w 可能相关当且仅当 v ↔ w ∈ B
  • X|V| 维观测向量,满足 X = β^T X + ε,即 X = (I - β)^{-T} ε
  • ΣX 的协方差矩阵,Σ = E[XX^T]
  • Y_v:节点 v见证集,用于识别 β_v(即 pa(v) → v 的系数向量)。
  • htr(v):从 v 出发通过半跋(half-trek)可达的节点集合(不包括 vsib(v))。
  • A_v:HTC 相关性矩阵,A_v = E[Z_{Y_v} X_{pa(v)}^T],其中 Z_{Y_v} 是工具向量。
  • b_vE[Z_{Y_v} X_v]
  • ϕ_{β_v}β_v影响函数(influence function),用于刻画估计量的渐近分布。
  • R_v:行贡献向量,其元素 R_{y,v} 是识别方程第 y 行的影响函数。

  • 模型

  • 线性结构方程模型X_v = Σ_{w ∈ pa(v)} β_{wv} X_w + ε_v,对所有 v ∈ V
  • 误差结构ε 满足连通集马尔可夫性质:对于任意在 (V, B) 中连通的子集 Wε_Wε_{V \ (W ∪ N_B(W))} 独立。这等价于 ε 的协方差矩阵 在双向边结构下具有特定的稀疏模式。
  • 半参数模型β 是有限维参数(感兴趣),ε 的分布是无限维 nuisance。模型仅假设 ε ∈ L^4_0(四阶矩有限)和 Hellinger 可微性。

  • 可观测数据

  • 可观测X = (X_v)_{v ∈ V} 的 i.i.d. 样本 X^{(1)}, ..., X^{(n)}。我们可以计算样本协方差矩阵 ˆΣ
  • 不可观测 / 潜在:误差 ε 本身不可观测。结构系数 β 是我们要估计的目标。ε 的分布(包括其协方差 和高阶矩)是 nuisance。

第二步:讲最小内核

最简特例:经典单工具变量(IV)情形

考虑最简单的图:X_1 → X_2 → X_3,且 X_2 ↔ X_3(即 X_2X_3 的误差相关)。这里 V = {1, 2, 3}pa(3) = {2}sib(3) = {2}。我们想估计 β_{23}X_2X_3 的因果效应)。

  • 问题:由于 X_2 ↔ X_3X_2ε_3 相关,OLS 回归 X_3 ~ X_2 是有偏的。
  • HTC 识别:对于节点 v = 3,我们需要一个见证集 Y_3 满足 HTC:
  • |Y_3| = |pa(3)| = 1
  • Y_3 ∩ ({3} ∪ sib(3)) = Y_3 ∩ {2, 3} = ∅
  • 存在从 Y_3pa(3) = {2} 的无侧交半跋系统。

Y_3 = {1}。检查条件: - |{1}| = 1 ✓。 - 1 ∉ {2, 3} ✓。 - 存在半跋 1 → 2(从 12 的有向路径),且 Left({1→2}) = {1}Right({1→2}) = {2},无侧交 ✓。

因此 Y_3 = {1} 是一个有效见证集。

  • 工具构造:由于 1 ∉ htr(3)(因为 htr(3) 是从 3 出发的半跋可达集,这里 3 没有出边,所以 htr(3) = ∅),1外部见证,工具 Z_1 = X_1(原始变量)。

  • 识别方程

  • A_3 = E[Z_1 X_2] = E[X_1 X_2](一个标量)。
  • b_3 = E[Z_1 X_3] = E[X_1 X_3]
  • 识别方程:A_3 β_{23} = b_3,即 E[X_1 X_2] β_{23} = E[X_1 X_3]
  • 因此 β_{23} = E[X_1 X_3] / E[X_1 X_2]。这就是经典的 Wald 估计量(或 2SLS 估计量)。

  • 估计:给定样本,ˆβ_{23} = (1/n Σ X_1^{(i)} X_3^{(i)}) / (1/n Σ X_1^{(i)} X_2^{(i)})

  • 推断(本文的核心贡献)

  • 影响函数:根据 Theorem 7,ϕ_{β_{23}} = A_3^{-1} R_{1,3} = (1 / E[X_1 X_2]) * X_1 ε_3,其中 ε_3 = X_3 - β_{23} X_2。这正是经典 2SLS 的影响函数。
  • 渐近方差V_{23} = E[ϕ_{β_{23}}^2] = E[X_1^2 ε_3^2] / (E[X_1 X_2])^2
  • 推断√n (ˆβ_{23} - β_{23}) → N(0, V_{23})。我们可以用样本矩估计 V_{23},从而构造置信区间和 Wald 检验。

这个特例说明了什么? - 它展示了 HTC 框架如何退化为经典 IV 估计。 - 它揭示了本文的核心思想:影响函数 ϕ_{β_v} 由工具 Z_y 和结构残差 ε_v 的乘积组成,再乘以一个归一化矩阵 A_v^{-1}。 - 当有内部见证(即工具依赖于先前估计的系数)时,影响函数会包含递归校正项,这是本文超越经典 IV 的关键技术贡献。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:对于线性结构方程模型中由半跋准则(HTC)识别的结构系数,推导其估计量的渐近分布,并建立完整的推断方法(置信区间、Wald 检验)。
  2. 核心工具 / 方法:半参数影响函数(influence function)理论,结合递归校正项来处理内部见证(即工具依赖于先前估计的系数)带来的不确定性传播。
  3. 主要结论:HTC 估计量的影响函数为 ϕ_{β_v} = A_v^{-1} R_v,其中 R_v 包含递归校正项;该估计量是渐近正态的,其方差可通过递归下降 HTC 序计算为有限个四阶矩的闭式表达式;基于此,可构造有效的置信区间和 Wald 检验。

关键设定与假设

  • 设定
  • G = (V, D, B) 是任意有向混合图(可含循环)。
  • 参数空间 B = {β ∈ R^{|V|×|V|} : β_{wv}=0 if w→v ∉ D, det(I-β) ≠ 0}
  • 误差空间 E = {ε ∈ L^4_0 : ε 满足连通集马尔可夫性质}。这比假设误差独立或服从特定分布更弱,仅要求误差的协方差结构与双向边 B 一致。
  • 模型 M_G = {P_{(β, ε)} : β ∈ B, ε ∈ E} 是半参数的:β 是有限维参数,ε 的分布是无限维 nuisance。

  • 假设

  • A.(i) Hellinger 可微性:所有通过 M_G 的参数路径在真值处是二次均值可微的。这是 RAL(正则渐近线性)估计量理论的标准条件。
  • A.(ii) 非退化性:对所有 v ∈ V,HTC 矩阵 A_v 可逆。由 Foygel et al. (2012, Lemma 2),det(A_v)(β, Ω) 的非零多项式,因此可逆性在参数空间的一个稠密开集上成立(“generic”条件)。

  • 相比已有文献的放宽或强化

  • 放宽:允许循环图(det(I-β) ≠ 0 是唯一约束),允许任意误差协方差结构(只要满足连通集马尔可夫性质),仅要求四阶矩有限(而非高斯性)。
  • 强化:假设 HTC 识别成立(即存在见证集族和 HTC 序),且 A_v 可逆。这比“参数可识别”更强,因为 HTC 只是充分条件。

主要结果

  • Theorem 7 (HTC 影响函数)ϕ_{β_v} = A_v^{-1} R_vβ_vM_G 中的一个影响函数。对于边 p_j → vϕ_{β_{p_j v}} = e_j^T A_v^{-1} R_v
  • 直觉R_v 的每个元素 R_{y,v} 是识别方程第 y 行的“残差”的影响函数。对于外部见证(y ∉ htr(v)),R_{y,v} = X_y ε_v,即工具与残差的乘积。对于内部见证(y ∈ htr(v)),R_{y,v} = ε_y ε_v - Σ_{q ∈ pa(y)} E[X_q ε_v] ϕ_{β_{qy}},其中第二项是递归校正项,它减去了由于估计 β_y(即 y 的父节点系数)所带来的不确定性。
  • 必要条件A_v 可逆(Assumption A.(ii))。
  • 解决的技术难点:处理内部见证带来的不确定性传播。作者通过归纳法(induction on HTC order ≺)来证明 ϕ_{β_v} 满足影响函数的定义(即 E[ϕ_{β_v} S] = ˙β_v 对所有参数路径成立)。归纳步骤中,内部见证的校正项恰好抵消了从 β_y 的路径导数中引入的额外项。

  • Proposition 9 (递归方差公式)√n (ˆβ_{v,n} - β_v) → N(0, V_v),其中 V_v = A_v^{-1} E[R_v R_v^T] A_v^{-T}。公式给出了 E[R_{a,v} R_{b,v}] 的三种情况(a, b 均为外部、一内一外、均为内部)的展开式。

  • 直觉:方差是“三明治”形式。内部见证的校正项通过 ϕ_{β_{qy}} 引入额外的协方差项。
  • 必要条件ε ∈ L^4_0 保证 R_v ∈ L^2_0,从而方差有限。
  • 解决的技术难点:证明方差公式是递归可计算的。Lemma 10 表明,每个交叉方差 E[ϕ_{β_{qa}} X_b ε_v] 都可以通过递归下降 HTC 序,最终表示为有限个四阶观测矩(如 E[X_y ε_a X_b ε_v])的闭式表达式。递归在 Y_u ∩ htr(u) = ∅ 的节点处终止。

  • Proposition 12 (置信区域与 Wald 检验):基于渐近正态性,构造了:

  • (i) 置信椭球:{β : n(ˆβ_v - β)^T ˆV_v^{-1} (ˆβ_v - β) ≤ χ^2_{|pa(v)|, 1-α}}
  • (ii) 边际区间:ˆβ_{p_j v} ± z_{α/2} √(ˆV_v[j,j]/n)
  • (iii) Wald 检验:W_n = n(Cˆβ_v - c)^T (CˆV_v C^T)^{-1} (Cˆβ_v - c) → χ^2_rH_0: Cβ_v = c 下。

证明路线与技术技巧

  • 整体路线
  • 建立识别方程:对于每个节点 v,HTC 给出一个线性系统 A_v β_v = b_v,其中 A_vb_v(β, Ω) 的函数。
  • 推导影响函数:对识别方程沿任意参数路径求导,得到 ϕ_{β_v} = A_v^{-1} (ϕ_{b_v} - (dA_v) β_v)。关键在于计算 ϕ_{b_v}(dA_v) 的每个分量,即 ϕ_{M_y(t)}(其中 M_y(t) = E[Z_y X_t])。
  • 处理内部见证:对于 y ∈ htr(v)Z_y = ε_y 依赖于 β_y。因此 ϕ_{M_y(t)} 包含来自 ϕ_{β_{qy}} 的校正项(Lemma 5)。这通过归纳法处理:假设 ϕ_{β_{qy}} 已知(因为 y ≺ v),然后代入。
  • 构造行贡献:将 ϕ_{M_y(v)}ϕ_{M_y(p)} 组合成 R_{y,v}(Lemma 6),得到简洁形式。
  • 验证影响函数性质:通过归纳法证明 E[ϕ_{β_v} S] = ˙β_v(Theorem 7 的证明)。关键步骤是,对于内部见证,校正项恰好抵消了从 β_y 的路径导数中引入的项。
  • 计算方差:将 ϕ_{β_v} 代入方差公式,得到 V_v。Lemma 10 证明方差可递归计算为有限个四阶矩。

  • 关键跳跃点

  • Lemma 5 的证明:对于内部见证 y ∈ htr(v)ϕ_{M_y(t)} 的推导需要应用乘积法则(product rule for pathwise derivatives)到 M_y(t) = Σ_{yt} - Σ_{q} β_{qy} Σ_{qt}。这本身是直接的,但关键在于归纳假设ϕ_{β_{qy}} 是已知的。这保证了校正项 - Σ_{qt} ϕ_{β_{qy}} 是有效的。
  • Theorem 7 的证明(归纳步骤):对于内部见证,需要证明 E[R_{y,v} S] = (A_v)_{y,·} ˙β_v。这通过将 R_{y,v} 的表达式代入,并利用 E[Z_y ε_v S] 的路径导数展开式(来自识别方程 E[Z_y ε_v] = 0 的微分)以及归纳假设 E[ϕ_{β_{qy}} S] = ˙β_{qy} 来完成。校正项 - Σ_q E[X_q ε_v] ˙β_{qy} 恰好与路径导数展开式中的 Σ_q E[X_q ε_v] ˙β_{qy} 项抵消,从而得到所需结果。这个抵消是证明的核心,它确保了内部见证的不确定性被正确校正。

  • 技术技巧点名

  • 影响函数 / 路径导数:整个理论框架建立在 van der Vaart (1998) 的半参数影响函数理论上。
  • 归纳法(Induction on HTC order):用于处理递归校正项,证明影响函数的有效性(Theorem 7)和方差的可计算性(Lemma 10)。
  • 乘积法则(Product rule for pathwise derivatives):用于推导 ϕ_{M_y(t)}(Lemma 5)。
  • Z-估计量理论(Z-estimator theory):用于建立 √n (ˆβ_v - β_v) = n^{-1/2} Σ ϕ_{β_v} + o_P(1) 的渐近展开(Proposition 9 的证明中提及)。
  • 三明治方差公式(Sandwich variance formula)V_v = A_v^{-1} E[R_v R_v^T] A_v^{-T}
  • Isserlis 定理:在高斯误差下,将四阶矩表示为协方差的多项式,使 V_v 成为模型参数的显式有理函数(Proposition 9 后提及)。

真实例子与应用

  • 数据:Fulton Fish Market 数据集(Graddy, 1995; Angrist et al., 2000),包含 n=97 天的批发 whiting 交易记录。变量包括:log 价格(supply)、log 数量(demand)、2 天和 3 天移动平均浪高(wave2, wave3)。
  • 场景:供给和需求是同时决定的,且误差相关(由双向边 supply ↔ demand 表示)。浪高影响供给(恶劣天气减少捕捞)但不直接影响需求,因此是供给方程的自然工具变量。目标参数是需求弹性 δ = β_{supply, demand}
  • 方法应用
  • 图结构:supply → demanddemand → supply 形成循环,supply ↔ demand 表示混杂。
  • HTC 识别:pa(demand) = {supply}sib(demand) = {supply}。见证集 Y_demand = {wave2}(或 {wave3}),因为 wave2 ∉ {supply, demand} 且存在半跋 wave2 → supply。由于 wave2 ∉ htr(demand),它是外部见证,工具就是原始变量 X_{wave2}
  • 估计:使用 htcfit() 函数,得到 ˆδ = -0.8410(使用 wave2),标准误 0.3827z = -2.1976p = 0.028。这显著为负,与经济学直觉一致(需求曲线向下倾斜)。
  • 结果
  • 与 Angrist et al. (2000) 的估计 -1.01 (SE 0.42) 在一个标准误内一致。
  • 使用 wave3(更弱的工具,first-stage 相关性从 0.49 降至 0.38)得到 ˆδ = -0.7611 (SE 0.4246, p = 0.073),仍在 wave2 结果的一个标准误内,但显著性降低。
  • 这个例子想说明什么
  • 验证理论:展示了 HTC 推断方法在真实数据上的完整工作流,从图构建到估计、标准误、p 值。
  • 展示实用性:处理了经典的同时方程模型,且标准误是分布自由的(仅需四阶矩有限),无需假设误差正态性。
  • 对比工具强度:通过比较 wave2wave3 的结果,直观展示了 weaker instrument 如何导致更大的标准误和更不显著的检验。

🔎 结论是否比证明窄

  • 窄结论:Theorem 7 和 Proposition 9 的证明依赖于 A_v 可逆的假设(Assumption A.(ii))。作者明确指出,这只是一个“generic”条件,即 det(A_v) = 0 的参数集是零测集。因此,结论在几乎所有参数值下成立,但并非所有。论文没有讨论当 A_v 接近奇异时(即弱工具变量问题)的有限样本行为。
  • 泛泛 claim:作者在 Remark 8 中声称“The HTC estimator is semiparametrically efficient in the classical single-instrument IV case”,这是正确的,因为此时 ϕ_{β_{pv}} = X_y ε_v / E[X_y X_p] 正是 Chamberlain (1987) 给出的有效影响函数。但对于更复杂的图,作者只是说“for which directed mixed graphs efficiency holds within the HTC class has yet to be characterized”,这是一个开放问题,而非 claim。
  • Conjecture:作者在 Conclusion 中提出两个开放问题,其中第二个是“for which directed mixed graphs efficiency holds within the HTC class”。这明确是一个 conjecture,而非已证明的结论。

四、开放问题

  1. 方差最优的见证集选择:HTC 算法(如 SEMID 包)只输出一个有效的见证集,但 Figure 3 显示,不同的有效见证集会导致估计方差有数量级的差异。目前没有多项式时间算法来选择方差最小的见证集。扎根于:Remark 11 和 Conclusion 中的第一个开放问题。

  2. HTC 估计量的半参数效率:在经典单 IV 情形下,HTC 估计量是有效的。但对于哪些更复杂的图,HTC 估计量(使用特定见证集)能达到半参数效率界?扎根于:Remark 8 和 Conclusion 中的第二个开放问题。

  3. 弱工具变量下的有限样本性质:本文的渐近理论假设 A_v 可逆且样本量足够大。当工具变量很弱(如 Fulton Fish Market 中的 wave3)时,A_v 接近奇异,有限样本下的推断(如置信区间覆盖率和检验水平)可能严重偏离名义水平。本文未讨论这一点。扎根于:Assumption A.(ii) 和 Fulton Fish Market 例子中 wave3 的低 first-stage 相关性。

  4. 扩展到非线性或非参数模型:本文严格限于线性 SEM。能否将 HTC 的思想(图形化识别 + 递归校正影响函数)推广到更一般的非线性因果模型(如非参数结构方程模型)?扎根于:本文的引言和结论均未提及此方向,但这是一个自然的延伸。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论