Semiparametric Inference for Half-Trek Estimators in Linear Structural Equation Models¶

作者: Leopold Mareis, Nils Sturma, Mathias Drton
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.26931

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向研究的是：在线性结构方程模型（SEM） 中，当变量间存在潜在混杂（由双向边表示）时，如何从观测协方差矩阵中识别并推断结构系数（即因果效应）。该方向的核心挑战在于，由于混杂的存在，简单的回归估计是有偏的，必须借助工具变量（IV）等策略。该领域已发展出丰富的图形化识别准则，但大多数工作止步于“是否可识别”以及“如何构造估计量”，而缺乏对估计量渐近分布和推断方法的系统研究。本文正是填补这一空白——为一种重要的图形化识别准则（半跋准则，HTC）下的估计量，提供完整的半参数推断理论。

发展脉络（history）¶

奠基工作：工具变量与线性SEM
Wright (1928) 和 Bowden & Turkington (1985) 奠定了经典工具变量（IV）估计的基础。在简单图 X1 → X2 → X3, X2 ↔ X3 中，系数 β23 可通过 β23 = E[X1X3] / E[X1X2] 识别，因为 X1 与 X2 相关但与 ε3 不相关。这是所有后续图形化准则的起点。
主要进展：图形化识别准则的扩展
Brito & Pearl (2006) 和 Tian (2009) 将 IV 思想扩展到更丰富的混杂结构，提出了基于图的识别条件。
Foygel et al. (2012) 提出了半跋准则（HTC），这是第一个多项式时间可构造的准则，适用于任意有向混合图（包括循环图），且对误差协方差结构无限制。HTC 通过为每个节点 v 寻找一个“见证集” Y_v，并构造一个 IV 系统 A_v β_v = b_v 来识别系数。这是本文的直接基础。
Chen et al. (2016, 2017)、Kumor et al. (2019) 和 Barber et al. (2022) 进一步扩展了识别准则，例如使用“辅助变量”或“工具割集”。
García-Puente et al. (2010) 和 Hollering et al. (2026) 则通过 Gröbner 基计算提供了完备的（但计算代价高）识别条件。
当前 Frontier：从识别到推断
尽管 HTC 提供了封闭形式的理性估计量，但其渐近分布和推断方法一直缺失。本文直接回答了这个问题。
在更一般的半参数框架下，Chamberlain (1987) 和 Newey (1990) 刻画了 IV 估计的效率界。Mareis & Drton (2026) 推导了前门估计量的有效影响函数。Witte et al. (2020)、Henckel et al. (2022, 2024) 则研究了无混杂或acyclic图下的方差最优调整集。这些工作为本文提供了理论背景，但并未直接处理 HTC 估计量的推断问题。
本文的位置：本文是第一个为 HTC 估计量提供完整半参数推断理论的工作。它填补了从“识别”到“推断”的关键缺口，将图形化识别理论与现代半参数效率理论连接起来。

子线索聚类¶

线索一：图形化识别准则（Foygel et al., 2012; Brito & Pearl, 2006; Tian, 2009; Chen et al., 2016, 2017; Kumor et al., 2019; Barber et al., 2022）。这一簇关注的是“在什么图形条件下，系数可由协方差矩阵唯一确定”。它们通常给出充分条件，并构造相应的估计量。本文的 HTC 估计量属于这一簇。
线索二：半参数效率与推断（Chamberlain, 1987; Newey, 1990; van der Vaart, 1998; Tsiatis, 2006; Witte et al., 2020; Henckel et al., 2022, 2024; Mareis & Drton, 2026）。这一簇关注的是“给定一个识别策略，如何构造渐近有效的估计量并做推断”。本文属于这一簇，但专注于 HTC 这一特定识别策略。
线索三：完备识别与代数方法（García-Puente et al., 2010; Hollering et al., 2026）。这一簇使用代数几何（Gröbner 基）来刻画所有可识别参数，但计算代价高，不提供封闭形式的估计量。本文的 HTC 是多项式时间可构造的，但并非完备准则。

这个方向在追问的核心问题¶

识别问题：给定一个图 G，哪些结构系数 β 可由观测协方差矩阵 Σ 唯一确定？HTC 给出了一个充分条件，但并非必要条件。
估计问题：对于可识别的系数，如何构造一个封闭形式的、计算上可行的估计量？HTC 提供了这样的估计量。
推断问题：这个估计量的渐近分布是什么？如何计算标准误和置信区间？这是本文回答的核心问题。
效率问题：对于给定的图，是否存在一个达到半参数效率界的估计量？HTC 估计量是否达到这个界？本文指出，在经典单IV情形下是，但在更复杂图中通常不是。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者明确指出，尽管 HTC 提供了封闭形式的估计量，但“no asymptotic distribution, no standard errors, no confidence regions, and no such theory has been available”（第1页）。因此，本文是“显然的下一步”——为 HTC 估计量建立完整的推断理论。
哪些竞争路线被他淡化或回避了：
作者淡化了完备识别准则（如 Gröbner 基方法）的实用性，称其“计算代价高”，而 HTC 是“多项式时间可构造的”。这暗示了 HTC 是更实用的选择。
作者回避了非参数或半参数方法（如双机器学习）在非线性因果效应中的应用，因为本文专注于线性 SEM。
什么明显该被引 / 该存在、却没出现在 intro 里？
没有引用关于弱工具变量的文献（如 Stock & Yogo, 2005）。在 Fulton Fish Market 例子中，wave3 的 first-stage 相关性仅为 0.38，可能是一个弱工具变量，但本文未讨论其对推断的影响。
没有引用关于多阶段估计中不确定性传播的通用理论（如 Newey & McFadden, 1994 中的两阶段 M-估计量）。本文的递归校正本质上是一种多阶段估计，但作者选择从影响函数的角度直接推导，而非引用通用理论。

张力¶

未见明显对立引用。所有被引工作都沿着“从识别到推断”的渐进路径发展，彼此之间没有根本矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
V：节点集合，每个节点对应一个观测变量 X_v。
D：有向边集合，w → v 表示 w 是 v 的父节点，系数为 β_{wv}。
B：双向边集合，v ↔ w 表示 ε_v 和 ε_w 相关（潜在混杂）。
pa(v)：v 的父节点集合。
sib(v)：v 的兄弟节点集合（通过双向边相连）。
β：|V| × |V| 参数矩阵，β_{wv} 是 w → v 的系数，若 w → v ∉ D 则 β_{wv} = 0。
ε：|V| 维误差向量，均值为 0，协方差矩阵为 Ω。ε_v 和 ε_w 可能相关当且仅当 v ↔ w ∈ B。
X：|V| 维观测向量，满足 X = β^T X + ε，即 X = (I - β)^{-T} ε。
Σ：X 的协方差矩阵，Σ = E[XX^T]。
Y_v：节点 v 的见证集，用于识别 β_v（即 pa(v) → v 的系数向量）。
htr(v)：从 v 出发通过半跋（half-trek）可达的节点集合（不包括 v 和 sib(v)）。
A_v：HTC 相关性矩阵，A_v = E[Z_{Y_v} X_{pa(v)}^T]，其中 Z_{Y_v} 是工具向量。
b_v：E[Z_{Y_v} X_v]。
ϕ_{β_v}：β_v 的影响函数（influence function），用于刻画估计量的渐近分布。
R_v：行贡献向量，其元素 R_{y,v} 是识别方程第 y 行的影响函数。
模型：
线性结构方程模型：X_v = Σ_{w ∈ pa(v)} β_{wv} X_w + ε_v，对所有 v ∈ V。
误差结构：ε 满足连通集马尔可夫性质：对于任意在 (V, B) 中连通的子集 W，ε_W 与 ε_{V \ (W ∪ N_B(W))} 独立。这等价于 ε 的协方差矩阵 Ω 在双向边结构下具有特定的稀疏模式。
半参数模型：β 是有限维参数（感兴趣），ε 的分布是无限维 nuisance。模型仅假设 ε ∈ L^4_0（四阶矩有限）和 Hellinger 可微性。
可观测数据：
可观测：X = (X_v)_{v ∈ V} 的 i.i.d. 样本 X^{(1)}, ..., X^{(n)}。我们可以计算样本协方差矩阵 ˆΣ。
不可观测 / 潜在：误差 ε 本身不可观测。结构系数 β 是我们要估计的目标。ε 的分布（包括其协方差 Ω 和高阶矩）是 nuisance。

第二步：讲最小内核¶

最简特例：经典单工具变量（IV）情形

考虑最简单的图：X_1 → X_2 → X_3，且 X_2 ↔ X_3（即 X_2 和 X_3 的误差相关）。这里 V = {1, 2, 3}，pa(3) = {2}，sib(3) = {2}。我们想估计 β_{23}（X_2 对 X_3 的因果效应）。

问题：由于 X_2 ↔ X_3，X_2 与 ε_3 相关，OLS 回归 X_3 ~ X_2 是有偏的。
HTC 识别：对于节点 v = 3，我们需要一个见证集 Y_3 满足 HTC：
|Y_3| = |pa(3)| = 1。
Y_3 ∩ ({3} ∪ sib(3)) = Y_3 ∩ {2, 3} = ∅。
存在从 Y_3 到 pa(3) = {2} 的无侧交半跋系统。

取 Y_3 = {1}。检查条件： - |{1}| = 1 ✓。 - 1 ∉ {2, 3} ✓。 - 存在半跋 1 → 2（从 1 到 2 的有向路径），且 Left({1→2}) = {1}，Right({1→2}) = {2}，无侧交 ✓。

因此 Y_3 = {1} 是一个有效见证集。

工具构造：由于 1 ∉ htr(3)（因为 htr(3) 是从 3 出发的半跋可达集，这里 3 没有出边，所以 htr(3) = ∅），1 是外部见证，工具 Z_1 = X_1（原始变量）。
识别方程：
A_3 = E[Z_1 X_2] = E[X_1 X_2]（一个标量）。
b_3 = E[Z_1 X_3] = E[X_1 X_3]。
识别方程：A_3 β_{23} = b_3，即 E[X_1 X_2] β_{23} = E[X_1 X_3]。
因此 β_{23} = E[X_1 X_3] / E[X_1 X_2]。这就是经典的 Wald 估计量（或 2SLS 估计量）。
估计：给定样本，ˆβ_{23} = (1/n Σ X_1^{(i)} X_3^{(i)}) / (1/n Σ X_1^{(i)} X_2^{(i)})。
推断（本文的核心贡献）：
影响函数：根据 Theorem 7，ϕ_{β_{23}} = A_3^{-1} R_{1,3} = (1 / E[X_1 X_2]) * X_1 ε_3，其中 ε_3 = X_3 - β_{23} X_2。这正是经典 2SLS 的影响函数。
渐近方差：V_{23} = E[ϕ_{β_{23}}^2] = E[X_1^2 ε_3^2] / (E[X_1 X_2])^2。
推断：√n (ˆβ_{23} - β_{23}) → N(0, V_{23})。我们可以用样本矩估计 V_{23}，从而构造置信区间和 Wald 检验。

这个特例说明了什么？ - 它展示了 HTC 框架如何退化为经典 IV 估计。 - 它揭示了本文的核心思想：影响函数 ϕ_{β_v} 由工具 Z_y 和结构残差 ε_v 的乘积组成，再乘以一个归一化矩阵 A_v^{-1}。 - 当有内部见证（即工具依赖于先前估计的系数）时，影响函数会包含递归校正项，这是本文超越经典 IV 的关键技术贡献。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：对于线性结构方程模型中由半跋准则（HTC）识别的结构系数，推导其估计量的渐近分布，并建立完整的推断方法（置信区间、Wald 检验）。
核心工具 / 方法：半参数影响函数（influence function）理论，结合递归校正项来处理内部见证（即工具依赖于先前估计的系数）带来的不确定性传播。
主要结论：HTC 估计量的影响函数为 ϕ_{β_v} = A_v^{-1} R_v，其中 R_v 包含递归校正项；该估计量是渐近正态的，其方差可通过递归下降 HTC 序计算为有限个四阶矩的闭式表达式；基于此，可构造有效的置信区间和 Wald 检验。

关键设定与假设¶

设定：
图 G = (V, D, B) 是任意有向混合图（可含循环）。
参数空间 B = {β ∈ R^{|V|×|V|} : β_{wv}=0 if w→v ∉ D, det(I-β) ≠ 0}。
误差空间 E = {ε ∈ L^4_0 : ε 满足连通集马尔可夫性质}。这比假设误差独立或服从特定分布更弱，仅要求误差的协方差结构与双向边 B 一致。
模型 M_G = {P_{(β, ε)} : β ∈ B, ε ∈ E} 是半参数的：β 是有限维参数，ε 的分布是无限维 nuisance。
假设：
A.(i) Hellinger 可微性：所有通过 M_G 的参数路径在真值处是二次均值可微的。这是 RAL（正则渐近线性）估计量理论的标准条件。
A.(ii) 非退化性：对所有 v ∈ V，HTC 矩阵 A_v 可逆。由 Foygel et al. (2012, Lemma 2)，det(A_v) 是 (β, Ω) 的非零多项式，因此可逆性在参数空间的一个稠密开集上成立（“generic”条件）。
相比已有文献的放宽或强化：
放宽：允许循环图（det(I-β) ≠ 0 是唯一约束），允许任意误差协方差结构（只要满足连通集马尔可夫性质），仅要求四阶矩有限（而非高斯性）。
强化：假设 HTC 识别成立（即存在见证集族和 HTC 序），且 A_v 可逆。这比“参数可识别”更强，因为 HTC 只是充分条件。

主要结果¶

Theorem 7 (HTC 影响函数)：ϕ_{β_v} = A_v^{-1} R_v 是 β_v 在 M_G 中的一个影响函数。对于边 p_j → v，ϕ_{β_{p_j v}} = e_j^T A_v^{-1} R_v。
直觉：R_v 的每个元素 R_{y,v} 是识别方程第 y 行的“残差”的影响函数。对于外部见证（y ∉ htr(v)），R_{y,v} = X_y ε_v，即工具与残差的乘积。对于内部见证（y ∈ htr(v)），R_{y,v} = ε_y ε_v - Σ_{q ∈ pa(y)} E[X_q ε_v] ϕ_{β_{qy}}，其中第二项是递归校正项，它减去了由于估计 β_y（即 y 的父节点系数）所带来的不确定性。
必要条件：A_v 可逆（Assumption A.(ii)）。
解决的技术难点：处理内部见证带来的不确定性传播。作者通过归纳法（induction on HTC order ≺）来证明 ϕ_{β_v} 满足影响函数的定义（即 E[ϕ_{β_v} S] = ˙β_v 对所有参数路径成立）。归纳步骤中，内部见证的校正项恰好抵消了从 β_y 的路径导数中引入的额外项。
Proposition 9 (递归方差公式)：√n (ˆβ_{v,n} - β_v) → N(0, V_v)，其中 V_v = A_v^{-1} E[R_v R_v^T] A_v^{-T}。公式给出了 E[R_{a,v} R_{b,v}] 的三种情况（a, b 均为外部、一内一外、均为内部）的展开式。
直觉：方差是“三明治”形式。内部见证的校正项通过 ϕ_{β_{qy}} 引入额外的协方差项。
必要条件：ε ∈ L^4_0 保证 R_v ∈ L^2_0，从而方差有限。
解决的技术难点：证明方差公式是递归可计算的。Lemma 10 表明，每个交叉方差 E[ϕ_{β_{qa}} X_b ε_v] 都可以通过递归下降 HTC 序，最终表示为有限个四阶观测矩（如 E[X_y ε_a X_b ε_v]）的闭式表达式。递归在 Y_u ∩ htr(u) = ∅ 的节点处终止。
Proposition 12 (置信区域与 Wald 检验)：基于渐近正态性，构造了：
(i) 置信椭球：{β : n(ˆβ_v - β)^T ˆV_v^{-1} (ˆβ_v - β) ≤ χ^2_{|pa(v)|, 1-α}}。
(ii) 边际区间：ˆβ_{p_j v} ± z_{α/2} √(ˆV_v[j,j]/n)。
(iii) Wald 检验：W_n = n(Cˆβ_v - c)^T (CˆV_v C^T)^{-1} (Cˆβ_v - c) → χ^2_r 在 H_0: Cβ_v = c 下。

证明路线与技术技巧¶

整体路线：
建立识别方程：对于每个节点 v，HTC 给出一个线性系统 A_v β_v = b_v，其中 A_v 和 b_v 是 (β, Ω) 的函数。
推导影响函数：对识别方程沿任意参数路径求导，得到 ϕ_{β_v} = A_v^{-1} (ϕ_{b_v} - (dA_v) β_v)。关键在于计算 ϕ_{b_v} 和 (dA_v) 的每个分量，即 ϕ_{M_y(t)}（其中 M_y(t) = E[Z_y X_t]）。
处理内部见证：对于 y ∈ htr(v)，Z_y = ε_y 依赖于 β_y。因此 ϕ_{M_y(t)} 包含来自 ϕ_{β_{qy}} 的校正项（Lemma 5）。这通过归纳法处理：假设 ϕ_{β_{qy}} 已知（因为 y ≺ v），然后代入。
构造行贡献：将 ϕ_{M_y(v)} 和 ϕ_{M_y(p)} 组合成 R_{y,v}（Lemma 6），得到简洁形式。
验证影响函数性质：通过归纳法证明 E[ϕ_{β_v} S] = ˙β_v（Theorem 7 的证明）。关键步骤是，对于内部见证，校正项恰好抵消了从 β_y 的路径导数中引入的项。
计算方差：将 ϕ_{β_v} 代入方差公式，得到 V_v。Lemma 10 证明方差可递归计算为有限个四阶矩。
关键跳跃点：
Lemma 5 的证明：对于内部见证 y ∈ htr(v)，ϕ_{M_y(t)} 的推导需要应用乘积法则（product rule for pathwise derivatives）到 M_y(t) = Σ_{yt} - Σ_{q} β_{qy} Σ_{qt}。这本身是直接的，但关键在于归纳假设：ϕ_{β_{qy}} 是已知的。这保证了校正项 - Σ_{qt} ϕ_{β_{qy}} 是有效的。
Theorem 7 的证明（归纳步骤）：对于内部见证，需要证明 E[R_{y,v} S] = (A_v)_{y,·} ˙β_v。这通过将 R_{y,v} 的表达式代入，并利用 E[Z_y ε_v S] 的路径导数展开式（来自识别方程 E[Z_y ε_v] = 0 的微分）以及归纳假设 E[ϕ_{β_{qy}} S] = ˙β_{qy} 来完成。校正项 - Σ_q E[X_q ε_v] ˙β_{qy} 恰好与路径导数展开式中的 Σ_q E[X_q ε_v] ˙β_{qy} 项抵消，从而得到所需结果。这个抵消是证明的核心，它确保了内部见证的不确定性被正确校正。
技术技巧点名：
影响函数 / 路径导数：整个理论框架建立在 van der Vaart (1998) 的半参数影响函数理论上。
归纳法（Induction on HTC order）：用于处理递归校正项，证明影响函数的有效性（Theorem 7）和方差的可计算性（Lemma 10）。
乘积法则（Product rule for pathwise derivatives）：用于推导 ϕ_{M_y(t)}（Lemma 5）。
Z-估计量理论（Z-estimator theory）：用于建立 √n (ˆβ_v - β_v) = n^{-1/2} Σ ϕ_{β_v} + o_P(1) 的渐近展开（Proposition 9 的证明中提及）。
三明治方差公式（Sandwich variance formula）：V_v = A_v^{-1} E[R_v R_v^T] A_v^{-T}。
Isserlis 定理：在高斯误差下，将四阶矩表示为协方差的多项式，使 V_v 成为模型参数的显式有理函数（Proposition 9 后提及）。

真实例子与应用¶

数据：Fulton Fish Market 数据集（Graddy, 1995; Angrist et al., 2000），包含 n=97 天的批发 whiting 交易记录。变量包括：log 价格（supply）、log 数量（demand）、2 天和 3 天移动平均浪高（wave2, wave3）。
场景：供给和需求是同时决定的，且误差相关（由双向边 supply ↔ demand 表示）。浪高影响供给（恶劣天气减少捕捞）但不直接影响需求，因此是供给方程的自然工具变量。目标参数是需求弹性 δ = β_{supply, demand}。
方法应用：
图结构：supply → demand 和 demand → supply 形成循环，supply ↔ demand 表示混杂。
HTC 识别：pa(demand) = {supply}，sib(demand) = {supply}。见证集 Y_demand = {wave2}（或 {wave3}），因为 wave2 ∉ {supply, demand} 且存在半跋 wave2 → supply。由于 wave2 ∉ htr(demand)，它是外部见证，工具就是原始变量 X_{wave2}。
估计：使用 htcfit() 函数，得到 ˆδ = -0.8410（使用 wave2），标准误 0.3827，z = -2.1976，p = 0.028。这显著为负，与经济学直觉一致（需求曲线向下倾斜）。
结果：
与 Angrist et al. (2000) 的估计 -1.01 (SE 0.42) 在一个标准误内一致。
使用 wave3（更弱的工具，first-stage 相关性从 0.49 降至 0.38）得到 ˆδ = -0.7611 (SE 0.4246, p = 0.073)，仍在 wave2 结果的一个标准误内，但显著性降低。
这个例子想说明什么：
验证理论：展示了 HTC 推断方法在真实数据上的完整工作流，从图构建到估计、标准误、p 值。
展示实用性：处理了经典的同时方程模型，且标准误是分布自由的（仅需四阶矩有限），无需假设误差正态性。
对比工具强度：通过比较 wave2 和 wave3 的结果，直观展示了 weaker instrument 如何导致更大的标准误和更不显著的检验。

🔎 结论是否比证明窄¶

窄结论：Theorem 7 和 Proposition 9 的证明依赖于 A_v 可逆的假设（Assumption A.(ii)）。作者明确指出，这只是一个“generic”条件，即 det(A_v) = 0 的参数集是零测集。因此，结论在几乎所有参数值下成立，但并非所有。论文没有讨论当 A_v 接近奇异时（即弱工具变量问题）的有限样本行为。
泛泛 claim：作者在 Remark 8 中声称“The HTC estimator is semiparametrically efficient in the classical single-instrument IV case”，这是正确的，因为此时 ϕ_{β_{pv}} = X_y ε_v / E[X_y X_p] 正是 Chamberlain (1987) 给出的有效影响函数。但对于更复杂的图，作者只是说“for which directed mixed graphs efficiency holds within the HTC class has yet to be characterized”，这是一个开放问题，而非 claim。
Conjecture：作者在 Conclusion 中提出两个开放问题，其中第二个是“for which directed mixed graphs efficiency holds within the HTC class”。这明确是一个 conjecture，而非已证明的结论。

四、开放问题¶

方差最优的见证集选择：HTC 算法（如 SEMID 包）只输出一个有效的见证集，但 Figure 3 显示，不同的有效见证集会导致估计方差有数量级的差异。目前没有多项式时间算法来选择方差最小的见证集。扎根于：Remark 11 和 Conclusion 中的第一个开放问题。
HTC 估计量的半参数效率：在经典单 IV 情形下，HTC 估计量是有效的。但对于哪些更复杂的图，HTC 估计量（使用特定见证集）能达到半参数效率界？扎根于：Remark 8 和 Conclusion 中的第二个开放问题。
弱工具变量下的有限样本性质：本文的渐近理论假设 A_v 可逆且样本量足够大。当工具变量很弱（如 Fulton Fish Market 中的 wave3）时，A_v 接近奇异，有限样本下的推断（如置信区间覆盖率和检验水平）可能严重偏离名义水平。本文未讨论这一点。扎根于：Assumption A.(ii) 和 Fulton Fish Market 例子中 wave3 的低 first-stage 相关性。
扩展到非线性或非参数模型：本文严格限于线性 SEM。能否将 HTC 的思想（图形化识别 + 递归校正影响函数）推广到更一般的非线性因果模型（如非参数结构方程模型）？扎根于：本文的引言和结论均未提及此方向，但这是一个自然的延伸。

Maintained by 陈星宇 · Homepage · Source on GitHub