跳转至

Graphical tools for selecting conditional instrumental sets

作者: L Henckel, M Buttenschoen, M H Maathuis
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文所属的子方向是:在已知因果图(acyclic directed mixed graph, ADMG)的线性结构方程模型下,如何从所有保证一致性的条件工具变量集(conditional instrumental sets)中选取使得两阶段最小二乘(2SLS)估计量渐近方差最小的集合。核心问题是:在 IV 估计中,工具集与协变量集的选择如何影响估计效率?能否仅依赖图形结构(而非系数或误差方差的具体数值)做出最优选择? 目前该方向已有对调整集(adjustment sets)的完整效率理论,但条件工具变量集的图形效率判据尚不成熟,本文试图弥合这一缺口。

发展脉络(history)

奠基工作: - 工具变量法的图形化识别条件可追溯到 Brito & Pearl (2002)Pearl (2009),他们给出了 IV 有效性的图准则(要求工具变量与处理变量之间存在特定路径,且不与结果直接相连等)。本文引用时称其准则“similar to”本文的 Theorem 3.2。 - 调整集的图形刻画则更早成熟:Shpitser et al. (2010) 提出了调整准则(adjustment criterion)并证明其完备性,Perković et al. (2018) 将其推广到祖先图(MAG/CPDAG/PAG)并给出构造算法。

主要进展——调整集效率比较: - Kuroki & Miyakawa (2003), Kuroki & Cai (2004) 最先提出图形准则来比较不同调整集对应的估计量渐近方差大小。 - Henckel et al. (2022)(本文作者之一的前作)在 DAG/CPDAG/MPDAG 下给出了完整的图形判据来比较调整集,并定义了最优调整集(O-set)——即所有有效调整集中渐近方差最小的那个。该结果依赖图结构而不依赖参数值,且被证实在一大类非参数模型中同样成立(Smucler et al., 2022; Runge, 2021)。 - Witte et al. (2020) 给出了 O-set 的更直观刻画:它是 outcome 在“禁止投影图”中的父节点集,并扩展到带隐变量的情形。

当前 frontier——从调整集扩展到条件工具集: - 当存在未观测混杂时,调整集可能不再有效或不再存在,此时需要工具变量(IV)或条件工具变量。Brito & Pearl (2002) 给出了 IV 的图准则,但只处理简单 IV(单一工具,单一处理)。后续有条件工具变量(CIV) 的识别条件,但缺乏效率比较的工具。 - Rotnitzky & Smucler (2020/2022)、Guo et al. (2022) 将调整集效率理论推广至更一般的干预均值和 g-formula 框架,但并未涉及 IV 设定。 - 本文的位置:在已知 ADMG 下,首次给出条件工具变量集(保证 2SLS 一致性的集合)的完备图形刻画,并提供渐近方差公式和三种图形工具(比较、贪心搜索、最优性保证)来选取更高效的集合。 这是从调整集效率理论到工具变量效率理论的直接延伸。

子线索聚类

以下是被引文献大致形成的几条子线索:

  1. 调整集的图形识别与效率(最成熟)
  2. Shpitser et al. (2010) — 调整准则(完备)
  3. Perković et al. (2018) — 推广至 MAG/CPDAG/PAG
  4. Henckel et al. (2022) — 调整集效率比较与最优集准则
  5. Witte et al. (2020) — O-set 的禁止投影刻画
  6. Smucler et al. (2022), Runge (2021) — 隐变量下最优调整集的存在性与算法

  7. 工具变量(IV)的识别与图形条件

  8. Brito & Pearl (2002) — IV 的图形准则
  9. 本文贡献于这一子线索:将 IV 识别推广到条件工具变量集,并首次处理效率问题

  10. 非参数效率与模型简化(交叉线索)

  11. Rotnitzky & Smucler (2020/2022), Guo et al. (2022) — 干预均值的有效估计与变量消除
  12. 这些工作使用了半参数效率界、g-formula 等工具,本文线性 SEM 设定下可视为其参数特例

  13. 后选择推断(post-selection inference)

  14. Berk et al. (2013) — 本文在引言中强调:不能通过先计算所有候选族的2SLS标准差再选最小那个,因为后选择推断会失效。这正是本文为何需要“纯图形”判据(而非数据依赖)的原因。

这个方向在追问的核心问题

  1. 哪些条件工具变量集(CIV sets)能保证 2SLS 估计的一致性? 已有部分图形准则(Brito & Pearl 2002),但未刻画所有线性有效集(linearly valid CIV sets)——即允许误差相关的线性SEM下依然一致的集合。本文的 Theorem 3.2 首次给出充要条件。
  2. 如何比较两个有效 CIV 集在渐近方差上的优劣? 调整集已有完整图形判据(Henckel et al. 2022),但工具集因涉及第一阶段投影矩阵,方差公式更复杂。本文 Theorem 4.1 给出了可直接比较的图形条件。
  3. 是否存在一个保证最优(方差最小)的有效 CIV 集? 调整集中有 O-set,工具集中尚无。本文 Theorem 4.2 给出一个“图形可确保方差最小”的有效 CIV 集(称为“always optimal”),但同时指出并非所有图都存在这样的集合(需满足特定条件)。
  4. 如何避免后选择偏差? 若通过数据搜索方差最小的 CIV 集,会因 post-selection 破坏推断。因此必须使用纯先验图结构判断。

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

作者在引文中将缺口描述为:“Although the problem of finding an efficient IV estimator for a given set of instruments is well studied in econometrics, the problem of selecting efficient instrumental sets or instruments in causal graphical models has received almost no attention.” 从而将本文定位为“显然的下一步”——即把调整集效率理论的自然延伸。他们淡化了以下竞争路线:半参数 DML 方法(Emmenegger & Bühlmann 2021)处理内生性时也可用正则化选择工具变量,但作者将其归入“不需要明确图结构”的另一类,未在正文中深入比较。另外,经济学中关于“最佳工具变量”(optimal instruments, 如 Chamberlain 1987)的文献完全未被讨论——这些工作通常假设非参数结构且能构造达到半参效率界的工具,但可能需要 \(E[Z|X]\) 的估计,而本文的图准则可避免模型选择。这可能是作者有意回避(或认为无关)的选择,值得研究者去查:Chamberlain 式的 IV 效率界与本文图形准则的关系是怎样的?

什么明显该被引/该存在却没出现在 intro?
- 未见对 有限样本性质(如弱工具变量下的偏差)的引用或讨论。弱工具变量问题是 IV 估计的核心实践问题,但本文完全使用渐近方差作为效率准则,并未涉及 bias-variance tradeoff 或弱 IV 下的 finite-sample 表现。这是值得注意的 gap。

张力

被引工作之间未见明显对立。调整集效率理论内部有一致结论:Henckel et al. (2022) 的 O-set 在 DAG 下与 Runge (2021) 的充分必要最优条件一致。但 本文指出:存在一些图结构下没有“图形可保证最优”的 CIV 集(即 Theorem 4.2 不一定能给出),这与调整集(总存在 O-set)形成对比,算是一种非对称性。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

模型(线性结构方程模型 with correlated errors, compatible with a known ADMG)
- 设 \(V\) 为所有观测变量节点集。
- 数据由以下线性 SEM 生成:\(X_j = \sum_{i \in \text{pa}(j)} \beta_{ij} X_i + \epsilon_j\),其中 \(\text{pa}(j)\)\(j\) 在 ADMG \(G\) 中的 有向父节点集
- 误差向量 \(\epsilon = (\epsilon_j)_{j\in V}\) 服从多元正态分布 \(N(0, \Omega)\),且 \(\Omega\) 可非对角(即误差可相关),但相关结构由 ADMG 的双向边(bidirected edges)表示:当且仅当 \(i \leftrightarrow j\)\(G\) 中时,\(\text{Cov}(\epsilon_i, \epsilon_j)\) 可非零。 - ADMG \(G\) 已知,但系数 \(\beta_{ij}\) 和误差协方差 \(\Omega\) 未知。 - 总因果效应(total causal effect):设治疗变量 \(X\),结果变量 \(Y\)(均为 \(V\) 中的节点)。目标量 \(\tau_{yx}\)\(X\)\(Y\)线性因果效应(在 SEM 中,即 \(Y\)\(X\) 的回归系数 \(\beta_{yx}\),但需从所有其他路径中识别出来)。

目标 estimand\(\tau_{yx}\)(标量或向量,取决于 \(X\) 维度)。本文考虑 \(X\) 为标量(单一处理)情形,但方法可推广。

可观测数据:i.i.d. 样本 \((X_i, Y_i, \mathbf{Z}_i, \mathbf{W}_i)\),其中: - \(X\) 为处理变量(内生变量,因受未观测混杂影响); - \(Y\) 为结果变量; - \(\mathbf{Z}\) 为一组候选 工具变量集(instrument set),备选集合由研究者根据图给出; - \(\mathbf{W}\) 为一组可选 协变量集(covariates),可加入 2SLS 的第一阶段和第二阶段回归以控制混杂或提高效率(类似调整集的作用)。 - 注意:本文中 条件工具变量集 是一个有序对 \((Z, W)\),其中 \(Z\) 是工具(可多元),\(W\) 是条件集(covariates)。2SLS 估计量即为:第一阶段用 \(W\)\(Z\) 预测 \(X\),然后将 \(Y\) 对预测值 \(X̂\)\(W\) 做回归,取 \(X̂\) 的系数作为 \(\hat{\tau}_{yx}\)

哪些是不可观测的(潜在量)
- 误差项 \(\epsilon\) 与未观察到的混杂因素(由双向边表示)。本质上,ADMG 中的双向边编码了未观测的共同原因的存在。 - 本文不处理潜变量节点,而是用图结构(双向边)来编码潜变量的影响,即将潜变量“投影”到观测变量间的双向边上(参见 Richardson et al. 2017 的 latent projection)。

符号约定(部分来自论文,部分通用): - \(G = (V, E)\):ADMG,有向边(\(\rightarrow\))与双向边(\(\leftrightarrow\))。 - \(X, Y \in V\):处理与结果。 - \((Z, W)\):一个 条件工具变量集(conditional instrumental set),其中 \(Z \subseteq V \setminus \{X,Y\}\) 为工具变量集,\(W \subseteq V \setminus \{X,Y\}\) 为条件集(可空集)。 - \(\text{An}(A)\):节点集 \(A\)\(G\) 中的祖先(ancestors)。 - \(\text{Pa}(A)\):父节点集。 - \(\text{Forb}(X,Y)\):“forbidden projection” 中 \(Y\) 的父节点集(用于调整集效率,见 Witte et al. 2020)。 - \(\beta_{Y|X}\):2SLS 的渐近方差矩阵;本文具体给出的是 \(\hat{X}\) 对应的那个 entry 的渐近方差 \(n \cdot \text{Var}(\hat{\tau}_{yx})\)

第二步:最小内核

本文的核心数学困难在于:在已知 ADMG 下,如何比较两个有效条件工具集 \((Z_1, W_1)\)\((Z_2, W_2)\) 对应的 2SLS 估计量的渐近方差大小,且仅通过看图就能决定?

最简特例(选择最小非平凡图)
考虑只有一个未观测混杂变量的简单 ADMG,如图 1(本文 Figure 1 的简化版本): - 节点:\(Z\)(工具变量)、\(X\)(处理)、\(Y\)(结果)、\(C\)(观测协变量)。 - 有向边:\(Z \rightarrow X\)\(X \rightarrow Y\)\(C \rightarrow X\)\(C \rightarrow Y\)。 - 双向边:\(X \leftrightarrow Y\)(表示未观测混杂影响两者)。 - 假设 \(Z\)\(C\) 独立,且 \(Z\) 不与 \(Y\) 直接相连(单向或双向)。 - 目标是估计 \(\tau_{yx}\)\(X \rightarrow Y\) 的系数)。

可观测数据:样本 \(\{(z_i, x_i, y_i, c_i)\}_{i=1}^n\)。真实模型: \(x = \gamma z + \delta c + \eta\)\(y = \tau x + \beta c + \epsilon\),其中 \(\text{Cov}(\eta, \epsilon) \neq 0\)(因双向边)。

候选条件工具变量集: 1. \((Z_1 = \{Z\}, W_1 = \emptyset)\):简单 IV,用 \(Z\) 作为工具,无协变量。 2. \((Z_2 = \{Z\}, W_2 = \{C\})\):用 \(Z\) 作为工具,\(C\) 作为条件协变量(第一阶段回归含 \(C\),第二阶段也含 \(C\))。

传统认识:两者都是线性有效的(linearly valid),即 \(Z\) 在条件于 \(W\) 下与误差独立且与 \(X\) 相关。但哪个更高效?

本文的关键思想(在调整集效率中的对应): - 添加条件变量 \(C\) 可以“屏蔽”某些路径,降低误差方差,但也消耗了自由度。在 2SLS 中,加入 \(C\) 既进入第一阶段也进入第二阶段,影响方差。 - 本文的图形方差公式(Theorem 4.1 推论)指出:可以仅通过检查 \(C\) 在图中的位置(是否在 \(Y\) 的“禁止区”中)来判断 \(W = \{C\}\) 是否降低方差。具体而言,如果 \(C\)\(Y\)可调整的祖先 且不属于 \(X\) 的后代(或满足某种“非禁止”条件),则添加 \(C\) 不会增大渐近方差,甚至可能降低。 - 在例中,\(C\)\(Y\) 的父节点(有向边 \(C \rightarrow Y\))且不是 \(X\) 的后代,不在任何禁止集合中。因此 \((Z, \{C\})\)\((Z, \emptyset)\) 更高效(渐近方差更小)。这一结论可以直接从该 ADMG 的图形结构读出,无需计算任何系数。

如果整篇论文的一般化:定理从这样一个简单例子推广到一般 ADMG,允许 \(Z\)\(W\) 为任意集合,要求刻画“有效”的充要图形条件(Theorem 3.2),并推导出渐近方差的显式公式,然后基于该公式得到图形比较准则(Theorem 4.1)。最简例子已经抓住了核心:在条件集上添加某些类型的变量可以提升效率,且不需要知道参数值


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在已知 ADMG 的线性结构方程模型下,如何从所有线性有效条件工具变量集(linearly valid conditional instrumental sets)中选取使 2SLS 估计量渐近方差最小的集合,且选择过程不依赖未知参数、仅依赖图结构。
  2. 核心工具/方法:推导了 2SLS 估计量关于条件工具集的新渐近方差公式;基于此提出三个图形工具——(i) 直接比较两集合方差的图形判据,(ii) 贪心加入协变量以降低方差的算法,(iii) 一个图形可确保方差最小的线性有效条件工具集(称为“always optimal”)。
  3. 主要结论:存在一种仅由图结构决定的偏序关系来比较某些有效工具集的效率;贪心算法可逐步降低方差;并非所有图中都存在唯一的“always optimal”集合,但在存在时其构造仅需图准则。

关键设定与假设

论文使用的主要记号与假设(在第二节基础上补全)

  • ADMG \(G\):acyclic directed mixed graph,允许有向边和双向边,且整体无有向环。
  • 线性 SEM with correlated errors:所有变量可表示为 \(X = (I - B)^{-1} \epsilon\),其中 \(B\) 严格上三角(无有向环),\(\epsilon \sim N(0, \Omega)\)\(\Omega\) 的非对角非零元素对应双向边。误差可相关是本文与标准工具变量文献的主要区别之一——标准文献通常假设误差独立(同方差或异方差但无相关),本文允许通过双向边实现任意相关结构。
  • 线性有效性(linear validity):条件工具集 \((Z, W)\) 称为 linearly valid 如果它满足两个条件:(a) \(Z\) 在条件于 \(W\) 下与误差相关(即 rank condition 在这类线性模型下成立);(b) \(Z\) 在条件于 \(W\) 下与误差不相关(即 exogeneity)。本文 Theorem 3.2 给出了只有一个有向路径从 \(X\)\(Y\) 时的充要图形条件,基于“no directed path from \(X\) to \(Z\)”和“no bidirected path from \(Z\) to \(Y\) that can be blocked by \(W\)”等。
  • 假设:论文假定了 exclusive restriction:除了 \(X\)\(Y\) 的直接效应外,没有其他从 \(X\)\(Y\) 的有向路径(也就是唯一处理路径,或者说是处理效应单一)。这在实际中是一个很强的假设,作者在结论部分也提及推广。

与已有文献相比: - 相比调整集效率文献(Henckel et al. 2022),本文增加了双向边和条件工具集的复杂性。 - 相比标准 IV 文献(Brito & Pearl 2002),本文首次提供比较效率的图形判据。 - 弱化了 误差独立假设(允许任意相关),强化了 线性结构方程(而非非参数)。

主要结果

定理 3.2(线性有效条件工具集的图形刻画)
陈述:给定 ADMG \(G\) 和节点 \(X,Y\)(假设只有一条有向路径 \(X \rightarrow Y\),且 \(X\) 不是 \(Y\) 的祖先除该路径外),则 \((Z,W)\) 是线性有效的当且仅当: 1. 在 \(G\) 中不存在从 \(X\)\(Z\) 的有向路径(否则 \(Z\) 会被 \(X\) 影响,通过 \(X\) 与误差相关); 2. 在子图 \(G_{Y}\)(删除 \(Y\) 以及从 \(Y\) 出发的边后)中,\(Z\)\(Y\)\(W\) 的集合 \(d\)-分离,且该分离的路径不能经过 \(X\)(以避免开放路径)。 直觉:\(W\) 必须阻断所有从 \(Z\)\(Y\) 但不经过 \(X\) 的后门路径(包括双向边路径),同时不能阻断 \(Z\)\(X\) 的路径。

定理 4.1(图形方差比较判据)
给定两个线性有效条件工具集 \((Z_1, W_1)\)\((Z_2, W_2)\),若满足:(i) \(Z_1 \subseteq Z_2\)\(W_1 \subseteq W_2\),且 (ii) 某些关于禁止投影的条件(涉及 \(Y\) 的祖先和后代关系)成立,则 \((Z_2, W_2)\) 对应的 2SLS 估计量的渐近方差 ≤ \((Z_1, W_1)\) 的。该判据不要求阅读误差方差或系数,仅依赖图。 这一判据实际上是反映了:若在条件集中加入“好”的变量(属于 \(\text{Pa}_{G_{\text{forbidden}}}(Y)\) 或适当前代等)且工具集扩大(更多工具时,通常效率提高),方差不会增大。反之,添加“坏”变量(如 \(Y\) 的后代或某些在前作文中被定义为“禁止”的变量)会使方差增大。

定理 4.2(图形确保最优的线性有效条件工具集)
定义集合 \(Z^* = \text{Forb}(X,Y) \cap \text{Adj}_{G}(X)\) (禁止投影中 \(Y\) 的父节点集与 \(X\) 的邻接集的交集)和 \(W^* = \text{Forb}(X,Y)\),那么在某些条件下(例如 \(X\) 不是 \(Y\) 的后代,\(Z^*\)\(X\) 之间不存在禁止路径等),\((Z^*, W^*)\) 是线性有效的,且其渐近方差不大于任何其他线性有效条件工具集的大小(即该集合是“always optimal”)。
但作者指出这个集合并非总是存在(Figure 5 给出了反例,其中 \(W^*\) 包含 \(Y\) 的后代导致图形条件不成立),且证明该最优性只在限制在某些图类下可图形保证。

贪心算法(Section 5.1)
输入:一个已知的线性有效条件工具集 \((Z_0, W_0)\)
输出:一个逐步加入变量的算法,每一步从候选集 \(C\) 中选择一个变量 \(c\),使得加入 \(c\)\(W\) 后(\(Z\) 不变)满足图形判据(Theorem 4.1 的条件),故渐近方差下降。因为判据只检查“添加该变量是否被允许且不会增大方差”,算法保证每一步的改进。因为图中候选变量有限,算法终止于一个局部最优(无法再添加任何变量而不违反图形条件)。

证明路线与技术技巧(理论型)

整体路线(推导渐近方差公式 → 图形比较 → 构造最优集)

  1. 2SLS 渐近方差公式推导:对于线性有效条件工具集 \((Z,W)\),2SLS 估计量相当于工具 \(Z_{*} = Z - \hat{E}[Z|W]\) 的 IV 估计(部分回归出 \(W\) 的影响)。论文利用 Buja et al. (2014) 的 Corollary 11.1(关于随机预测变量的 sandwich 方差公式),得到渐近方差表达为 \(\text{Var}(n^{1/2} \hat{\tau}) = \sigma^2 / ( \text{Cov}(X, \tilde{Z})^2 / \text{Var}(\tilde{Z}) )\) 的形式,其中 \(\tilde{Z}\)\(Z\)\(W\) 回归后的残差。关键跳跃:作者将其转写为 图结构可解释的形式——将 \(\text{Cov}(X, \tilde{Z})\)\(\text{Var}(\tilde{Z})\) 用线性 SEM 中的系数(通过图路径系数乘积之和)表示,并利用“误差可相关仅由双向边编码”这一事实,最终化简为一个仅依赖 \(G\) 中路径系数和某些节点是否为 “blocked” 的表达式。然后证明方差大小仅取决于 \(G\) 的拓扑结构调整——即路径系数的正负号无关,只关乎哪些节点被加入。这就是 Theorem 4.1 的核心想法。

  2. 图形比较判据的证明:证明 \((Z_1, W_1)\) 优于 \((Z_2, W_2)\) 等价于证明一个关于 投影变量 的协方差矩阵的正定差。作者利用 禁止投影图(forbidden projection)——从 \(G\) 中删除某些节点后得到的图,其中保留所有与方差相关的结构。关键引理(Lemma 4):当 \(W_1 \subseteq W_2\)\(Z_1 \subseteq Z_2\) 时,两估计量的渐近方差之差等于 \(\sigma^2\) 乘上一个 非负定矩阵,且非负性可通过检查每个节点在禁止投影中是否属于 \(Y\) 的父节点集来验证。这本质上是一个 “变量消除”技巧:将新添加的变量投影掉,留下残差,如方差公式那样,每次加入一个“好”变量都会减少投影后的噪声方差。

  3. 构造始终最优集:证明的思路是:将图形最大化问题转化为图论中寻找 “最小禁止投影父节点集”“最大工具集” 的组合。作者证明当存在至少一个线性有效条件工具集时,集合 \((Z^*, W^*)\) 通过与任何一个有效集 \((Z',W')\) 的比较,都能通过图形判据证明不差于它。关键步骤:构造一个中介有效集 \((Z', W')\),然后分步不等式:先用判据将 \((Z^*, W^*)\)\((Z',W')\) 比较,证明渐近方差 ≤ 后者;再用后者与任意其他有效集比较,最终传递不等性。

关键跳跃点: - 从2SLS方差到图结构等价表达式的化简:需要利用线性SEM的结构(路径系数乘积的可分解性)和双向边的协方差图解释。作者使用了 各个路径的方差贡献与路径系数相互独立 这一事实(因SEM可写作因果链),从而将复方差表达分解为求和形式。 - 禁止投影的引入:本文借鉴了 Witte et al. (2020) 的“forbidden projection”概念,并将其推广到 IV 场景。这一技巧使得方差比较问题转化为在简化图中检查节点归属,极大地降低了复杂性。

技术技巧点名: - Sandwich variance / Buja et al. (2014):用于处理随机预测变量的方差公式,避免假设误差同方差。 - 禁止投影(Forbidden projection):通过删除部分节点来保留所有与效率相关的信息,将复杂图化为简单图(类似“sufficient reduction”思想)。 - 偏序推导:利用集合包含关系(\(W_1 \subseteq W_2\)\(Z_1 \subseteq Z_2\))建立比较链条,避免任意两集合的不可比性。

真实例子与应用

论文在 Section 6.1 给出了一个模拟研究,并在 Section 6.2 给出了一个真实数据例子。

真实数据例子(Section 6.2): - 数据来源:R 包 pcalg 自带的部分数据,来自一个关于 蛋白质信号传导网络 的研究(Sachs et al. 2005)。该数据集包含 11 个蛋白质(如 PKC, PKA, Akt 等)的定量表达水平,观测于 853 个细胞,常用于因果图推断。 - 图结构:作者基于已知生物学知识构建了一个 ADMG(含几个双向边表示未观测混杂),处理变量 \(X\) 设为某个激酶(如 PKC),结果 \(Y\) 设为另一个(如 Akt)。 - 目标:估计 PKC 对 Akt 的总因果效应。 - 如何应用本文方法: - 作者先使用 Theorem 3.2 列举出所有线性有效条件工具集(候选集较少,因为图大小适中)。 - 然后应用 Theorem 4.1 比较这些有效集的渐近方差顺序,并验证贪心算法能逐步找到一个方差较小的有效集。 - 最后对比该贪心算法最终得到的 CIV 集与使用“所有候选工具并用数据选最小方差”的方法(后者会受 post-selection 偏差影响)。结果表明贪心算法得到的方差略大于后者(因为后者有数据优势),但后者对应的置信区间覆盖 SV 劣效(更低),说明贪心算法提供的是保守但有效的推断。 - 这个例子想说明什么:(i) 本文的图形工具在实际图中是可操作的(不用假设知道系数);(ii) 贪心算法可在不依赖数据的情况下找到较优的工具集,避免了后选择推断问题;(iii) 虽然理论上可能存在比贪心所得更优的集合(通过计算所有组合),但图形判据至少保证“不差于原始集合”。

🔎 结论是否比证明窄

  • 本文的核心承诺是“graphical tools for selecting conditional instrumental sets”,在引言和结论中作者声称方法扩展到了任意 ADMG。但定理3.2(线性有效性的刻画)要求 \(X\)\(Y\) 只有一条有向路径(即除了目标效应外没有其他有向路径)。这是一个相当强的限制,作者在结论中也承认这是未来工作可以放宽的点(Section 'Discussion' 中第一点)。因此,在有多条有向路径的图中,本文的条件工具集刻画方法不完整。论文的实证例子均满足该限制。
  • 另一个窄化:所有方差比较结果仅适用于 线性SEM。虽然引言写道“We expect our results to extend to nonparametric and semiparametric settings”,但没有提供任何理论推导或参考文献来支持这一扩展。相比调整集效率理论已被推广到非参数(Smucler et al., 2022),本文仍停留在参数层面。
  • Theorem 4.2 的最优集存在性条件 仅给出充分条件,并非充要。论文没有证明当这些条件不满足时是否一定不存在最优集,只是给出了一个反例图(Figure 5)表明最优集可能不存在。

四、开放问题(点到为止)

  1. 放宽“从 X 到 Y 只有一条有向路径”的假设:作者在 Discussion 中承认这是当前限制。尝试给出多条路径下的线性有效条件工具集图形刻画,可能涉及路径特定效应识别或使用更复杂的图变换(如嵌套马尔可夫性质)。扎根点:Section 3, 假设 “We assume that there is exactly one directed path from X to Y in G.” (原话)。

  2. 将结果推广到非参数/半参数设定:调整集效率的图形准则已被推广(Smucler et al. 2022; Runge 2021),但条件工具集的推广尚缺。需要攻克的核心问题是:非参数设定下 2SLS 估计的方差是否也能被简化成图依赖性?作者在 Discussion 中写道 “we expect our results to extend to nonparametric and semiparametric settings”,但没有任何具体方向。扎根点:Section 7, Discussion, 第二段。

  3. 研究弱工具变量下的有限样本方差与图形偏序:全文只涉及渐近方差,且假定工具足够强(rank condition 整体成立)。当工具弱时(例如 \(Z\) 个数多但弱相关),渐近近似差,有限样本偏差显著。是否可以发展考虑偏误的图形选择准则?扎根点:论文在引言和结果中均未讨论弱工具,但在经济学文献中这是核心议题。

  4. 发展更一般的(非贪心)全局最优算法:本文贪心算法只保证局部最优。是否可在 ADMG 上定义某种偏序,使得全部有效 CIV 集构成一个格(lattice),然后利用图论找到“最大/最小元”?作者在 Conclusion 中提及 “It would be interesting to develop a systematic algorithm to compute an optimal linearly valid conditional instrumental set without the greedy restriction”。扎根点:Section 7, Discussion。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论