Graphical tools for selecting conditional instrumental sets¶

作者: L Henckel, M Buttenschoen, M H Maathuis
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所属的子方向是：在已知因果图（acyclic directed mixed graph, ADMG）的线性结构方程模型下，如何从所有保证一致性的条件工具变量集（conditional instrumental sets）中选取使得两阶段最小二乘（2SLS）估计量渐近方差最小的集合。核心问题是：在 IV 估计中，工具集与协变量集的选择如何影响估计效率？能否仅依赖图形结构（而非系数或误差方差的具体数值）做出最优选择？ 目前该方向已有对调整集（adjustment sets）的完整效率理论，但条件工具变量集的图形效率判据尚不成熟，本文试图弥合这一缺口。

发展脉络（history）¶

奠基工作： - 工具变量法的图形化识别条件可追溯到 Brito & Pearl (2002) 和 Pearl (2009)，他们给出了 IV 有效性的图准则（要求工具变量与处理变量之间存在特定路径，且不与结果直接相连等）。本文引用时称其准则“similar to”本文的 Theorem 3.2。 - 调整集的图形刻画则更早成熟：Shpitser et al. (2010) 提出了调整准则（adjustment criterion）并证明其完备性，Perković et al. (2018) 将其推广到祖先图（MAG/CPDAG/PAG）并给出构造算法。

主要进展——调整集效率比较： - Kuroki & Miyakawa (2003), Kuroki & Cai (2004) 最先提出图形准则来比较不同调整集对应的估计量渐近方差大小。 - Henckel et al. (2022)（本文作者之一的前作）在 DAG/CPDAG/MPDAG 下给出了完整的图形判据来比较调整集，并定义了最优调整集（O-set）——即所有有效调整集中渐近方差最小的那个。该结果依赖图结构而不依赖参数值，且被证实在一大类非参数模型中同样成立（Smucler et al., 2022; Runge, 2021）。 - Witte et al. (2020) 给出了 O-set 的更直观刻画：它是 outcome 在“禁止投影图”中的父节点集，并扩展到带隐变量的情形。

当前 frontier——从调整集扩展到条件工具集： - 当存在未观测混杂时，调整集可能不再有效或不再存在，此时需要工具变量（IV）或条件工具变量。Brito & Pearl (2002) 给出了 IV 的图准则，但只处理简单 IV（单一工具，单一处理）。后续有条件工具变量（CIV） 的识别条件，但缺乏效率比较的工具。 - Rotnitzky & Smucler (2020/2022)、Guo et al. (2022) 将调整集效率理论推广至更一般的干预均值和 g-formula 框架，但并未涉及 IV 设定。 - 本文的位置：在已知 ADMG 下，首次给出条件工具变量集（保证 2SLS 一致性的集合）的完备图形刻画，并提供渐近方差公式和三种图形工具（比较、贪心搜索、最优性保证）来选取更高效的集合。这是从调整集效率理论到工具变量效率理论的直接延伸。

子线索聚类¶

以下是被引文献大致形成的几条子线索：

调整集的图形识别与效率（最成熟）
Shpitser et al. (2010) — 调整准则（完备）
Perković et al. (2018) — 推广至 MAG/CPDAG/PAG
Henckel et al. (2022) — 调整集效率比较与最优集准则
Witte et al. (2020) — O-set 的禁止投影刻画
Smucler et al. (2022), Runge (2021) — 隐变量下最优调整集的存在性与算法
工具变量（IV）的识别与图形条件
Brito & Pearl (2002) — IV 的图形准则
本文贡献于这一子线索：将 IV 识别推广到条件工具变量集，并首次处理效率问题
非参数效率与模型简化（交叉线索）
Rotnitzky & Smucler (2020/2022), Guo et al. (2022) — 干预均值的有效估计与变量消除
这些工作使用了半参数效率界、g-formula 等工具，本文线性 SEM 设定下可视为其参数特例
后选择推断（post-selection inference）
Berk et al. (2013) — 本文在引言中强调：不能通过先计算所有候选族的2SLS标准差再选最小那个，因为后选择推断会失效。这正是本文为何需要“纯图形”判据（而非数据依赖）的原因。

这个方向在追问的核心问题¶

哪些条件工具变量集（CIV sets）能保证 2SLS 估计的一致性？ 已有部分图形准则（Brito & Pearl 2002），但未刻画所有线性有效集（linearly valid CIV sets）——即允许误差相关的线性SEM下依然一致的集合。本文的 Theorem 3.2 首次给出充要条件。
如何比较两个有效 CIV 集在渐近方差上的优劣？ 调整集已有完整图形判据（Henckel et al. 2022），但工具集因涉及第一阶段投影矩阵，方差公式更复杂。本文 Theorem 4.1 给出了可直接比较的图形条件。
是否存在一个保证最优（方差最小）的有效 CIV 集？ 调整集中有 O-set，工具集中尚无。本文 Theorem 4.2 给出一个“图形可确保方差最小”的有效 CIV 集（称为“always optimal”），但同时指出并非所有图都存在这样的集合（需满足特定条件）。
如何避免后选择偏差？ 若通过数据搜索方差最小的 CIV 集，会因 post-selection 破坏推断。因此必须使用纯先验图结构判断。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者在引文中将缺口描述为：“Although the problem of finding an efficient IV estimator for a given set of instruments is well studied in econometrics, the problem of selecting efficient instrumental sets or instruments in causal graphical models has received almost no attention.” 从而将本文定位为“显然的下一步”——即把调整集效率理论的自然延伸。他们淡化了以下竞争路线：半参数 DML 方法（Emmenegger & Bühlmann 2021）处理内生性时也可用正则化选择工具变量，但作者将其归入“不需要明确图结构”的另一类，未在正文中深入比较。另外，经济学中关于“最佳工具变量”（optimal instruments, 如 Chamberlain 1987）的文献完全未被讨论——这些工作通常假设非参数结构且能构造达到半参效率界的工具，但可能需要 \(E[Z|X]\) 的估计，而本文的图准则可避免模型选择。这可能是作者有意回避（或认为无关）的选择，值得研究者去查：Chamberlain 式的 IV 效率界与本文图形准则的关系是怎样的？

什么明显该被引/该存在却没出现在 intro?
- 未见对 有限样本性质（如弱工具变量下的偏差）的引用或讨论。弱工具变量问题是 IV 估计的核心实践问题，但本文完全使用渐近方差作为效率准则，并未涉及 bias-variance tradeoff 或弱 IV 下的 finite-sample 表现。这是值得注意的 gap。

张力¶

被引工作之间未见明显对立。调整集效率理论内部有一致结论：Henckel et al. (2022) 的 O-set 在 DAG 下与 Runge (2021) 的充分必要最优条件一致。但 本文指出：存在一些图结构下没有“图形可保证最优”的 CIV 集（即 Theorem 4.2 不一定能给出），这与调整集（总存在 O-set）形成对比，算是一种非对称性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

模型（线性结构方程模型 with correlated errors, compatible with a known ADMG）
- 设 \(V\) 为所有观测变量节点集。
- 数据由以下线性 SEM 生成：\(X_j = \sum_{i \in \text{pa}(j)} \beta_{ij} X_i + \epsilon_j\)，其中 \(\text{pa}(j)\) 为 \(j\) 在 ADMG \(G\) 中的 有向父节点集。
- 误差向量 \(\epsilon = (\epsilon_j)_{j\in V}\) 服从多元正态分布 \(N(0, \Omega)\)，且 \(\Omega\) 可非对角（即误差可相关），但相关结构由 ADMG 的双向边（bidirected edges）表示：当且仅当 \(i \leftrightarrow j\) 在 \(G\) 中时，\(\text{Cov}(\epsilon_i, \epsilon_j)\) 可非零。 - ADMG \(G\) 已知，但系数 \(\beta_{ij}\) 和误差协方差 \(\Omega\) 未知。 - 总因果效应（total causal effect）：设治疗变量 \(X\)，结果变量 \(Y\)（均为 \(V\) 中的节点）。目标量 \(\tau_{yx}\) 是 \(X\) 对 \(Y\) 的 线性因果效应（在 SEM 中，即 \(Y\) 对 \(X\) 的回归系数 \(\beta_{yx}\)，但需从所有其他路径中识别出来）。

目标 estimand：\(\tau_{yx}\)（标量或向量，取决于 \(X\) 维度）。本文考虑 \(X\) 为标量（单一处理）情形，但方法可推广。

可观测数据：i.i.d. 样本 \((X_i, Y_i, \mathbf{Z}_i, \mathbf{W}_i)\)，其中： - \(X\) 为处理变量（内生变量，因受未观测混杂影响）； - \(Y\) 为结果变量； - \(\mathbf{Z}\) 为一组候选 工具变量集（instrument set），备选集合由研究者根据图给出； - \(\mathbf{W}\) 为一组可选 协变量集（covariates），可加入 2SLS 的第一阶段和第二阶段回归以控制混杂或提高效率（类似调整集的作用）。 - 注意：本文中 条件工具变量集 是一个有序对 \((Z, W)\)，其中 \(Z\) 是工具（可多元），\(W\) 是条件集（covariates）。2SLS 估计量即为：第一阶段用 \(W\) 和 \(Z\) 预测 \(X\)，然后将 \(Y\) 对预测值 \(X̂\) 和 \(W\) 做回归，取 \(X̂\) 的系数作为 \(\hat{\tau}_{yx}\)。

哪些是不可观测的（潜在量）：
- 误差项 \(\epsilon\) 与未观察到的混杂因素（由双向边表示）。本质上，ADMG 中的双向边编码了未观测的共同原因的存在。 - 本文不处理潜变量节点，而是用图结构（双向边）来编码潜变量的影响，即将潜变量“投影”到观测变量间的双向边上（参见 Richardson et al. 2017 的 latent projection）。

符号约定（部分来自论文，部分通用）： - \(G = (V, E)\)：ADMG，有向边（\(\rightarrow\)）与双向边（\(\leftrightarrow\)）。 - \(X, Y \in V\)：处理与结果。 - \((Z, W)\)：一个 条件工具变量集（conditional instrumental set），其中 \(Z \subseteq V \setminus \{X,Y\}\) 为工具变量集，\(W \subseteq V \setminus \{X,Y\}\) 为条件集（可空集）。 - \(\text{An}(A)\)：节点集 \(A\) 在 \(G\) 中的祖先（ancestors）。 - \(\text{Pa}(A)\)：父节点集。 - \(\text{Forb}(X,Y)\)：“forbidden projection” 中 \(Y\) 的父节点集（用于调整集效率，见 Witte et al. 2020）。 - \(\beta_{Y|X}\)：2SLS 的渐近方差矩阵；本文具体给出的是 \(\hat{X}\) 对应的那个 entry 的渐近方差 \(n \cdot \text{Var}(\hat{\tau}_{yx})\)。

第二步：最小内核¶

本文的核心数学困难在于：在已知 ADMG 下，如何比较两个有效条件工具集 \((Z_1, W_1)\) 和 \((Z_2, W_2)\) 对应的 2SLS 估计量的渐近方差大小，且仅通过看图就能决定？

最简特例（选择最小非平凡图）
考虑只有一个未观测混杂变量的简单 ADMG，如图 1（本文 Figure 1 的简化版本）： - 节点：\(Z\)（工具变量）、\(X\)（处理）、\(Y\)（结果）、\(C\)（观测协变量）。 - 有向边：\(Z \rightarrow X\)，\(X \rightarrow Y\)，\(C \rightarrow X\)，\(C \rightarrow Y\)。 - 双向边：\(X \leftrightarrow Y\)（表示未观测混杂影响两者）。 - 假设 \(Z\) 与 \(C\) 独立，且 \(Z\) 不与 \(Y\) 直接相连（单向或双向）。 - 目标是估计 \(\tau_{yx}\)（\(X \rightarrow Y\) 的系数）。

可观测数据：样本 \(\{(z_i, x_i, y_i, c_i)\}_{i=1}^n\)。真实模型： \(x = \gamma z + \delta c + \eta\)，\(y = \tau x + \beta c + \epsilon\)，其中 \(\text{Cov}(\eta, \epsilon) \neq 0\)（因双向边）。

候选条件工具变量集： 1. \((Z_1 = \{Z\}, W_1 = \emptyset)\)：简单 IV，用 \(Z\) 作为工具，无协变量。 2. \((Z_2 = \{Z\}, W_2 = \{C\})\)：用 \(Z\) 作为工具，\(C\) 作为条件协变量（第一阶段回归含 \(C\)，第二阶段也含 \(C\)）。

传统认识：两者都是线性有效的（linearly valid），即 \(Z\) 在条件于 \(W\) 下与误差独立且与 \(X\) 相关。但哪个更高效？

本文的关键思想（在调整集效率中的对应）： - 添加条件变量 \(C\) 可以“屏蔽”某些路径，降低误差方差，但也消耗了自由度。在 2SLS 中，加入 \(C\) 既进入第一阶段也进入第二阶段，影响方差。 - 本文的图形方差公式（Theorem 4.1 推论）指出：可以仅通过检查 \(C\) 在图中的位置（是否在 \(Y\) 的“禁止区”中）来判断 \(W = \{C\}\) 是否降低方差。具体而言，如果 \(C\) 是 \(Y\) 的 可调整的祖先 且不属于 \(X\) 的后代（或满足某种“非禁止”条件），则添加 \(C\) 不会增大渐近方差，甚至可能降低。 - 在例中，\(C\) 是 \(Y\) 的父节点（有向边 \(C \rightarrow Y\)）且不是 \(X\) 的后代，不在任何禁止集合中。因此 \((Z, \{C\})\) 比 \((Z, \emptyset)\) 更高效（渐近方差更小）。这一结论可以直接从该 ADMG 的图形结构读出，无需计算任何系数。

如果整篇论文的一般化：定理从这样一个简单例子推广到一般 ADMG，允许 \(Z\) 和 \(W\) 为任意集合，要求刻画“有效”的充要图形条件（Theorem 3.2），并推导出渐近方差的显式公式，然后基于该公式得到图形比较准则（Theorem 4.1）。最简例子已经抓住了核心：在条件集上添加某些类型的变量可以提升效率，且不需要知道参数值。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在已知 ADMG 的线性结构方程模型下，如何从所有线性有效条件工具变量集（linearly valid conditional instrumental sets）中选取使 2SLS 估计量渐近方差最小的集合，且选择过程不依赖未知参数、仅依赖图结构。
核心工具/方法：推导了 2SLS 估计量关于条件工具集的新渐近方差公式；基于此提出三个图形工具——(i) 直接比较两集合方差的图形判据，(ii) 贪心加入协变量以降低方差的算法，(iii) 一个图形可确保方差最小的线性有效条件工具集（称为“always optimal”）。
主要结论：存在一种仅由图结构决定的偏序关系来比较某些有效工具集的效率；贪心算法可逐步降低方差；并非所有图中都存在唯一的“always optimal”集合，但在存在时其构造仅需图准则。

关键设定与假设¶

论文使用的主要记号与假设（在第二节基础上补全）：

ADMG \(G\)：acyclic directed mixed graph，允许有向边和双向边，且整体无有向环。
线性 SEM with correlated errors：所有变量可表示为 \(X = (I - B)^{-1} \epsilon\)，其中 \(B\) 严格上三角（无有向环），\(\epsilon \sim N(0, \Omega)\)，\(\Omega\) 的非对角非零元素对应双向边。误差可相关是本文与标准工具变量文献的主要区别之一——标准文献通常假设误差独立（同方差或异方差但无相关），本文允许通过双向边实现任意相关结构。
线性有效性（linear validity）：条件工具集 \((Z, W)\) 称为 linearly valid 如果它满足两个条件：(a) \(Z\) 在条件于 \(W\) 下与误差相关（即 rank condition 在这类线性模型下成立）；(b) \(Z\) 在条件于 \(W\) 下与误差不相关（即 exogeneity）。本文 Theorem 3.2 给出了只有一个有向路径从 \(X\) 到 \(Y\) 时的充要图形条件，基于“no directed path from \(X\) to \(Z\)”和“no bidirected path from \(Z\) to \(Y\) that can be blocked by \(W\)”等。
假设：论文假定了 exclusive restriction：除了 \(X\) 到 \(Y\) 的直接效应外，没有其他从 \(X\) 到 \(Y\) 的有向路径（也就是唯一处理路径，或者说是处理效应单一）。这在实际中是一个很强的假设，作者在结论部分也提及推广。

与已有文献相比： - 相比调整集效率文献（Henckel et al. 2022），本文增加了双向边和条件工具集的复杂性。 - 相比标准 IV 文献（Brito & Pearl 2002），本文首次提供比较效率的图形判据。 - 弱化了 误差独立假设（允许任意相关），强化了 线性结构方程（而非非参数）。

主要结果¶

定理 3.2（线性有效条件工具集的图形刻画）：
陈述：给定 ADMG \(G\) 和节点 \(X,Y\)（假设只有一条有向路径 \(X \rightarrow Y\)，且 \(X\) 不是 \(Y\) 的祖先除该路径外），则 \((Z,W)\) 是线性有效的当且仅当： 1. 在 \(G\) 中不存在从 \(X\) 到 \(Z\) 的有向路径（否则 \(Z\) 会被 \(X\) 影响，通过 \(X\) 与误差相关）； 2. 在子图 \(G_{Y}\)（删除 \(Y\) 以及从 \(Y\) 出发的边后）中，\(Z\) 与 \(Y\) 被 \(W\) 的集合 \(d\)-分离，且该分离的路径不能经过 \(X\)（以避免开放路径）。直觉：\(W\) 必须阻断所有从 \(Z\) 到 \(Y\) 但不经过 \(X\) 的后门路径（包括双向边路径），同时不能阻断 \(Z\) 到 \(X\) 的路径。

定理 4.1（图形方差比较判据）：
给定两个线性有效条件工具集 \((Z_1, W_1)\) 和 \((Z_2, W_2)\)，若满足：(i) \(Z_1 \subseteq Z_2\) 且 \(W_1 \subseteq W_2\)，且 (ii) 某些关于禁止投影的条件（涉及 \(Y\) 的祖先和后代关系）成立，则 \((Z_2, W_2)\) 对应的 2SLS 估计量的渐近方差 ≤ \((Z_1, W_1)\) 的。该判据不要求阅读误差方差或系数，仅依赖图。这一判据实际上是反映了：若在条件集中加入“好”的变量（属于 \(\text{Pa}_{G_{\text{forbidden}}}(Y)\) 或适当前代等）且工具集扩大（更多工具时，通常效率提高），方差不会增大。反之，添加“坏”变量（如 \(Y\) 的后代或某些在前作文中被定义为“禁止”的变量）会使方差增大。

定理 4.2（图形确保最优的线性有效条件工具集）：
定义集合 \(Z^* = \text{Forb}(X,Y) \cap \text{Adj}_{G}(X)\) （禁止投影中 \(Y\) 的父节点集与 \(X\) 的邻接集的交集）和 \(W^* = \text{Forb}(X,Y)\)，那么在某些条件下（例如 \(X\) 不是 \(Y\) 的后代，\(Z^*\) 与 \(X\) 之间不存在禁止路径等），\((Z^*, W^*)\) 是线性有效的，且其渐近方差不大于任何其他线性有效条件工具集的大小（即该集合是“always optimal”）。
但作者指出这个集合并非总是存在（Figure 5 给出了反例，其中 \(W^*\) 包含 \(Y\) 的后代导致图形条件不成立），且证明该最优性只在限制在某些图类下可图形保证。

贪心算法（Section 5.1）：
输入：一个已知的线性有效条件工具集 \((Z_0, W_0)\)。
输出：一个逐步加入变量的算法，每一步从候选集 \(C\) 中选择一个变量 \(c\)，使得加入 \(c\) 到 \(W\) 后（\(Z\) 不变）满足图形判据（Theorem 4.1 的条件），故渐近方差下降。因为判据只检查“添加该变量是否被允许且不会增大方差”，算法保证每一步的改进。因为图中候选变量有限，算法终止于一个局部最优（无法再添加任何变量而不违反图形条件）。

证明路线与技术技巧（理论型）¶

整体路线（推导渐近方差公式 → 图形比较 → 构造最优集）：

2SLS 渐近方差公式推导：对于线性有效条件工具集 \((Z,W)\)，2SLS 估计量相当于工具 \(Z_{*} = Z - \hat{E}[Z|W]\) 的 IV 估计（部分回归出 \(W\) 的影响）。论文利用 Buja et al. (2014) 的 Corollary 11.1（关于随机预测变量的 sandwich 方差公式），得到渐近方差表达为 \(\text{Var}(n^{1/2} \hat{\tau}) = \sigma^2 / ( \text{Cov}(X, \tilde{Z})^2 / \text{Var}(\tilde{Z}) )\) 的形式，其中 \(\tilde{Z}\) 是 \(Z\) 对 \(W\) 回归后的残差。关键跳跃：作者将其转写为 图结构可解释的形式——将 \(\text{Cov}(X, \tilde{Z})\) 和 \(\text{Var}(\tilde{Z})\) 用线性 SEM 中的系数（通过图路径系数乘积之和）表示，并利用“误差可相关仅由双向边编码”这一事实，最终化简为一个仅依赖 \(G\) 中路径系数和某些节点是否为 “blocked” 的表达式。然后证明方差大小仅取决于 \(G\) 的拓扑结构调整——即路径系数的正负号无关，只关乎哪些节点被加入。这就是 Theorem 4.1 的核心想法。
图形比较判据的证明：证明 \((Z_1, W_1)\) 优于 \((Z_2, W_2)\) 等价于证明一个关于 投影变量 的协方差矩阵的正定差。作者利用 禁止投影图（forbidden projection）——从 \(G\) 中删除某些节点后得到的图，其中保留所有与方差相关的结构。关键引理（Lemma 4）：当 \(W_1 \subseteq W_2\) 且 \(Z_1 \subseteq Z_2\) 时，两估计量的渐近方差之差等于 \(\sigma^2\) 乘上一个 非负定矩阵，且非负性可通过检查每个节点在禁止投影中是否属于 \(Y\) 的父节点集来验证。这本质上是一个 “变量消除”技巧：将新添加的变量投影掉，留下残差，如方差公式那样，每次加入一个“好”变量都会减少投影后的噪声方差。
构造始终最优集：证明的思路是：将图形最大化问题转化为图论中寻找 “最小禁止投影父节点集” 与 “最大工具集” 的组合。作者证明当存在至少一个线性有效条件工具集时，集合 \((Z^*, W^*)\) 通过与任何一个有效集 \((Z',W')\) 的比较，都能通过图形判据证明不差于它。关键步骤：构造一个中介有效集 \((Z', W')\)，然后分步不等式：先用判据将 \((Z^*, W^*)\) 与 \((Z',W')\) 比较，证明渐近方差 ≤ 后者；再用后者与任意其他有效集比较，最终传递不等性。

关键跳跃点： - 从2SLS方差到图结构等价表达式的化简：需要利用线性SEM的结构（路径系数乘积的可分解性）和双向边的协方差图解释。作者使用了 各个路径的方差贡献与路径系数相互独立 这一事实（因SEM可写作因果链），从而将复方差表达分解为求和形式。 - 禁止投影的引入：本文借鉴了 Witte et al. (2020) 的“forbidden projection”概念，并将其推广到 IV 场景。这一技巧使得方差比较问题转化为在简化图中检查节点归属，极大地降低了复杂性。

技术技巧点名： - Sandwich variance / Buja et al. (2014)：用于处理随机预测变量的方差公式，避免假设误差同方差。 - 禁止投影（Forbidden projection）：通过删除部分节点来保留所有与效率相关的信息，将复杂图化为简单图（类似“sufficient reduction”思想）。 - 偏序推导：利用集合包含关系（\(W_1 \subseteq W_2\)，\(Z_1 \subseteq Z_2\)）建立比较链条，避免任意两集合的不可比性。

真实例子与应用¶

论文在 Section 6.1 给出了一个模拟研究，并在 Section 6.2 给出了一个真实数据例子。

真实数据例子（Section 6.2）： - 数据来源：R 包 pcalg 自带的部分数据，来自一个关于 蛋白质信号传导网络 的研究（Sachs et al. 2005）。该数据集包含 11 个蛋白质（如 PKC, PKA, Akt 等）的定量表达水平，观测于 853 个细胞，常用于因果图推断。 - 图结构：作者基于已知生物学知识构建了一个 ADMG（含几个双向边表示未观测混杂），处理变量 \(X\) 设为某个激酶（如 PKC），结果 \(Y\) 设为另一个（如 Akt）。 - 目标：估计 PKC 对 Akt 的总因果效应。 - 如何应用本文方法： - 作者先使用 Theorem 3.2 列举出所有线性有效条件工具集（候选集较少，因为图大小适中）。 - 然后应用 Theorem 4.1 比较这些有效集的渐近方差顺序，并验证贪心算法能逐步找到一个方差较小的有效集。 - 最后对比该贪心算法最终得到的 CIV 集与使用“所有候选工具并用数据选最小方差”的方法（后者会受 post-selection 偏差影响）。结果表明贪心算法得到的方差略大于后者（因为后者有数据优势），但后者对应的置信区间覆盖 SV 劣效（更低），说明贪心算法提供的是保守但有效的推断。 - 这个例子想说明什么：(i) 本文的图形工具在实际图中是可操作的（不用假设知道系数）；(ii) 贪心算法可在不依赖数据的情况下找到较优的工具集，避免了后选择推断问题；(iii) 虽然理论上可能存在比贪心所得更优的集合（通过计算所有组合），但图形判据至少保证“不差于原始集合”。

🔎 结论是否比证明窄¶

本文的核心承诺是“graphical tools for selecting conditional instrumental sets”，在引言和结论中作者声称方法扩展到了任意 ADMG。但定理3.2（线性有效性的刻画）要求 从 \(X\) 到 \(Y\) 只有一条有向路径（即除了目标效应外没有其他有向路径）。这是一个相当强的限制，作者在结论中也承认这是未来工作可以放宽的点（Section 'Discussion' 中第一点）。因此，在有多条有向路径的图中，本文的条件工具集刻画方法不完整。论文的实证例子均满足该限制。
另一个窄化：所有方差比较结果仅适用于 线性SEM。虽然引言写道“We expect our results to extend to nonparametric and semiparametric settings”，但没有提供任何理论推导或参考文献来支持这一扩展。相比调整集效率理论已被推广到非参数（Smucler et al., 2022），本文仍停留在参数层面。
Theorem 4.2 的最优集存在性条件 仅给出充分条件，并非充要。论文没有证明当这些条件不满足时是否一定不存在最优集，只是给出了一个反例图（Figure 5）表明最优集可能不存在。

四、开放问题（点到为止）¶

放宽“从 X 到 Y 只有一条有向路径”的假设：作者在 Discussion 中承认这是当前限制。尝试给出多条路径下的线性有效条件工具集图形刻画，可能涉及路径特定效应识别或使用更复杂的图变换（如嵌套马尔可夫性质）。扎根点：Section 3, 假设 “We assume that there is exactly one directed path from X to Y in G.” （原话）。
将结果推广到非参数/半参数设定：调整集效率的图形准则已被推广（Smucler et al. 2022; Runge 2021），但条件工具集的推广尚缺。需要攻克的核心问题是：非参数设定下 2SLS 估计的方差是否也能被简化成图依赖性？作者在 Discussion 中写道 “we expect our results to extend to nonparametric and semiparametric settings”，但没有任何具体方向。扎根点：Section 7, Discussion, 第二段。
研究弱工具变量下的有限样本方差与图形偏序：全文只涉及渐近方差，且假定工具足够强（rank condition 整体成立）。当工具弱时（例如 \(Z\) 个数多但弱相关），渐近近似差，有限样本偏差显著。是否可以发展考虑偏误的图形选择准则？扎根点：论文在引言和结果中均未讨论弱工具，但在经济学文献中这是核心议题。
发展更一般的（非贪心）全局最优算法：本文贪心算法只保证局部最优。是否可在 ADMG 上定义某种偏序，使得全部有效 CIV 集构成一个格（lattice），然后利用图论找到“最大/最小元”？作者在 Conclusion 中提及 “It would be interesting to develop a systematic algorithm to compute an optimal linearly valid conditional instrumental set without the greedy restriction”。扎根点：Section 7, Discussion。

Maintained by 陈星宇 · Homepage · Source on GitHub