Promises of parallel outcomes¶

作者: Ying Zhou, Dingke Tang, Dehan Kong, Linbo Wang
来源: Biometrika
主题: 因果推断
相关性: 9/10
机构绿灯: University of Toronto（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在未观测混杂的观测研究中，如何仅利用可观测数据实现因果效应的非参数识别与估计。当前该方向的成熟度处于"从参数/半参数识别向非参数识别过渡、从单变量辅助向多变量结构挖掘演进"的阶段：传统的工具变量（IV）与负控制方法已有较成熟的半参数估计理论，但多结局/多处理共享混杂的非参数识别框架刚刚建立，识别条件（如 completeness / 有界完备性）的可验证性与估计的渐近理论尚在初步探索期。

发展脉络：把 intro 引用的工作串成一条线： - 奠基工作：Kuroki & Pearl (2014) 首次提出利用混杂的代理变量进行识别，但要求测量误差机制（即给定混杂下代理变量的条件分布）本身可识别，条件极强。 - 主要进展：Miao, Geng & Tchetgen (2018) 引入双负控制框架，利用一个负控制结局（NCO）和一个负控制暴露（NCE），在秩条件/完备性条件下实现了非参数识别，去掉了对测量误差机制可识别的要求。Shi et al. (2020) 进一步在类别混杂下给出了半参数估计与多重鲁棒性。 - 当前 frontier：多处理/多结局共享混杂的识别。Wang & Blei (2019) 的 deconfounder 尝试利用多处理的条件独立性去消除混杂，但 Ogburn, Shpitser & Tchetgen (2019) 的评论指出其前提错误——仅凭观测数据的条件独立性无法保证 ignorability。Kong, Yang & Wang (2020) 在多处理+二值结局设定下，利用非高斯性（Gaussian 处理 vs 非 probit 结局）的"不一致性"实现了识别。Sharma et al. (2016) 的 split-door criterion 利用了结局可拆分为"受处理影响"与"不受处理影响但共享混杂"两部分，将识别归结为可观测变量的独立性检验。 - 本文的位置：本文提出 parallel outcomes 框架，利用至少三个共享混杂的结局之间的对称条件独立性，在非参数设定下实现 ATE 识别，并在 LSEM 设定下给出估计工具。作者声称这避开了负控制方法对 NCE/NCO 角色不对称的要求，也避开了 deconfounder 的逻辑漏洞。

子线索聚类：被引文献大致落在三条子线索上： 1. 负控制/代理变量方法：Miao et al. (2018), Shi et al. (2020), Shi et al. (2018)。这一簇在寻找与混杂相关但与处理/结局无直接因果效应的观测变量，利用 NCE-NCO 对的秩条件/完备性做非参数识别。瓶颈：NCE 与 NCO 的角色不对称，寻找满足定义的 NCE 在实践中常比找 NCO 更难。 2. 多处理/多结局共享混杂的结构利用：Wang & Blei (2019) 及其批评 Ogburn et al. (2019)，Kong et al. (2020)，Sharma et al. (2016)。这一簇试图利用多个处理或多个结局之间的条件独立性结构来"挤出"混杂信息。瓶颈：条件独立性本身不蕴含 ignorability（Ogburn et al. 批评）；Kong et al. 的识别依赖非高斯性假设；Sharma et al. 的 split-door 要求结局可物理拆分且一部分完全不受处理影响。 3. 主分层与辅助结局：Mattei et al. (2013), Mealli & Pacini (2013)。这一簇在贝叶斯框架下利用辅助结局收紧主分层内因果效应的 bounds，但未实现非参数点识别。

这个方向在追问的核心问题： 1. 在未观测混杂下，仅凭可观测变量的分布特征（条件独立性、非高斯性、因子结构等），能否实现因果效应的非参数点识别？ 识别的必要与充分条件是什么？ 2. 这些分布特征（如条件独立性）与因果结构假设（如无直接效应/ignorability）之间的逻辑桥梁是什么？ 如何避免 deconfounder 那样的逻辑跳跃？ 3. 识别所依赖的完备性条件是否有可验证的替代条件或参数化充分条件？ 估计的渐近性质（效率界、鲁棒性）如何？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 为：现有负控制方法需要 NCE 与 NCO 角色不对称（NCE 不能直接影响 NCO），这在实践中寻找 NCE 较难；而 parallel outcomes 的条件独立性假设中各结局角色对称，更易满足。作者借此将本文定位为"显然的下一步"：用对称的多结局条件独立性替代不对称的负控制条件。 - 被淡化或回避的竞争路线：Sharma et al. (2016) 的 split-door 也是一种利用辅助结局的方法，且同样依赖结局间的独立性，但 intro 仅一笔带过、未深入比较其"结局拆分"假设与本文"至少三个结局"假设的强弱对比。Kong et al. (2020) 利用非高斯性的路线也被归入"参数化假设"而淡化，但本文的 LSEM 估计同样依赖强参数化假设。 - 什么明显该被引/该存在却没出现在 intro 里？：半参数效率理论的相关工作（如 Robins et al. 的 higher-order influence functions）——本文在非参数识别后直接跳到 LSEM 估计，未讨论非参数/半参数估计的效率界与鲁棒估计器构造，这对于一个声称非参数识别的框架是明显的缺口。此外，关于 completeness 条件可验证性的近期工作（如 Spirtes et al. 的因果结构学习可测试性）也未引。

张力：未见明显对立引用。Ogburn et al. (2019) 对 Wang & Blei (2019) 的批评是逻辑层面的（条件独立性不蕴含 ignorability），本文通过引入"至少三个结局"与"无直接效应"假设回应了这一逻辑跳跃，但未与 Ogburn et al. 直接交锋。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

参数 / estimand：
\(\tau\)：平均因果效应（ACE / ATE），定义为 \(E[Y(1) - Y(0)]\)，其中 \(Y(a)\) 是潜在结局。
随机变量 / 样本：
\(A\)：处理变量（本文主要考虑二值 \(A \in \{0,1\}\)）。
\(Y\)：主结局（primary outcome），即我们关心的那个结局。
\(Y_2, Y_3, \dots, Y_K\)：平行结局（parallel outcomes），\(K \ge 3\)。
\(U\)：未观测混杂变量（latent confounder），不可观测。
\((A, Y, Y_2, Y_3, \dots, Y_K)\) 的 \(n\) 个独立同分布样本构成可观测数据。
维数 / 样本量等指标：
\(K\)：平行结局的总数（含主结局 \(Y\)），要求 \(K \ge 3\)。
\(n\)：样本量。
潜在量：
\(Y(a), Y_k(a)\)：处理取值 \(a\) 时第 \(k\) 个结局的潜在值。

模型（数据生成机制）： - 存在未观测混杂 \(U\)，同时影响 \(A\) 与所有结局 \(Y, Y_2, \dots, Y_K\)。 - 核心假设（Parallel Outcomes 条件独立性）：给定处理 \(A\) 和混杂 \(U\) 后，所有结局彼此条件独立：\(Y \perp Y_2 \perp \dots \perp Y_K \mid A, U\)。 - 无直接效应假设：处理 \(A\) 对平行结局 \(Y_2, \dots, Y_K\) 无直接因果效应，即 \(Y_k(a) = Y_k\) 对所有 \(a\) 和 \(k \ge 2\) 成立（这等价于 \(Y_k \perp A \mid U\)）。 - 混杂充分性：\(U\) 是处理与所有结局的充分混杂，即 \((Y(a), Y_k(a)) \perp A \mid U\)。

可观测数据： - 研究者实际能观测到的是 \((A, Y, Y_2, Y_3)\) 的样本（取 \(K=3\) 的最简情形）。 - 想要但观测不到的是 \(U\)，只能靠上述假设去识别 \(\tau\)。

第二步：讲最小内核

最简特例：\(K=3\)，\(U\) 为一维连续混杂，线性结构方程模型（LSEM）设定。

在这个特例下，数据生成机制为：

\[A = \alpha U + \epsilon_A\]

\[Y = \beta A + \gamma U + \epsilon_Y\]

\[Y_2 = \gamma_2 U + \epsilon_{Y_2}\]

\[Y_3 = \gamma_3 U + \epsilon_{Y_3}\]

其中 \(\epsilon_A, \epsilon_Y, \epsilon_{Y_2}, \epsilon_{Y_3}\) 相互独立，均值为 0。这里 \(\beta\) 是我们要估的 ATE（\(\tau = \beta\)）。

为什么这个特例能支撑整篇论文？： - 非参数识别的证明本质上依赖于"至少三个结局"提供的秩条件。在 LSEM 特例中，这个秩条件退化成 \(\gamma_2 \neq 0\) 且 \(\gamma_3 \neq 0\)（即两个平行结局都受 \(U\) 影响），且 \(\gamma_2 / \gamma_3\) 不等于某些特定比值（保证矩阵满秩）。 - 核心思路在这个特例上一看就懂：我们想估 \(\beta\)，但 \(A\) 与 \(Y\) 因 \(U\) 而混杂。由于 \(A\) 对 \(Y_2, Y_3\) 无直接效应，\(Y_2, Y_3\) 仅通过 \(U\) 与 \(A\) 相关。因此 \(Y_2, Y_3\) 实质上充当了 \(U\) 的两个"代理变量"。在经典双负控制框架中，需要指定哪个是 NCE、哪个是 NCO，且要求 NCE 不直接影响 NCO；但在 parallel outcomes 中，\(Y_2\) 与 \(Y_3\) 角色对称——它们都只受 \(U\) 影响，彼此条件独立（给定 \(A, U\)），且都不受 \(A\) 直接影响。利用这种对称性，可以构造一个矩条件：从 \(Y = \beta A + \gamma U + \epsilon_Y\) 和 \(Y_2 = \gamma_2 U + \epsilon_{Y_2}\)，可得 \(U = (Y_2 - \epsilon_{Y_2})/\gamma_2\)。代入 \(Y\) 的方程并取期望（利用独立性消去误差项），可以得到仅涉及可观测变量协方差的矩方程，从而解出 \(\beta\)。具体地：

\[Cov(Y, Y_2) = \gamma \gamma_2 Var(U)\]

\[Cov(Y_2, Y_3) = \gamma_2 \gamma_3 Var(U)\]

\[Cov(Y, A) = \beta Var(A) + \gamma \alpha Var(U)\]

\[Cov(A, Y_2) = \alpha \gamma_2 Var(U)\]

利用前两个方程可消去 \(Var(U)\) 得到 \(\gamma / \gamma_3 = Cov(Y, Y_2) / Cov(Y_2, Y_3)\)，再结合后两个方程消去 \(\gamma\) 与 \(Var(U)\)，即可解出 \(\beta\) 仅依赖可观测协方差。这就是 LSEM 下识别的内核。

非参数识别的内核是上述秩条件的泛化：在非参数设定下，"消去 \(U\)"的操作不再是通过代数消元，而是通过完备性条件（bounded completeness）保证某些积分方程有唯一解，从而从可观测的条件分布中"反解出" \(U\) 的效应。至少三个结局提供了足够的秩/完备性维度，使得这个反解可行。

三、这篇论文做了什么¶

三句话： 1. 研究了在未观测混杂下，如何利用多个共享混杂的结局（parallel outcomes）实现因果效应的识别与估计。 2. 核心工具是平行结局在给定处理与混杂下的对称条件独立性，结合至少三个结局提供的秩/完备性条件。 3. 主要结论是在至少三个平行结局下 ATE 可非参数识别，并在 LSEM 族下给出了基于协方差消元的参数估计方法。

关键设定与假设：在第二节最小记号基础上补全： - Condition 1 (Positive probability)：\(P(A=a) > 0\)，处理有正概率。 - Condition 2 (Parallel outcomes)： - (a) \(Y_1 \equiv Y, Y_2, \dots, Y_K\) 在给定 \((A, U)\) 下条件独立。 - (b) 对 \(k \ge 2\)，\(A\) 对 \(Y_k\) 无直接效应，即 \(Y_k(a) = Y_k\)（等价于 \(Y_k \perp A \mid U\)）。 - (c) \(U\) 是 \(A\) 与所有 \(Y_k\) 的充分混杂，即 \((Y_k(a)) \perp A \mid U\)。 - 统计含义：是对数据生成机制的结构限制。(b) 是关键的因果假设，排除了处理对平行结局的直接效应（类似于负控制结局的定义，但角色对称）。相当于 ignorability given \(U\)。 - Condition S2 (Bounded completeness)：对每个 \(a \in \{0,1\}\)，条件分布 \(f(Y_2, \dots, Y_K \mid U, A=a)\) 满足有界完备性：若 \(E[g(Y_2, \dots, Y_K) \mid U, A=a] = 0\) 对所有 \(U\) 成立，则 \(g=0\) a.s.。 - 统计含义：这是非参数识别的技术核心，保证从可观测条件分布中反解混杂效应的积分方程有唯一解。相比 Miao et al. (2018) 的秩条件，这是从有限维矩阵满秩向无限维函数空间的推广。作者声称这 generalize 了 Condition 1 (full rank condition in LSEM)。 - 相比已有文献：Miao et al. (2018) 的双负控制需要 NCE 对 NCO 的完备性（单向），本文需要 \((Y_2, \dots, Y_K)\) 联合对 \(U\) 的完备性（多向），但利用了对称性。

主要结果： - Theorem 1 (Nonparametric identification)：在 Condition 1, 2, S2 下，若 \(K \ge 3\)，则 ACE \(\tau = E[Y(1) - Y(0)]\) 可由可观测分布 \(P(A, Y, Y_2, \dots, Y_K)\) 非参数识别。 - 直觉：\(K \ge 3\) 提供了足够的"锚点"。两个平行结局 \((Y_2, Y_3)\) 的联合分布给定 \(U\) 后的完备性，允许我们从 \(P(Y, Y_2, Y_3 \mid A)\) 中"剥离"出 \(U\) 对 \(Y\) 的混杂效应，从而还原 \(Y\) 对 \(A\) 的直接因果效应 \(\beta\)。 - 必要条件：\(K \ge 3\) 是必要的——作者在 Remark 2 中指出，若只有 \(K=2\)（一个主结局+一个平行结局），则退化为单负控制结局设定，无法在没有 NCE 的情况下识别。 - 解决的技术难点：在无 NCE 的情况下，仅凭多个结局的对称条件独立性实现非参数识别，避开了双负控制框架对 NCE 的需求。 - LSEM 下的参数识别与估计：在 LSEM 设定下（线性结构方程、独立误差），Condition S2 退化为误差协方差矩阵的非奇异性与因子载荷的非零性（full rank condition 1）。作者给出了基于可观测协方差的显式识别公式，并提出了基于样本协方差的估计器。

证明路线与技术技巧： - Theorem 1 的整体路线： 1. 分解可观测分布：利用 Condition 2(a) 的条件独立性，将 \(P(Y, Y_2, \dots, Y_K \mid A=a)\) 写成 \(P(Y \mid U, A=a) \times P(Y_2, \dots, Y_K \mid U, A=a)\) 对 \(U\) 的积分。 2. 构造积分方程：利用 Condition 2(b) 的无直接效应，\(P(Y_2, \dots, Y_K \mid U, A=a) = P(Y_2, \dots, Y_K \mid U)\)（不依赖 \(a\)）。这允许我们在不同 \(a\) 值下建立联系，构造关于 \(P(Y \mid U, A=a)\) 的积分方程。 3. 利用完备性求解：Condition S2 保证上述积分方程的解唯一，从而 \(P(Y \mid U, A=a)\) 可从可观测分布中唯一确定（识别）。 4. 还原 ACE：一旦 \(P(Y \mid U, A=a)\) 识别，即可通过 \(E[Y \mid U, A=a]\) 的识别，结合 \(P(U)\) 的识别（同样从积分方程得到），还原 \(E[Y(a)] = \int E[Y \mid U, A=a] P(U) dU\)，从而识别 \(\tau\)。 - 关键跳跃点：从步骤 2 到步骤 3，如何从可观测的 \(P(Y, Y_2, Y_3 \mid A=a)\) 与 \(P(Y_2, Y_3 \mid A=a')\) 的差异中构造出关于 \(P(Y \mid U, A=a)\) 的积分方程，并利用完备性保证解唯一。这是非参数识别的核心技术难点。 - 技术技巧点名： - 有界完备性：用在 Theorem 1 的积分方程唯一性证明中，保证从条件期望 \(E[\cdot \mid U]\) 到函数本身的映射是单射。 - 因子模型与 POET (Fan et al., 2013)：用在 LSEM 估计与条件独立性检验中——作者将平行结局的误差协方差矩阵建模为稀疏矩阵（近似因子模型），用 POET 方法估计误差协方差并检验 Condition 2(a) 的条件独立性。 - 协方差消元：用在 LSEM 下的参数识别中，通过可观测协方差的代数运算消去不可观测的 \(Var(U)\) 与因子载荷，得到 \(\tau\) 的显式表达式。

真实例子与应用： - 用的什么数据 / 场景：研究吸烟（\(A\)）对心脏病（\(Y\)）的因果效应，存在未观测健康意识混杂（\(U\)）。平行结局为慢性支气管炎（\(Y_2\)）和肝衰竭（\(Y_3\)）。 - 怎么把本文方法用上去： - 假设吸烟对慢性支气管炎和肝衰竭无直接效应（这显然是强假设，作者承认这是"近似成立"）。 - 假设给定健康意识与吸烟后，心脏病、慢性支气管炎、肝衰竭条件独立（Condition 2a）。 - 利用这三个结局的观测数据，通过 LSEM 下的协方差消元估计吸烟对心脏病的 ACE。 - 得到什么结果：估计出的吸烟对心脏病的 ACE 与已知文献一致（方向与量级），且条件独立性检验（用 POET 估计误差协方差后检验残差独立性）未拒绝 Condition 2a。 - 这个例子想说明什么：展示 parallel outcomes 框架在实际流行病学数据上的可行性，验证 LSEM 估计器的表现，并演示如何用 POET 检验条件独立性假设。

🔎 结论是否比证明窄： - Theorem 1 声称非参数识别，但证明严格依赖 Condition S2（有界完备性）。作者在 Remark 2 中提到 \(K \ge 3\) 的必要性，但未给出 \(K=2\) 下不可识别的严格反例证明，仅说"退化为单 NCO 设定"——这是一个 claim 而非严格证明。 - Condition 2(b) 的无直接效应假设在真实例子（吸烟对支气管炎/肝衰竭无直接效应）中明显不严格成立，作者在应用中将其视为"近似"，但理论结果并未给出该假设轻微违反时的稳健性界——这是理论结论比证明窄的地方：理论要求严格无直接效应，应用中却放宽使用。

四、开放问题（点到为止，扎根具体语句）¶

完备性条件的可验证性与替代条件：Condition S2（有界完备性）是不可验证的无限维假设。本文在 LSEM 下将其退化为 full rank condition 1，但在非参数设定下，是否有可检验的充分条件或更弱的替代条件？扎根在 Remark 2 与 Condition S2 的陈述——作者仅说"这 generalize 了 full rank condition"，未讨论可验证性。
半参数估计与效率界：本文在非参数识别后直接跳到 LSEM 的参数估计，未给出非参数/半参数估计器及其渐近性质（效率界、多重鲁棒性）。扎根在 Section 4 的估计部分——仅讨论 LSEM 估计，未触及半参数理论。要确认这是否真 gap，去读近期 5 票负控制/代理变量估计的 intro（如 Shi et al. 2020 的半参数估计），看是否都指向"非参数识别后的半参数估计是下一步"。
无直接效应假设的稳健性：Condition 2(b) 要求处理对平行结局无直接效应，但在真实例子中这常不严格成立。理论未给出该假设违反时的识别界或偏差界。扎根在 Section 5 的数据应用——作者承认吸烟对支气管炎可能有直接效应，但理论未覆盖此情形。
\(K=2\) 的不可识别性：作者 claim \(K \ge 3\) 是必要的，但未给出 \(K=2\) 下不可识别的严格反例。扎根在 Remark 2——仅说"退化为单 NCO"，未证明。去读双负控制文献的 intro，看是否都承认单 NCO 不可识别，若是共识则此点非 gap，若仍有争论则值得切入。

Maintained by 陈星宇 · Homepage · Source on GitHub