Semiparametric Mediation Analysis with Separately Observed Mediator and Outcome under Unmeasured Confounding¶

作者: Sijia Li, Ruoyu Wang
主题: 因果推断
相关性: 10/10
链接: https://arxiv.org/abs/2606.17232

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心统计问题是：在中介变量（M）和结果变量（Y）从未被联合观测（即两个变量始终来自不同数据源）的情况下，如何识别与估计自然直接效应（NDE） 和自然间接效应（NIE）？这是一类"数据融合 + 中介分析"的交叉子问题，其根本困难在于：中介效应的标准识别策略（如顺序可忽略性、反事实嵌套）都依赖于 (M, Y) 的联合分布，而该分布恰恰因为数据采集的限制而永远不可直接观测。该方向目前处于从"有理论框架但缺专门方法"向"推导具体识别公式与半参数效率界"的过渡阶段——已有一般性数据融合理论框架（Li & Luedtke, 2023; Graham et al., 2024），但专门针对中介效应的完整识别-推断-效率系统此前并未出现。

发展脉络（history）¶

奠基工作——中介效应的识别基础：Robins & Greenland (1992) 与 Pearl (2001) 定义了 NDE/NIE，并给出在顺序可忽略性下的识别公式。Imai et al. (2010) 进一步将其发展为可操作的估计框架（基于回归与加权）。这些工作都假设 (M, Y) 可联合观测。
主要进展之一：工具变量（IV）用于中介分析：Imai et al. (2013) 与 Frölich & Huber (2017) 开始用 IV 处理中介效应中的未测量混杂，但要求所有变量（包括 M 与 Y）在同一数据源中联合观测。Rudolph et al. (2021, 2024) 进一步在 IV 框架下定义了"依从者随机直接效应"。留下的口子：这些方法无法处理 M 与 Y 完全分离的数据融合场景。
主要进展之二：一般性数据融合框架：Li & Luedtke (2023) 与 Graham et al. (2024) 系统提出"将目标 estimand 分解为多个组件，每个组件能被不同数据源识别"的思路，并推导了半参数效率界。Huang et al. (2023) 与 Kallus & Mao (2025) 则研究了用短期替代（surrogate）标记来推断因果效应——替代变量虽与中介相关，但其识别逻辑不同（替代变量不一定需要是明确的因果中介）。作者引述说明："Although no work from this line has been proposed to specifically estimate the natural direct and indirect effects (to our knowledge), Li and Luedtke (2023) and Graham et al. (2024) both provide a general recipe that can be specialized to mediation estimands."——这一句明确了本文的位置：将一般性数据融合理论"实例化"到中介效应这一特定 estimand。
主要进展之三：近期的专门化尝试：Derkach et al. (2024b) 与这一场景最为接近，直接考虑三个关键变量两两在不同数据源中的出现，但他们采用了参数化的 Y|M, D 分布假设。作者引述说明："A recent work by Derkach et al. (2024b) specifically considered integrating data sources with each containing only two of the three key variables, and relied on a parametric form of the distribution of Y|M, D."—— 本文将其推广到半参数设定。
本文的位置：作者将其工作定义为"data fusion identification framework for mediation analysis that simultaneously tackles the two challenges above: the absence of jointly observed (M, Y) and the presence of unmeasured M-Y confounding." 本文是第一个（按作者声称）在完全非参数/半参数层面解决分离数据源下的中介效应识别、估计与效率理论的完整系统。

子线索聚类¶

大体可划为 4 条子线索： 1. 数据融合的一般半参数理论（Li & Luedtke, 2023; Graham et al., 2024）：提供将 estimand 分解、跨源对齐的通用策略，但不为中介效应做出专门的桥函数构造。 2. 利用 IV 解决中介分析中的未测量混杂（Imai et al., 2013; Frölich & Huber, 2017; Rudolph et al., 2021, 2024）：要求 M 与 Y 同源，且多关注依从者而非总体效应。 3. 替代变量/短期标记与因果效应（Huang et al., 2023; Kallus & Mao, 2025）：中间变量不被视为明确的 medition mechanism，其识别与估计策略不同。 4. 缺失数据/分块缺失（blockwise missingness） （Xu et al., 2025a, 2025b; Huang et al., 2025; Evans et al., 2021）：概念上相近，但 Evans et al. (2021) 是唯一不依赖重叠样本的。差异：这些缺失数据方法通常依赖于某种重叠或辅助样本，而本文完全无重叠。

这个方向在追问的核心问题¶

在 (M, Y) 从不共现的条件下，如何恢复 NDE/NIE 的联合分布信息？ 当前主流方法倾向于用参数化假设置换信息缺失（如 Derkach et al. 2024b 的参数 Y|M, D），但半参数路径依赖桥函数或替代变量条件。
未测量 M-Y 混杂如何在中介效应中处理？ 即使在完全观测场景下，这也是一个活跃问题（Ding & Vanderweele, 2016; Miao et al., 2023; Sun et al., 2023），但数据分离使传统的敏感性分析等工具更难部署。
数据融合场景中的效率边界是什么？ 一般理论（如 Li & Luedtke 2023）已给出通用效率界，但针对中介效应的具体半参数效率界此前未在文献中出现。
在多数据源、多环境（covariate/exposure shifts）下，对齐条件（alignment condition）是否必须与"latent alignment"一样强？ 作者引入的跨源对齐条件 S ⊥ (U, M, Y) | D, X 相比已有文献更强（因为它要求对齐条件涉及"从来不被联合观测的变量"横跨多个源的潜在分布）。

⚠️ 作者的 framing（必须明确标注"这是作者的说法"）¶

作者把缺口 frame 成什么，好让自己这篇成为"显然的下一步"：作者明确声称：虽然已有 Li & Luedtke 与 Graham 等人提供了通用框架，但没有专门工作将其实例化到 NDE/NIE；而 Derkach et al. (2024b) 做了专门化但依赖参数假设。因此本文的"显然是下一步"来自于：将 semiparametric data fusion 理论（已被证明在一般 estimand 上有效）实例化到中介效应，同时移除参数假设。此外，作者强调"mediator-outcome confounding...is even more acute because it concerns precisely the joint relationship between M and Y, which is never observed"，从而将未测量混杂包装为该问题自然且必须被同时解决的关键障碍。
哪些竞争路线被他淡化或回避了？
- 重叠样本策略：作者在 Related Work 中刻意区分"existing data fusion literature"与"our setting"，并清楚指出 "by enforcing that the target estimand is a functional of several components...in contrast...identification of causal mediation effects fundamentally depends on the never-observed mediator-outcome relationship"。这实际上是在说，标准数据融合范式（假设各组件可各自从不同样本中识别）无法直接适用于中介效应，因为 (M, Y) 的联合关系是核心，而这是两个数据源都不提供的信息。这构成了对"一般框架能否直接套用"这一竞争路径的明显淡化——但实际上，如果研究者愿意接受更复杂的桥函数构造，Li & Luedtke 的框架未必不能容纳（即使作者说之前没人做）。
- 使用替代变量（surrogate）而非 IV 的方法：作者提到 Kallus & Mao (2025) 与 Huang et al. (2023) 的 surrogate 工作，但未深入讨论是否可用 surrogate 直接替代 IV 来完成识别——隐含地，他们选择 IV 路径（Z → M → Y）而放弃了 surrogate 路径（S → M → Y）。
- 参数化方法的优缺点：对 Derkach et al. (2024b) 仅简单一句 "relied on a parametric form"，未正面讨论参数化方法的效率损失与规避 ill-posedness 的好处。
什么明显该被引 / 该存在、却没出现在 intro 里？ —— 值得研究者去查的问题：
- Proximal causal inference (Miao et al., 2018; Tchetgen Tchetgen et al., 2024) 在使用"桥函数"来恢复因果效应方面与本文直接相关——本文的桥函数 w_s 的构造（通过 IV 分布重加权 M 分布）与 proximal causal inference 中的"negative control/outcome" 桥函数高度类似。作者在第 4 节提到 "in proximal causal inference (Miao et al., 2018; Cui et al., 2024; Tchetgen Tchetgen et al., 2024)" 来类比其积分方程求解，但在 introduction 的"Related Work"中只字未提 proximal methods——这似乎是一个缺失的引用。
- Two-sample instrumental variable 文献：作者在 Remark 1 中承认 "our framework includes two-sample IV problems as a special case"，但整个 intro 的"Related Work"中并未提及 Wang & Tchetgen Tchetgen (2018) 或 Dong et al. (2025) 等 two-sample IV 奠基性工作——尽管它们确实出现在 References 中。这有点奇怪，因为 two-sample IV 是数据融合 IV 领域最成熟的子领域，对本文的方法论桥梁作用很大。
- Missing data 中的"分块缺失"（blockwise missingness）：作者只在 Related Work 末尾提及，未展开讨论这一路线是否可以更直接地解决同一个问题——这可能是作者刻意边缘化该路线，因为它本质上依赖于某个"bridge"样本（而本文要求完全无重叠）。

张力¶

未见明显对立引用。所有被引工作基本上都在"数据融合"或"IV-based mediation"或"surrogate"的轨道上呈互补而非矛盾关系。唯一的"弱张力"出现在：衍生数据融合文献（Li & Luedtke; Graham et al.）声称其通用框架可处理不完整数据，而作者认为"对于中介效应这是不够的，因为（M, Y）联合关系本身不可观测"——但这更像是对"通用框架的能力边界"的澄清，而非矛盾。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）： - T ∈ {0, 1}：目标暴露（处理变量），二进制，因果效应分析的主要焦点。是参数（estimand 中的主要干预变量）。 - Z ∈ R^{|Z|}：工具变量（IV）子向量，假设其对 Y 无直接效应（仅通过 M 作用），在两个数据源中都可观测。是参数的一部分（待定义的 set），但其维度|Z|是固定的已知常数。 - A ∈ R^{|A|}：辅助变量子向量，对 Y 有直接效应但不属于主要兴趣。与 Z 一起构成 D := (T, Z, A) ∈ R^d，即所有外生变量。|A|、|Z|、d 均为已知常数。 - M：中介变量（随机变量），在数据源 S=1 中观测、在 S=0 中缺失。 - Y：结果变量（随机变量），在数据源 S=0 中观测、在 S=1 中缺失。 - X：可观测的协变量（随机变量），在两个数据源中都观测。 - U：未测量的混杂因子（潜在/不可观测变量），影响 M 与 Y，在两个数据源中都不可观测。 - S ∈ {0, 1}：数据源标识符（随机变量）。S=0 对应观测 (X, D, Y) 的样本；S=1 对应观测 (X, D, M) 的样本。 - N / n：样本量（所有样本的合并样本量）。研究者通常在两个数据源中分别有 n_0 和 n_1 个观测，总样本量 n = n_0 + n_1。 - π(z, g) = P(T = 1 | Z = z, G = g, S = 0)：倾向性得分（propensity score）——在源 s=0 中给定 (Z, G) 时 T 的条件概率。

模型（数据生成机制）： - 结构因果模型（SCM, Pearl et al., 2000）：M = f_M(T, Z, A, X, U, ε_M), Y = f_Y(M, T, A, X, U, ε_Y)，其中 ε_M 与 ε_Y 独立于 (T, Z, A, X, U)。这是标准的非参数结构方程模型。 - 跨源对齐假设（Assumption 5）：S ⊥ (U, M, Y) | D, X，即一旦给定 (D, X)，数据源变量 S 与（潜在）变量 U, M, Y 条件独立。这是一个关键隐含假设——它意味着两个数据源的条件分布（如 M|D, X 和 Y|D, X）在（强）意义上交换即可，尽管 (M, Y) 从不共现。 - 无 M-U 交互（Assumption 4）：E[Y | M=m, D, X, U, S] - E[Y | M=m', D, X, U, S] 不依赖于 U。这是一个可检验性较差的假设，但比"无 U"弱，因为允许 U 影响 Y 的截距项，但不影响 M 对 Y 的效应 modify。 - M 与 Z 之间的完备性（Condition 1）：对于任何平方可积函数 h，E[h(M) | T = t, Z, A = a, X = x, S = s] = 0 a.s. 意味着 h = 0 a.s.。这是一个技术条件，确保 Z 充分"捕捉"了 M 的变异性，从而允许通过 Z 的分布来"重新加权" M 的分布。在高维/连续场景中常需假设。

可观测数据： - 数据源 0（S=0）：可观测 (Y, T, Z, A, X)；不可观测 M, U。样本量记为 n_0。 - 数据源 1（S=1）：可观测 (M, T, Z, A, X)；不可观测 Y, U。样本量记为 n_1。 - 核心不可观测： (M, Y) 这对组合从未被同时观测；U 在两个源中均不可观测。 - 想要但不可直接观测的量：嵌套反事实 E[Y(1, M(0)) | S=s] —— 第一层干预 T=1、第二层干预 M 在最开始 T=0 条件下的反事实值——因涉及 Y 和 M 的一组反事实值，而 M(0) 和 Y(1, M(0)) 这两个量的联合分布本身就是观测不到、且 (M, Y) 不共现，所以必须依赖工具变量 Z 和桥函数来恢复。

第二步：讲最小内核¶

最小内核特例（首选）：将一般设定大幅简化，但仍保留核心数学困难——找出一维 IV Z 且 Z 与 M 是"互完备"（mutually complete）的特例（即 |Z| = 1, |M| = 1, 且 Z 与 M 在给定 T, X, A 下是逐个完全可逆的）。

在这个特例下，所有桥函数 w_s 退化为标量函数，且积分方程 (2) 直接有解析解： - w^{11}_0(z, g) = 1 / π(z, g) （即倾向性得分的倒数） - w^{00}_0(z, g) = 1 / (1 - π(z, g)) （倾向性得分的自补倒数） - w^{10}_0(z, g) 是 Fredholm 方程的解：E[ w^{10}_0(Z, G) | T=1, Z, G, S=0 ] ?= ??? 实际上在互完备下 w^{10}_0 也是唯一解。

核心思路：原来需要 E[ Y(1, M(0)) | S=0 ] 这个涉及 (M, Y) 联合分布的量。在重复中，我们将其写成：先在外层取 S=0 下的期望（利用可观测的 Y|T, Z, X, A），但在内层利用 M 的反事实分布 M(0)|S=0 与 M(1)|S=1 的差异，通过 Z 分布调节。关键的两步： 1. 利用 w^{11}_0 和 w^{00}_0 将 S=0 下的 Y(T, M(T))（即 T=1 或 T=0 的直接可观测的 Y）的估计转化为可直接从 S=0 源计算的量（只依赖 Y|T, Z）。 2. 对于跨项 E[Y(1, M(0))]：先对于 T=1 层在 S=0 中估计 E[Y | T=1, Z, G]；然后利用桥函数 w^{10}_0(Z, G) 对 S=0 中 Z 的分布重新加权，使其与 S=1 中 T=0 条件下的 Z 分布相匹配，从而将 M(0) 的分布（源自 S=1 中 T=0 的观测 M）映射回 S=0 的样本空间，再取平均。

一句话核心命题：在 (M, Y) 从不共现的条件下，通过 IV Z 的分布重加权，可以将 E[Y(1, M(0))] 表达为可观测数据的泛函，从而识别 NDE 和 NIE。

三、这篇论文做了什么（重心，务必讲透）¶

三句话¶

研究了在中介（M）和结果（Y）始终来自不同数据源（无任何重叠样本）且存在未测量 M-Y 混杂的设定下，如何识别与估计自然直接效应（NDE）和自然间接效应（NIE）。
核心工具为：利用共享工具变量（Z） 构建桥函数，通过数据融合整合两个不完整数据源的信息，并在半参数影响函数框架下构造多重稳健的一步估计量。
主要结论：在 M-Z 互完备条件下，所提估计量达到半参数效率界；在不完备但无未测量混杂的特殊情况下，刻画了规范梯度与效率增益条件。

关键设定与假设¶

（在第二节最小记号基础上补充完整设定）

最核心的假设（逐条说明）：

假设/条件编号	名称	统计含义	相比已有文献的松/紧
Assumption 1	Unconfounded exposure	给定 `(X, S)`，`D` 与所有潜在变量 `(U, ε_M, ε_Y)` 独立	等价于标准条件可忽略性（条件于 X 与源 S），对本文合理
Assumption 2	Latent unconfounded mediator	给定 `(X, U, S)`，`ε_Y` 与 `ε_M` 独立	允许 U 的存在（即允许未测量混杂影响 M 和 Y），但要求给定 U 后 M 与 Y 无残差关联——这比标准的"顺序可忽略性"更强
Assumption 3	Positivity of T	`ϵ < P(T=1∣z, a, x, s) < 1−ϵ` a.s.	标准
Assumption 4	No M-U interaction	`E[Y∣M, D, X, U, S]` 关于 M 的差异不依赖 U	关键创新点——弱于 `U=∅`，因为允许 U 对 Y 有截距效应（additive effect），但不允许 U 改变 M 对 Y 的效应。较主观检验
Assumption 5	Cross-source alignment	给定 `(D, X)`，源 S 不影响 `(U, M, Y)` 的条件分布	这是数据融合的标准"条件可交换性"但更严格——因为涉及从未共现的潜在变量。比一般融合文献更强
Condition 1	M-Z Completeness	Z 完全捕捉 M 的变异性：无遗忘	这是 IV 推断的核心条件（"relevant"IV 的严格版本），对高维 M/Z 需要谨慎
Condition 4	Z-M Completeness	M 完全捕捉 Z 的变异性：无遗忘	与 Condition 1 一起构成互完备——这使得桥函数唯一且 `w` 有显式形式
Condition 5	Common mediator support	给定 `(T, Z, G, U)`，M 在 `S=1` 下的条件分布与 `P^F` 下的绝对连续	辅助条件，保证正则性

主要结果¶

Theorem 1（存在已知 IV 时的识别）：在 Assumptions 1–5 和 Condition 1 下，NDE_s 和 NIE_s 可识别为：

NDE_s = ψ^{10}_s - ψ^{00}_s
NIE_s = ψ^{11}_s - ψ^{10}_s

其中： - ψ^{11}_s = E[ E[Y | T=1, Z, G, S=0] | S=s ] - ψ^{10}_s = E[ E[ 1(T=1) w^{10}_s(Z, G) Y | G, S=0] | S=s ] - ψ^{00}_s = E[ E[Y | T=0, Z, G, S=0] | S=s ]

直觉：ψ^{11} 和 ψ^{00} 只依赖于 S=0 下的条件均值——因为只要 T 与 Z/G 可交换，Y(t, M(t)) 就是 Y|T=t, Z, G 的期望。交叉项 ψ^{10} 则依赖桥函数 w^{10}_s：它通过源 S=1 的 M 分布（在 T=0 状态下）与源 S=0 的 Z 分布重新加权，模拟出 M(0) 的分布如何与 T=1 下的 Y 条件均值结合。核心难点：这要求解一个积分方程（2）来得到桥函数；在互完备下解唯一，否则可多重。

Theorem 2（当 IV 集需从候选集中学习时）：在 Assumptions 1–6 和 Conditions 2–3 下，最优稀疏解 r^*(M, D, X) 提供了识别有效 IV 集的准则：j ∈ Z ∩ C 当且仅当 r^* 不依赖 D_j。这是一个变量选择结果——本质上是将 "寻找有效 IV" 转化为 "寻找最小支持集" 的稀疏优化问题。该设置假设超过一半候选 IV 有效（|A ∩ C| ≤ (|C| - 1)/2），即"多数有效"。

Theorem 3（互完备下的效率）：在 Condition 1+4（互完备）下，w^{11} 和 w^{00} 有闭式解（倾向性得分倒数）；且桥函数 w^{10} 唯一。在此条件下，影响函数 D^{NDE}_P 与 D^{NIE}_P 是唯一的（从而为规范梯度），因此在 P_comp 模型下达到半参数效率界。关键含义：当 Z 与 M 互完备时，数据分离不带来额外的效率损失——已有单一完整数据源下的最优推断效率可以完全复现。

Theorem 4（多重稳健性）：若四种条件之一的估计量均逐步收敛到真值（或其子集），则一步估计量一致。具体而言： - (M̂ν, ν̂) = (Mν, ν) (即正确估计了 ν 和 Mν) - (M̂ν, ŵ) = (Mν, w) (正确估计了 w) - (ŵ, λ̂) = (w, λ) (正确估计了 w 和 λ) - (λ̂, ŵ_{11}, ŵ_{00}, ν̂_1) = (λ, w_{11}, w_{00}, ν_1) (部分正确) 技术上，这意味着 ν（M分布的反函数）和 w（Z分布的重加权函数）在正确估计 Mν 的前提下，只要一个正确，估计量就一致——经典的双稳健性在积分方程设定下的一次复现。

Theorem 5（渐近正态性与收敛速度）：若所有估计都属于 Donsker 类，且某些乘积误差为 o_P(n^{-1/2}) —— 用速率乘积条件（如 max(||ν̂ - ν||) * max(||ŵ - w||) = o_P(n^{-1/2})）来控制偏置信度。这意味着函数估计可能慢于 √n（如 n^{-1/4} 或更慢），但乘积可达到 √n。这是非参数回归 / 影响函数校正的典型设置。

Theorem 6（无 U 下规范梯度）：当 U = ∅ 但 Condition 4 不成立（即 Z 不完全在 M 中完备）时，规范梯度需要修正——引入 A_P 投影算子，将效率增益从单纯基于 Z 分布的重加权扩展到同时利用 M 分布的条件期望。重要含义：在无 U 但 Z 不互完备时，S=1 样本（含 M）可能为 ψ^{11} 和 ψ^{00} 带来效率改进——与 Theorem 3 形成对比。

证明路线与技术技巧（理论型）¶

整体路线（3-5 步逻辑主干）：

构建桥函数与识别公式（Lemma 1）：
- 利用 Condition 1（M-Z completeness），证明存在 w_s 满足积分方程 (2)：∫ w... p(M|T, Z, ...) p(Z, T|...) dZ = ∫ p(M|T', Z, ...) p(Z|...) dZ。这一步相当于把 M|T' 分布通过 Z 的变异性映射回 T, Z 分布后再重新加权。
- 证明核心：用 E[Y(1, M(0)) | S=0] = E[ E[ Y|T=1, Z, G, S=0 ] • (一些 w-weight) ] 分解即可完成。
影响函数推导（Lemma 2）：
- 对每个 ψ^{tt'}，写出其 [von Mises 展开] 的 Gateaux 导数。通过 pathwise differentiation (pfr: pathwise derivative in Bickel et al.) 得到影响函数形式。具体地，对 ψ^{11} 和 ψ^{00} 的部分直接用条件均值 µ_t；而对跨项 ψ^{10}，每次观测的贡献分解为来源于 S=0 的 Y 部分（通过 w^{10}）和来源于 S=1 的 M 部分（通过 (1 - t) w^{00} λ 项）。
互完备下的唯一性与闭式解（Theorem 3）：
- Condition 1 + Condition 4（Z-M completeness）意味着广义逆的对称性，保证 Mν 与 w 的双射映射。在此条件下，ν 与 w 唯一，且 w^{11} 和 w^{00} 显式等于倾向性得分倒数——这模仿了"缺失数据 + 单一治疗组"的标准双稳健结果。
效率界证明（Lemma 3 + Theorem 3）：
- Lemma 3 证明局部非参数性：条件 4+5 下，模型 P_comp 的切空间与整个 Hilbert 空间同构，因此影响函数唯一（规范梯度）。这是通过条件期望的完备性（Z-M completeness）实现的：它意味着 "将 L^2 空间分解为 IV 方向与 M 方向的正交补，但互完备确保没有丢分量"。
多重稳健性的条件验证（Theorem 4）：
- 通过直接检查一步估计量的偏倚项——利用积分方程将估计误差投影到 ν 或 w 乘积上。证明显示了四种组合中，满足任一就能使剩余偏倚消失。例如：若 ν̂ 一致但 M̂ν 错，则偏倚项为 E[w - ŵ] • (Mν - M̂ν)；若两者交叉乘积为 0，则条件等 (i) 成立。

关键跳跃点： - Lemma 1（桥函数的存在性）：这是最吃功力的部分——需要证明 ∫ w... p(...) dz 的积分可逆性（逆映射存在），并借助 Condition 1（完备性）确保这个逆存在。在离散 (Z, M) 时这是有限维线性系统求解；在连续情况下，Fredholm 方程的解决依靠完备性条件（类似 Newey & Powell 2003 中非参数 IV 的"识别通过完备性"的理论）。 - Theorem 3（互完备下的唯一性）：核心在于同时使用两个方向的完备性（Z|M 与 M|Z），这保证积分方程的解是唯一的。一旦唯一，影响函数教授就是规范梯度。

技术技巧点名： - Fredholm 积分方程（第一类）：求解 ν 和 w 时遇到的核心技术问题。常用于非参数 IV（Newey & Powell 2003; Hall & Horowitz 2005）和 proximal causal inference（Miao et al., 2018）。 - Influence function / pathwise differentiation：标准半参数工具（Bickel et al. 1993; Pfanzagl & Wefelmeyer 1985），用于构建一步估计量并推导效率界。 - Cross-fitting / Donsker 条件：一步估计量证明（Theorem 5）依赖 (M̂ν, ν̂, λ̂, ŵ) 属于固定 Donsker 类——这是样本分割（cross-fitting）可回避的经典技巧（在文中并未显式使用 cross-fitting，但隐含假设）。 - One-step estimator（von Mises expansion）：核心的构建策略：ψ̂ = ψ(P̂) + P_n D_{P̂} ，即通过影响函数校正 plug-in 估计的偏倚。 - 条件期望的完备性（completeness）：在 P_comp 模型中确保局部非参数性（Lemma 3）的关键，源自 Lehmann & Scheffé 的工作。

真实例子与应用¶

数据：阿尔茨海默病神经影像学倡议（ADNI），包含两个不同阶段的子数据集： - 源 0（S=0）：来自 ADNI-1 阶段，n_0 = 328，含 (X, D, Y)：年龄、性别、教育、APOE 基因型、是否MCI、MMSE评分；T：SNP rs610932（是否携带至少一个次要等位基因）；Y：7 年后痴呆诊断。 - 源 1（S=1）：来自 ADNI-GO/2 阶段，n_1 = 352，含 (X, D, M)：M：两个候选基因（PTK2B 和 CD33）的表达水平。

分析方法： 1. 选择 IV（Z）：对每个候选中介（PTK2B、CD33），从 eQTL 摘要中选出最相关的前 50 个 SNP，再与 ADNI 实际测量 SNP 重叠，得到每个中介各 3 个候选 SNP。 2. 应用 IV 选择算法（论文 Section S7）：验证这些候选 SNP 中哪些是有效 IV（即对 Y 无直接效应）。算法对两个中介都成功恢复了全部 3 个候选 IV——这意味着这些候选 SNP 被认为是有效 IV。 3. 估计 NIE：用桥函数 w^{10} 等两步构建一步估计量，得到 NIE 的点估计与 95% CI（通过 bootstrap）。

结果： - 总效应：-0.06（CI [-0.15, 0.02]），不显著，但为负（rs610932 可能保护）。 - PTK2B 的 NIE 估计为负且大小可观（相对于总效应，图 2 显示约 -0.06 到 -0.08），CD33 的 NIE 接近零。统计上不显著（所有 CI 包含 0），是启示性而非决定性结果。 - 这是一个验证理论+展示优势的例子：它证明即使在 (M, Y) 完全分离、且存在未测量混杂的情况下，本文框架仍能产出生物学上似是而非的数值结果。

🔎 结论是否比证明窄？¶

Theorem 3（效率界闭式）仅在互完备下严格证明，但作者在 Introduction 的 1.1 节声称"在适当条件下达到半参数效率界"——这个"适当条件"就是互完备。实际上，在一般的非完备设置下（Condition 1 holds but Condition 4 fails），效率界是未证明开放问题（作者清楚指出来 Section 5："While deriving the canonical gradient relative to P would be ideal, we have not been able to find the form of this gradient; hence, we leave its derivation to future work."）。所以在 General U ≠ ∅ & Z not complete in M 场景下，作者没有任何效率界的 claim——这一点在 Introduction 的"contribution"部分没有充分区分，值得研究者注意。
Theorem 2（IV 选择） 假设 "多数有效"（|A ∩ C| ≤ (|C| - 1)/2）——这是一个很强的联合假设。在真实应用中，验证这一假设可能比选择 IV 本身更难。此外，该选择程序只在 Z ∩ C ≠ ∅ 时有保证；若所有候选都是无效，则算法无法正确识别——虽然理论上该场景不可能发生（若 A ∩ C = C 则 |A ∩ C| > (|C|-1)/2，但若 Z ∩ C 为空，则这个条件本身违反了多数有效的假设）。
Remark 1（Two-sample IV 的连接） 作者只作了 "概念性连接"（识别公式与 two-sample IV 一致），但明确说"full semiparametric efficiency analysis for this special case is left to future work"——所以并没有兑现为完整的推断系统。

四、开放问题（点到为止，扎根具体语句）¶

一般情形下的规范梯度与效率界（Section 5, 原文 "While deriving the canonical gradient relative to P would be ideal, we have not been able to find the form of this gradient; hence, we leave its derivation to future work."）：
- 这是最直接、最明确的开放问题：当同时存在未测量混杂 U 且 Z 在 M 中不完备（Condition 1 holds but Condition 4 fails）时，P 的切空间局部非参数性不再成立，规范梯度未知。要证什么：推导出该切空间的一般形式与对应规范梯度，完成在本文"最难但最现实"场景下的效率分析。
多暴露 / 连续暴露 / 多维 M 的扩展（Introduction 提及"extend readily to discrete multi-level exposure T" 但未证明）：
- 实际证明只在二进制 T 下给出；连续或多维 T 的情况是否直接平行仍待验证。要估什么：T 为连续或有序多分类时的 NDE/NIE 的识别与半参数推断。
互完备条件的可行性与诊断（Condition 4，全文仅 Theorem 3 依赖它）：
- 互完备（Condition 4 + Condition 1 同时成立）在实际中很难检验，因为它涉及 E[h(Z)|M, T, G, S=0] = 0 ⇒ h=0，而 (M, Z) 在 S=0 从未共现（Z 在 S=0 有、M 在 S=0 缺）。如何设计一个合理的诊断/检验来验证互完备是否近似成立？这可能是一个方法论问题——混合了缺失数据与完备性检验。
Two-sample IV 的全套效率理论（Remark 1："A full semiparametric efficiency analysis for this special case is left to future work."）：
- 该文虽连接了两样本 IV，但并未为这一特例构建 complete 推断系统（含效率界、双重稳健估计量、渐近各方）。将本文的 framework 实例化到 Engel's "two-sample IV" 全生命周期（包括连续的 treatment、不满足 IV 完备性时的鲁棒性等）是一个明确的后续。
高维 / 非参数桥函数计算中的正则化策略（Section 4 讨论了 ill-posedness 与 norm-based penalty，但未提供具体算法或收敛分析）：
- 当 Z 或 M 连续、高维时，求解 w 的积分方程变成 ill-posed inverse problem（非参数 IV 的经典困难）。作者推荐 "norm-based penalty" 或 "explicit variance-based penalty"，但不清楚在有限样本下如何实际选择正则参数、以及它如何影响一步估计量的收敛速率。这是一个立即可以发力的计算与渐近联合问题。

⚠️ 确认可查性：要确认第 1 条是否是真 gap，可快速查阅 Li & Luedtke (2023)、Graham et al. (2024) 以及 Cui et al. (2024) 的 introduciton——他们都提供了通用框架的效率分析，但无不适用于"同时有未测量混杂 + M 不完备于 Z"。若都指向同一 gap，则确为研究机会。

Maintained by 陈星宇 · Homepage · Source on GitHub