DeLIVR: a deep learning approach to IV regression for testing nonlinear causal effects in transcriptome-wide association studies¶

作者: Ruoyu He, Mingyang Liu, Zhaotong Lin, Zhong Zhuang, Xiaotong Shen et al.
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: University of Minnesota（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxac051

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在两样本工具变量（IV）设定下，如何对暴露（基因表达）对结局（复杂性状）的非线性因果效应进行非参数估计与假设检验。当前该方向的成熟度处于“方法初步成型但理论未闭合”的阶段——已有非参数估计路线（DeepIV），但受不适定逆问题困扰且完全缺乏推断框架；已有参数/半参数路线（TWAS-L, TWAS-LQ），但模型刚性导致对一般非线性效应检验 power 不足。本文试图在非参数灵活性与推断可行性之间切出一个新位置。

发展脉络： - 奠基工作：标准 TWAS（如 PrediXcan, TWAS-L）将两样本 TWAS 视为两阶段最小二乘（2SLS）IV 回归，仅建模线性效应 \(Y = \beta X + \varepsilon\)。作者引用时指出其局限："TWAS-L only considers a linear relationship... which may lose statistical power when not true"。 - 主要进展（参数扩展）：TWAS-LQ 将 stage 2 扩展至线性+二次效应 \(Y = \beta_1 X + \beta_2 X^2 + \varepsilon\)。作者判断："not flexible enough due to its parametric nature and may be low powered for nonquadratic nonlinear effects"。 - 主要进展（非参数估计）：DeepIV（Hartford et al., 2017）引入深度学习做 IV 非参数回归，估计结构函数 \(E[Y|X=x]\) 需求解积分方程（不适定逆问题）。作者判断："both slow and unstable due to the ill-posed inverse problem of solving an integral equation with Monte Carlo approximations. Furthermore... statistical inference... was not studied"。 - 当前 frontier 与本文位置：本文提出 DeLIVR，通过“估计一个相关但不同的目标函数”回避不适定逆问题，并补上假设检验框架，定位为 DeepIV 的直接修正与 TWAS-L/LQ 的非参数升级。

子线索聚类： 1. 参数/半参数 TWAS 路线（PrediXcan, TWAS-FUSION, TWAS-LQ）：基于 2SLS 或广义矩估计（GMM），推断理论成熟（Wald test），但效应形式刚性（线性或二次）。 2. 非参数 IV 估计路线（DeepIV, 纠偏 IV 系列）：用 NN/核方法估计结构函数，直面不适定逆问题或用 sieve/penalization 控制复杂度，计算慢/理论重，且推断（尤其是非参数假设检验）缺位。 3. 两样本 IV 与因果推断路线（如 Proximal IV, Negative Control）：处理隐藏混杂或无效工具变量，关注 identification 而非非线性效应检验，本文未在此线展开。

这个方向在追问的核心问题： 1. 在两样本 IV 设定下，如何识别非线性因果效应？（identification 条件是什么、需要哪些矩约束） 2. 如何回避或稳定求解 IV 非参数回归中的不适定逆问题？（DeepIV 的 Monte Carlo 积分方程解法不稳定，是否有替代目标函数） 3. 如何对非线性因果效应构建假设检验？（\(H_0: \text{nonlinear effect}=0\) 的检验统计量及其渐近零分布） 4. 非参数 IV 估计量的收敛速率与效率如何？（受不适定逆问题阶数影响，是否达到 minimax 或 semiparametric efficiency bound）

⚠️ 作者的 framing： - 作者把缺口 frame 成：DeepIV 有非参数灵活性但缺推断且计算不稳，TWAS-L/LQ 有推断但缺灵活性——DeLIVR 是“既有灵活性又有推断且计算稳”的显然下一步。 - 被淡化或回避的竞争路线：半参数 IV / sieve IV / penalized IV 的理论路线（如 Newey & Powell 2003, Horowitz 2011 等，intro 未引），这些路线在不适定逆问题下有明确的收敛速率与 minimax 结果，且部分已有基于 sieve 的推断方法。另外，Proximal IV / Negative Control 路线（处理无效 IV）也未提及，本文仍依赖标准 IV 假设（IV validity & exogeneity）。 - 明显该被引却未出现的：非参数 IV 的 minimax 理论（不适定逆问题的收敛速率文献）、semiparametric efficiency bound for IV regression（如果 DeLIVR 估的是不同目标函数，其效率界是什么？）、two-sample IV 的推断理论（两样本设定下估计量的渐近分布与 one-sample 有何不同）。这些是研究者值得去查的问题。

张力：未见明显对立引用。各路线在不同设定下互补：参数路线在线性/二次下 power 高但非一般非线性下 power 低；DeepIV 在非线性下灵活但推断缺位且计算不稳。本文声称在非线性下既灵活又可推断，但理论细节（如目标函数改变后的 identification 与渐近分布）需在第三节审视。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Z\)：工具变量（IV），如 SNP 基因型。可观测，在样本 1（表达数据）与样本 2（性状数据）中均有测量。
\(X\)：暴露/处理，如基因表达量。潜在内生（受混杂 \(U\) 影响）。在样本 1 中可观测（\(X_1, Z_1\)），在样本 2 中不可观测（只有 \(Z_2, Y_2\)）。
\(Y\)：结局/性状，如 HDL/LDL。在样本 2 中可观测（\(Y_2, Z_2\)），在样本 1 中不可观测。
\(U\)：隐藏混杂。不可观测，同时影响 \(X\) 与 \(Y\)。
\(d\)：\(Z\) 的维数（SNP 数量），\(p\) 为 \(X\) 的维数（本文核心设定 \(p=1\)，单基因表达）。
\(n_1, n_2\)：样本 1 与样本 2 的样本量。
\(f(X)\)：结构函数，定义为 \(f(x) = E[Y | X=x, U=u]\)（在 \(U\) 条件下 \(Y\) 对 \(X\) 的因果效应函数）。这是想要但观测不到的目标（因 \(U\) 不可观测）。
\(m(Z)\)：第一阶段/混淆函数，\(m(z) = E[X | Z=z]\)。可从样本 1 估计。
\(h(Z)\)：缩减/投影函数，\(h(z) = E[Y | Z=z]\)。可从样本 2 估计。
\(g(Z)\)：本文的替代目标函数，定义为 \(g(z) = E[f(X) | Z=z]\)。注意：\(g(z) = h(z)\) 当且仅当 \(E[U|Z]=0\)（IV 排他性假设下成立）。本文估 \(g\) 而非直接估 \(f\)。
\(H_0\)：零假设，非线性因果效应为零。本文定义为 \(H_0: f(X) = \beta X\)（即结构函数是线性的）。

模型（数据生成机制）：两样本 IV 回归模型： - 第一阶段：\(X = m(Z) + \varepsilon_X\), \(E[\varepsilon_X | Z] = 0\)。 - 结构方程：\(Y = f(X) + U + \varepsilon_Y\), \(E[\varepsilon_Y | X, U] = 0\)。 - IV 假设：\(E[U | Z] = 0\)（排他性），\(Z\) 与 \(X\) 相关（相关性）。 - 两样本设定：样本 1 观测 \((X_1, Z_1)\)，样本 2 观测 \((Y_2, Z_2)\)，\(X_2\) 缺失。

可观测数据： - 样本 1：\(\{(X_{1i}, Z_{1i})\}_{i=1}^{n_1}\)，用于估计 \(m(z)\)。 - 样本 2：\(\{(Y_{2j}, Z_{2j})\}_{j=1}^{n_2}\)，用于估计 \(h(z)\) 或 \(g(z)\)。 - 不可观测/靠假设识别：\(U\)（靠 IV 排他性假设识别 \(f\)），\(f(X)\)（靠 IV 矩条件 \(E[Y-m(Z)|Z]=0\) 或本文的替代目标识别）。

第二步：最小内核——为什么估 \(g\) 回避了不适定逆问题，以及检验怎么做

最简特例：\(p=1\)（单暴露），\(d=1\)（单 IV），非线性效应检验

在 DeepIV 路线中，要估 \(f(x)\)，需解积分方程：

\[h(z) = E[f(X) | Z=z] = \int f(x) p(x|z) dx\]

这是 Fredholm 第一类积分方程，已知 \(h(z)\)（从样本 2 估）与 \(p(x|z)\)（从样本 1 估），求 \(f(x)\)。这是不适定逆问题：解 \(f\) 不连续依赖于 \(h\) 与 \(p(x|z)\) 的误差，需数值求逆（Monte Carlo 近似），导致慢且不稳。

本文的最小内核：不估 \(f(x)\)，改估 \(g(z) = E[f(X)|Z=z]\)。在 IV 排他性假设 \(E[U|Z]=0\) 下：

\[E[Y|Z=z] = E[f(X)+U+\varepsilon_Y|Z=z] = E[f(X)|Z=z] = g(z)\]

因此，\(g(z) = h(z) = E[Y|Z=z]\)。\(g(z)\) 可以直接从样本 2 的 \((Y_2, Z_2)\) 非参数估计，无需解任何积分方程。这就是“估计一个相关但不同的目标函数”回避不适定逆问题的核心：把目标从 \(f(x)\)（需逆问题）换成 \(g(z)\)（直接回归 \(Y\) on \(Z\)）。

检验怎么做：零假设 \(H_0: f(X) = \beta X\)。在 \(H_0\) 下：

\[g(z) = E[\beta X | Z=z] = \beta m(z)\]

因此，\(H_0\) 等价于 \(g(z) = \beta m(z)\)，即 \(E[Y|Z=z] = \beta E[X|Z=z]\)。这是一个可从数据直接检验的矩条件：

\[E[Y - \beta m(Z) | Z] = 0\]

本文的检验策略：用 NN 估计 \(g(z)\)（即 \(\hat{g}(z)\)）与 \(m(z)\)（即 \(\hat{m}(z)\)），然后检验 \(\hat{g}(z)\) 是否可被 \(\beta \hat{m}(z)\) 线性表示。具体地，构造检验统计量衡量 \(\hat{g}(z) - \hat{\beta} \hat{m}(z)\) 的偏离程度（如基于 M-estimation 的距离或残差平方和），并在 \(H_0\) 下推导其渐近分布（本文用 bootstrap 或渐近正态）。

最小内核总结：论文在数学上干的事是——把 IV 非参数回归的目标从结构函数 \(f(x)\)（不适定逆问题）换成投影函数 \(g(z)=E[f(X)|Z]\)（直接回归，适定问题），并利用 \(H_0: f(x)=\beta x\) 下 \(g(z)=\beta m(z)\) 的等价关系，把非线性因果效应检验转化为对 \(g(z)\) 与 \(m(z)\) 线性关系的检验。一般情形（\(p>1, d>1\), NN 逼近, 两样本误差传播）只是这个内核的“加壳”。

三、这篇论文做了什么¶

三句话： 1. 研究了两样本 IV 回归设定下，基因表达对性状的非线性因果效应的估计与检验问题。 2. 核心方法是通过估计投影函数 \(g(z)=E[f(X)|Z]\) 回避不适定逆问题，并用深度学习（NN）估计 \(g\) 与第一阶段 \(m\)，构建基于 M-estimation 的非线性效应假设检验框架。 3. 主要结论是 DeLIVR 比 DeepIV 计算更快更稳（回避积分方程），且提供了可行的假设检验；在 GTEx/UK Biobank 数据上检出 TWAS-L/LQ/DeepIV 遗漏的多个非线性关联基因。

关键设定与假设： - 两样本 IV 设定：样本 1 有 \((X_1, Z_1)\)，样本 2 有 \((Y_2, Z_2)\)，\(X_2\) 缺失。这是 TWAS 的标准设定（表达数据与性状数据来自不同队列）。 - IV 假设：(i) \(E[U|Z]=0\)（排他性，\(Z\) 不直接影响 \(Y\) 除通过 \(X\)）； \(Z\) 与 \(X\) 相关（第一阶段相关性）。这与标准 TWAS/2SLS 相同，未放宽。 - 结构方程假设：\(Y = f(X) + U + \varepsilon_Y\)，\(f\) 未知非参数函数，\(U\) 为加性混杂（加性混杂假设是关键，保证 \(g(z)=h(z)\)）。 - 非线性效应零假设：\(H_0: f(X) = \beta X\)（纯线性效应）。检验目标是非线性偏离 \(f(X) - \beta X\) 是否为零。 - NN 逼近假设：\(g(z)\) 与 \(m(z)\) 可被 NN 类逼近（非参数回归标准假设），本文用 feedforward NN。

主要结果：

回避不适定逆问题的识别结果（理论内核）：
在 IV 排他性与加性混杂假设下，\(g(z) = E[Y|Z=z]\)，因此 \(g(z)\) 可直接从样本 2 识别与估计，无需解积分方程。这解决了 DeepIV 的计算不稳定问题。
统计含义：把目标从“对 \(X\) 的结构函数”换成“对 \(Z\) 的投影函数”，牺牲了直接得到 \(f(x)\) 的能力（\(g(z)\) 是 \(f\) 在 \(Z\) 上的平滑投影，分辨率受 \(p(x|z)\) 的方差限制），但换来计算稳定性与推断可行性。
假设检验框架（核心推断结果）：
\(H_0: f(X)=\beta X\) 等价于 \(H_0: g(z) = \beta m(z)\)。
构造 M-estimation 目标函数：估计 \(\hat{g}(z)\)（NN 回归 \(Y_2\) on \(Z_2\)）与 \(\hat{m}(z)\)（NN 回归 \(X_1\) on \(Z_1\)），然后估计 \(\beta\)（如通过最小化 \(\sum_j (\hat{g}(Z_{2j}) - \beta \hat{m}(Z_{2j}))^2\)）。
检验统计量：衡量 \(\hat{g}(z) - \hat{\beta} \hat{m}(z)\) 的偏离（如残差平方和或基于 influence function 的距离）。
渐近零分布：本文推导了检验统计量在 \(H_0\) 下的渐近分布（涉及两样本 NN 估计量的误差传播与 M-estimation 的渐近理论），并提供了 bootstrap 校准方法。
直觉：如果 \(g(z)\) 与 \(m(z)\) 线性相关，则 \(f\) 是线性效应；否则存在非线性效应。检验本质是“非参数回归残差的线性性检验”。
与 DeepIV 的对比（计算与稳定性）：
DeepIV 需 Monte Carlo 解积分方程（不适定，误差放大），DeLIVR 直接回归（适定，误差可控）。
模拟显示 DeLIVR 计算时间显著减少（无积分方程迭代），稳定性提高（无 Monte Carlo 随机性）。

证明路线与技术技巧：

整体路线：
识别：在 IV 假设下，证明 \(g(z)=h(z)=E[Y|Z=z]\)，把目标从 \(f(x)\) 转为 \(g(z)\)。
估计：用 NN 分别在样本 1 估 \(\hat{m}(z)\)（\(X_1\) on \(Z_1\)），样本 2 估 \(\hat{g}(z)\)（\(Y_2\) on \(Z_2\)）。
参数估计：基于 \(\hat{g}\) 与 \(\hat{m}\)，用 M-estimation 估 \(\beta\)（线性效应系数）。
检验构造：构造衡量 \(\hat{g} - \hat{\beta}\hat{m}\) 偏离的统计量 \(T_n\)。
渐近分布：推导 \(T_n\) 在 \(H_0\) 下的渐近分布，涉及两样本 NN 估计误差的传播与 M-estimation 的线性化。
关键跳跃点：
两样本 NN 估计量的误差传播：\(\hat{g}\) 与 \(\hat{m}\) 的误差如何影响 \(\hat{\beta}\) 与 \(T_n\) 的渐近分布？这是两样本推断的核心难点（不同于 one-sample，估计误差来自不同样本且不独立）。作者用 M-estimation 的 influence function 展开处理误差传播。
NN 逼近误差的渐近处理：NN 是非参数估计量，逼近误差（bias）与采样误差（variance）如何平衡以使检验有正确 size？作者需假设 NN 逼近速率足够快（under-smoothing）以使 bias 不影响渐近分布。
技术技巧点名：
M-estimation theory：用于推导 \(\hat{\beta}\) 与 \(T_n\) 的渐近分布，线性化 influence function 展开处理两样本误差传播。
Neural network nonparametric regression：用于估计 \(g(z)\) 与 \(m(z)\)，利用 NN 的逼近能力（非参数灵活性）。
Under-smoothing / bias-variance tradeoff：NN 的 tuning（如隐藏层大小、正则化）需选在 under-smoothing 端以使检验 size 正确（bias 可忽略）。
Bootstrap / resampling：用于校准检验统计量的零分布，处理渐近分布中的复杂协方差结构（两样本误差传播）。
IV moment condition / projection：核心识别技巧，把 \(E[Y|Z]\) 投影到 \(E[f(X)|Z]\) 回避逆问题。

真实例子与应用：

数据：GTEx（基因表达数据，样本 1）与 UK Biobank（HDL/LDL 性状数据，样本 2）。这是 TWAS 的标准两样本数据组合。
应用方式：对每个基因，用 GTEx 数据估 \(\hat{m}(z)\)（表达对 SNP 的回归），用 UK Biobank 数据估 \(\hat{g}(z)\)（HDL/LDL 对 SNP 的回归），然后检验 \(g(z)\) 是否线性于 \(m(z)\)（即非线性因果效应是否为零）。
结果：
DeLIVR 对 HDL 检出 8 个非线性关联基因（如 BUD13），对 LDL 检出 7 个（如 SLC44A2, GMIP），这些基因被 TWAS-L（线性）、TWAS-LQ（二次）、DeepIV（非参数但无检验）均遗漏。
BUD13（HDL 关联）与 SLC44A2/GMIP（LDL 关联）有先前文献支持（生物学验证）。
例子想说明什么：展示 DeLIVR 相对参数方法（TWAS-L/LQ）在非线性效应检验上的 power 优势，相对 DeepIV 在计算稳定性与推断可行性上的优势。这是方法验证+展示相对 baseline 优势的例子。

🔎 结论是否比证明窄： - 本文声称 DeLIVR 提供了假设检验框架，但渐近分布的严格推导可能依赖 NN 的 under-smoothing 假设与特定 M-estimation 结构，这些条件在定理中明确但在应用中可能难以验证（NN 的逼近速率与 tuning 如何保证 under-smoothing）。 - 本文声称 \(g(z)\) 估计回避了不适定逆问题，但 \(g(z)\) 是 \(f(x)\) 的投影，分辨率受 \(p(x|z)\) 的方差限制（如果 \(Z\) 对 \(X\) 的解释力弱，\(g(z)\) 对 \(f(x)\) 的逼近也弱），这一限制在理论部分可能被轻描淡写（“相关但不同的目标函数”的代价未充分量化）。 - 检验的 \(H_0: f(X)=\beta X\) 是加性线性效应，如果混杂 \(U\) 与 \(X\) 有交互（非加性混杂），\(g(z)=E[f(X)|Z]+E[U|Z]\) 的分解不成立，检验可能失效——这一条件在假设中可能被隐含但未强调。

四、开放问题（点到为止，扎根具体语句）¶

\(g(z)\) 对 \(f(x)\) 的逼近精度与检验 power 的定量关系：本文估 \(g(z)\) 而非 \(f(x)\)，回避了不适定逆问题，但 \(g(z)\) 是 \(f\) 在 \(Z\) 上的投影，分辨率受 \(p(x|z)\) 的方差限制。如果 \(Z\) 是弱工具变量（\(Z\) 对 \(X\) 解释力弱），\(g(z)\) 对 \(f(x)\) 的逼近精度如何衰减？这直接影响检验 power。扎根点：Abstract 提到 "estimating a related but different target function"，但未量化 "different" 带来的信息损失。
NN under-smoothing 的可操作性与检验 size 的稳健性：检验的渐近零分布依赖 NN 逼近误差可忽略，需 under-smoothing。实际中 NN 的 tuning（隐藏层大小、正则化）如何操作化地保证 under-smoothing？扎根点：推断理论部分（定理条件）要求逼近速率足够快，但模拟/应用中 NN tuning 是按预测误差（cross-validation）选的，这通常不是 under-smoothing。
非加性混杂下的识别与检验：本文依赖 \(Y = f(X) + U + \varepsilon_Y\)（加性混杂），保证 \(g(z)=E[f(X)|Z]\)。如果 \(U\) 与 \(X\) 有交互（如 \(Y = f(X, U)\)），\(g(z)\) 的分解不成立，检验失效。能否在非加性混杂下构造类似的替代目标函数与检验？扎根点：假设部分隐含加性混杂，但未讨论放宽可能性。
两样本设定下 DeLIVR 估计量的 semiparametric efficiency bound：本文估 \(g(z)\) 与 \(\beta\)，其渐近分布通过 M-estimation 推导。但 \(g(z)\) 的估计是否达到两样本 IV 回归下投影函数的 semiparametric efficiency bound？扎根点：Abstract/Intro 未提及效率界，只强调计算稳定性与推断可行性，理论部分可能未推导效率界。

Maintained by 陈星宇 · Homepage · Source on GitHub

DeLIVR: a deep learning approach to IV regression for testing nonlinear causal effects in transcriptome-wide association studies¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论