Doubly robust conditional independence testing with generative neural networks¶

作者: Yi Zhang, Linjun Huang, Yun Yang, Xiaofeng Shao
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 8/10
链接: https://doi.org/10.1093/jrsssb/qkaf047

一、核心问题与问题与贡献（3句话）¶

研究了给定协变量 \(Z\) 时随机向量 \(X\) 与 \(Y\) 的条件独立性检验问题，其原假设为 \(X \perp\!\!\!\perp Y \mid Z\)，是现代非参数因果图发现的核心子问题。
核心方法是用生成式神经网络（GNN）从两个边际条件分布 \(P_{X\mid Z}\) 与 \(P_{Y\mid Z}\) 分别采样，以此构造一个无需显式估计联合条件分布的检验统计量；该统计量具有双重稳健性，即只要两个 GNN 逼近误差的乘积 \(\varepsilon_X \varepsilon_Y = o(n^{-1/2})\)，就能保留使用真实条件分布的 oracle 检验的全部渐近性质。
主要贡献给出了在原假设和局部备择下该检验统计量的渐近正态性及 bootstrap 一致性证明，并通过数值实验和真实数据分析展示了方法对高维及低维结构数据的适应性，显著放宽了传统方法对单个条件分布逼近误差率必须快于 \(n^{-1/2}\) 的苛刻要求。

二、基础设定¶

核心概念与符号¶

\((X_i, Y_i, Z_i)_{i=1}^n\)：独立同分布样本，\(X \in \mathbb{R}^{d_X}\), \(Y \in \mathbb{R}^{d_Y}\), \(Z \in \mathbb{R}^{d_Z}\)。
\(H_0: X \perp\!\!\!\perp Y \mid Z\)：条件独立原假设。
\(F_{X\mid Z}(x\mid z)\) 与 \(F_{Y\mid Z}(y\mid z)\)：真正的边际条件分布函数。
\(\widehat{F}_{X\mid Z}^{\mathrm{GNN}}\) 与 \(\widehat{F}_{Y\mid Z}^{\mathrm{GNN}}\)：由 GNN 从数据中学习得到的近似条件分布。
\(\varepsilon_X = \|\widehat{F}_{X\mid Z}^{\mathrm{GNN}} - F_{X\mid Z}\|_{L^2(P_Z)}\)，\(\varepsilon_Y\) 类似定义：GNN 逼近的均方误差。
\(T_n\)：本文构造的检验统计量（基于 GNN 抽样，具体形式为积分型 U-统计量的变体）；\(T_n^{\mathrm{or}}\)：使用真实条件分布的 oracle 检验统计量。
\(\sigma_n^2\)：渐近方差，依赖于未知的边际条件分布，由 bootstrap 估计。

关键假设¶

（A1）正则性条件：\(F_{X\mid Z}\) 与 \(F_{Y\mid Z}\) 足够光滑（Hölder 类或 Sobolev 类），使得 GNN 能以多项式速率逼近。与经典非参数核方法相比，该假设允许 \(d_Z\) 较大，只要数据具有低维内在结构（如流形）。
（A2）乘积误差条件：\(\varepsilon_X \varepsilon_Y = o(n^{-1/2})\)。这是双重稳健性的核心条件，比传统要求 \(\varepsilon_X + \varepsilon_Y = o(n^{-1/2})\) 弱得多，直观上允许每个 GNN 的误差慢到 \(n^{-1/4}\) 量级。
（A3）局部备择：在备择下，\(\mathbb{E}[\Delta(X,Y,Z)] = O(n^{-1/2})\)，其中 \(\Delta\) 是某种度量条件偏离的量（如联合与边际乘积之差），以保证检验的局部功效。
（A4）抽样与独立性：GNN 生成的样本与原始数据独立，且抽样次数足够多（使得蒙特卡罗误差可忽略）。
与最相关文献（如 Kernel Conditional Independence Test — KCIT，基于条件互信息的估计）相比，本文不要求精确估计联合条件密度，也不需要核函数带宽选择，从而减弱了对光滑参数的敏感性。

问题背景¶

已有方法的不足：传统 CI 检验（如 KCIT、泛化协方差度量方法）要么依赖显式条件密度估计（维度诅咒严重），要么需要单个条件分布估计误差 \(o(n^{-1/2})\)（在实际中难以验证）。
与2-3篇参考文献的区别：
与 Zhang et al. (2011) 的 KCIT 相比，后者使用核嵌入且无法直接享受双重稳健性；
与 Li & Fan (2020) 的基于深度学习的 CI 检验相比，后者主要关注判别式模型而非生成式采样，没有利用乘积误差松弛；
与 Shah & Bühlmann (2018) 的基于随机森林的条件独立性检验相比，后者缺少对 oracle 渐近性质的理论保证。

三、主要定理 / 核心结果¶

定理1（Oracle 渐近等价性）¶

原文陈述：在假设 (A1)-(A4) 下，若 \(\varepsilon_X \varepsilon_Y = o(n^{-1/2})\)，则

\[\sqrt{n}\,(T_n - T_n^{\mathrm{or}}) = o_p(1),\]

且 \(T_n^{\mathrm{or}}\) 在原假设下依分布收敛于 \(\mathcal{N}(0, \sigma_{\mathrm{or}}^2)\)。因此 \(T_n\) 与 oracle 检验有相同的渐近零分布和局部替代效力。

直观解释：检验统计量对 GNN 误差的耐受性很大——只要两个误差都不要太差（各自最多 \(n^{-1/4}\) 量级），统计量的行为就和使用了真实条件分布一样。这类似于因果推断中双重稳健估计的“拼图”思想：一个错误被另一个错误抵消在一阶。

解决的技术难点：传统泰勒展开要求主项偏差是一阶 \(n^{-1/2}\)，而此处两个误差项的交叉乘积恰好产生一个二阶项，从而不破坏主项的收敛速率。证明需要将 \(T_n - T_n^{\mathrm{or}}\) 分解为三个部分：

\[T_n - T_n^{\mathrm{or}} = A_n(\varepsilon_X) + B_n(\varepsilon_Y) + C_n(\varepsilon_X \varepsilon_Y),\]

其中前两项在 \(\varepsilon_X = O(1), \varepsilon_Y = O(n^{-1/2})\) 时仍可能主导，但通过精心构造的统计量（利用中心化后的指示函数乘积），使得 \(A_n\) 与 \(B_n\) 的期望为零，实际方差却被 \(\varepsilon_X \varepsilon_Y\) 控制。这是证明中最有技巧性的跳跃点：统计量不是直接用 \(F_{X\mid Z}(x\mid Z_i) F_{Y\mid Z}(y\mid Z_i)\) 而是用

\[\widehat{F}_{X\mid Z}^{\mathrm{GNN}}(x\mid Z_i) \widehat{F}_{Y\mid Z}^{\mathrm{GNN}}(y\mid Z_i) - F_{X\mid Z}(x\mid Z_i)F_{Y\mid Z}(y\mid Z_i)\]

的某种经验版本，使得偏差交叉项保留乘积结构。

适用条件与局限： - 必要条件包括 GNN 能够逼近平滑条件分布（但在低维流形下可以放宽）。 - 局限：乘积误差条件仍然要求两个 GNN 都不能太差——若其中一个完全失效（\(\varepsilon_X = O(1)\)），则要求另一个达到参数率 \(n^{-1/2}\)，这比传统条件更难满足。在实际中，GNN 的训练质量难以直接验证。

定理2（Bootstrap 一致性）¶

在原假设下，基于残差 bootstrap 的临界值 \(q_{1-\alpha}^*\) 满足

\[\lim_{n\to\infty} \mathbb{P}(T_n > q_{1-\alpha}^*) = \alpha,\]

且 bootstrap 方差估计量 \(\hat{\sigma}_n^2\) 是 \(\sigma_{\mathrm{or}}^2\) 的相合估计。这保证了检验的尺寸控制。

四、证明框架 / 方法设计¶

证明主干逻辑¶

利用经验过程（empirical process）与U-统计量的分解技巧。核心步骤：

双正交分解：将 \(T_n\) 写成关于 \((X_i, Y_i, Z_i)\) 的 U-统计量形式，并分离出“主项”（仅依赖真实条件分布）与“偏差项”（包含 GNN 估计误差）。
偏差拆解：将偏差项写作 \(D_n = D_{n,1} + D_{n,2} + D_{n,3}\)，其中 \(D_{n,1}\) 仅含 \(\varepsilon_X\)，\(D_{n,2}\) 仅含 \(\varepsilon_Y\)，\(D_{n,3}\) 含 \(\varepsilon_X \varepsilon_Y\)。
E[\(D_{n,1}\)]=0 的构造：关键技巧——统计量不是直接用 \(\widehat{F}\) 替换 \(F\)，而是用残差指示函数 \(\mathbf{1}_{X \le x} - \widehat{F}_{X\mid Z}(x \mid Z)\) 与 \(\mathbf{1}_{Y \le y} - \widehat{F}_{Y\mid Z}(y \mid Z)\) 的乘积，使得单边偏差的期望在给定 \(Z\) 时为零。
方差控制：利用 U-统计量的 Hoeffding 分解，证明 \(Var(D_{n,1} + D_{n,2}) = O(\varepsilon_X^2 \varepsilon_Y^2 + \varepsilon_X^2/n + \varepsilon_Y^2/n)\)，从而在乘积条件下收敛到零。
主项渐近正态：剩余主项是标准 U-统计量，用经典投影法得到正态极限。

最关键的技巧性引理（跳跃点）： - 引理3.2：\(\mathbb{E}\big[ (\mathbf{1}_{X \le x} - \widehat{F}_{X\mid Z}(x \mid Z)) (\mathbf{1}_{Y \le y} - \widehat{F}_{Y\mid Z}(y \mid Z)) \mid Z \big] = (F_{X\mid Z}(x \mid Z) - \widehat{F}_{X\mid Z}(x \mid Z))(F_{Y\mid Z}(y \mid Z) - \widehat{F}_{Y\mid Z}(y \mid Z))\)。这个看似简单的等式是双重稳健性的代数根源——它确保单边残差的交叉期望恰好等于误差之积，而非各自独立的一阶项。

数学工具评价：这是经典 U-统计量结合经验过程的巧妙组合，并未引入全新分析框架。所用工具（投影引理、van der Vaart 的 U-统计量收敛定理）都属于非参数统计的成熟工具箱，但将乘积误差条件与 U-统计量的二阶项结合是新颖的。

五、问题发现：研究者能做什么¶

(A) 立即可做（用 very_familiar 武器）¶

将乘积误差条件推广到高维 U-统计量的双重稳健检验
问题表述：当前检验统计量基于 \((X_i,Y_i,Z_i)\) 的二元交叉项。若定义高阶条件独立度量（例如 \(k\) 个变量联合条件独立于 \(Y\) 给定 \(Z\)，对应 \(k\)-阶 U-统计量），其双重稳健性需要 \(k\) 个 GNN 逼近误差的乘积满足什么条件？
用到的武器：computation of higher-order U-statistics (treewidth / tensor contraction / einsum) —— 可用 tensor-network 成本模型刻画统计量计算复杂度，并类比双变量情形推导乘积误差阶数。
第一步具体动作：写出三变量情形的 U-统计量形式 \(T_n^{(3)} = \frac{1}{\binom{n}{3}} \sum_{i<j<k} \phi(X_i,X_j,X_k, Y_i,Y_j,Y_k, Z_i,Z_j,Z_k)\)，并用 einsum 库计算其收缩成本（对 \(d_Z\) 的依赖），再重做本文引理3.2的代数推导。
与本文关系：直接推广（将 \(k=2\) 推广到一般 \(k\)），属于方法扩展+计算复杂度分析。
用极小极大下界刻画乘积误差条件的必要性与紧性
问题表述：证明（或在何处）存在某个分布类，使得若 \(\varepsilon_X \varepsilon_Y = \omega(n^{-1/2})\)，则任何基于此类 GNN 抽样的检验统计量都无法一致地控制尺寸。
用到的武器：minimax bounds for estimation problems + high-dimensional asymptotics。
第一步具体动作：构造一个最小反例：设 \(d_Z=1\)，取 \(\widehat{F}_{X\mid Z}\) 为某光滑函数类中逼近最慢的估计，计算其极小极大误差率；然后推导测试过程最大功效的极小最大下界，与本文的乘积条件对比。
与本文关系：补全理论紧性——本文只给出了充分性，缺乏必要性的结果。

(B) 中期可做¶

缺哪一块：HOIF 的高阶偏差校正表达式——当前双重稳健性仅消除一阶偏差（线性项），但若两个 GNN 误差都是 \(n^{-1/4}\)，二阶偏差（如 \(\varepsilon_X^2\) 或交叉乘积的更高阶项）仍可能影响统计量。
补哪 1-2 篇文献：
Robins et al. (2008) “Higher order influence functions” 与 Kennedy et al. (2021) “Semiparametric doubly robust targeted double machine learning: a review”。
补完之后能做什么：推导出一个高阶正交的 CI 检验统计量，使其对 GNN 误差的容忍度从 \(o(n^{-1/2})\) 乘积条件进一步提升到 \(\varepsilon_X \varepsilon_Y = O(n^{-\alpha})\) 对任意 \(\alpha < 1/2\) ？具体而言，将 HOIF 的 K-th order 正交性应用于条件分布乘积，得出新的检验统计量。这属于用 moderately_familiar 的 HOIF 和 semiparametric theory 攻克的 A 档问题。

(C) 暂不建议¶

缺什么机器：本文核心机器（U-统计量的双重稳健分解）完全在研究者现有武器库内（very_familiar 有 higher-order U-statistics 计算与因果推断估计理论），因此无暂不建议项。所有可能扩展都已落入 A/B 档。

值得精读的关键参考文献： 1. Kennedy (2022) "Semiparametric doubly robust targeted double machine learning: a review" —— 连接双重稳健性与高阶 IF，是推至 HOIF 的必读。
2. Robins et al. (2008) "Higher order influence functions" —— 提供了 HOIF 的显式构造，可用于 B 项问题。
3. Shah & Bühlmann (2018) "Goodness-of-fit tests for high-dimensional linear models" —— 虽然针对线性模型，但其与乘积误差检验的思想有相似性，可作为对比基准。

六、延伸思考与练习¶

假设扰动：若将乘积误差条件改为 \(\varepsilon_X + \varepsilon_Y = o(n^{-1/2})\)（即传统强条件），则文中证明的偏差拆解中 \(D_{n,1}\) 与 \(D_{n,2}\) 会独立地主导，导致统计量偏差无法控制为 \(o_p(n^{-1/2})\)，检验会失效。技术上需要重新设计统计量（例如引入交叉拟合的 cross-fitting 正交化），这对应于《立即可以做的》第2个方案（minimax 下界）的相反方向，属于 A 档。
开放问题：
本文的检验适用于离散 \(Z\) 或低维连续 \(Z\)，但高维离散化后 GNN 的逼近误差 \(\varepsilon_X\) 可能快速增长——是否存在自适应抽样策略（如主动学习）能改善乘积误差率的实际表现？
bootstrap 方差估计的一致性证明在局部备择下是否仍然成立？这对检验功效的计算至关重要。
理解检测题：
设 \(X\mid Z = z\) 服从均值为 \(z\) 的 Cauchy（厚尾）、\(Y\mid Z = z\) 服从均值为 \(z^2\) 的正态。GNN 估计的边际条件分布误差为 \(\varepsilon_X = n^{-1/3}, \varepsilon_Y = n^{-3/8}\)。判断乘积误差条件是否满足？如果满足，分析本文检验是否仍然能控制第一类错误——（提示：厚尾分布会影响经验过程的收敛率，需额外验证均匀经验过程条件）。

Maintained by 陈星宇 · Homepage · Source on GitHub