Testing Equality of Conditional Distributions via Generative Models¶

作者: Hanjia Gao, Linjun Huang, Yun Yang, Xiaofeng Shao
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.06930

一、领域脉络与小综述¶

这个方向是什么：条件分布相等性检验（Testing equality of conditional distributions, \(P(Y|X) = Q(Y|X)\)）旨在判断给定协变量后，两组响应变量的分布律是否一致。它是非参数假设检验中的经典难题，直接关联因果推断中的不变预测、机器学习中的分布公平性与域适应、以及模拟器验证。当前该方向的成熟度处于“有零散方法、但高维协变量与多变量响应下缺乏统一且计算可行的非参数框架”的阶段。

发展脉络： 1. 条件矩检验（弱假设）：早期工作如 Hall & Hart (1990), Kulasekera (1995), Fan & Lin (1998), Neumeyer & Dette (2003) 检验条件矩相等。口子：只能捕捉低阶矩差异，对高阶矩、尾部、多峰性失效。 2. 条件分布拟合优度检验：Andrews (1997), Zheng (2000), Fan et al. (2006), Delgado & Stute (2008) 将无条件两样本检验推广到条件设定。口子：依赖条件密度估计或非参数回归平滑，受协变量维度 \(p\) 的维数灾难制约。 3. Conformal/密度比路线：Hu & Lei (2024) 提出基于 conformal prediction 与加权秩和的检验。口子：依赖条件密度比估计（在高维 \(X\) 下不稳定），且仅针对单变量响应 \(Y\)（\(q=1\)），在协变量偏移或分布奇异时性能下降（作者在 Section 6 给出了数值证据）。 4. 核/距离条件检验：Chatterjee et al. (2024), Yan et al. (2025) 发展了基于条件 MMD 或条件能量距离的检验。口子：虽避免密度估计，但仍需在协变量空间 \(X\) 上做局部平滑或邻域构造，高维 \(X\) 下校准不稳定、功效衰减。 5. 生成模型辅助的条件独立性检验（CI）：Shi et al. (2021), Zhang et al. (2026) 利用生成模型做 CI 检验（\(X \perp Y | Z\)）。口子：CI 是条件分布检验的特例（共享条件变量 \(Z\)），且其统计量是有限变换集的最大值或 U-统计量，而非无穷维 RKHS 经验过程的极大值。

子线索聚类： - A簇（矩/密度路线）：关注条件均值/方差/密度，依赖局部平滑，受维数灾难限制。 - B簇（秩/密度比路线）：关注分布全局差异，通过分类器估计密度比，受限于单变量响应与协变量偏移。 - C簇（核/距离路线）：关注分布全局差异，通过核嵌入或能量距离，受限于协变量空间的局部平滑。 - D簇（生成+核路线）：本文及 Shi/Zhang 的工作。利用生成模型“对齐”协变量，将比较移至响应空间，避免在 \(X\) 上平滑。

这个方向在追问的核心问题： 1. 如何在高维 \(X\) 且多变量 \(Y\) 的设定下，构造一个无需局部平滑 \(X\) 的检验统计量？ 2. 当使用机器学习（生成模型）作为“插件”估计条件分布时，如何控制其估计误差对检验 Size 与 Power 的影响？（即 Plug-in error 的扰动分析） 3. 如何校准此类非 pivotal 统计量的临界值？

⚠️ 作者的 framing：作者将缺口 frame 为“局部平滑 \(X\) 的维数灾难”与“密度比估计的不稳定性”，从而让“Cross-generation（用生成器对齐 \(X\)，直接在 \(Y\) 空间比较）”成为显然的下一步。作者强调了其 Double-robustness（只要一个生成器准确，检验 Size 即有效）相对于 Hu & Lei (2024) 密度比路线的优势。 被淡化/回避的路线：计算复杂度。Alternating maximization 算法虽利用核技巧有闭式更新，但需迭代且对初始化敏感，理论假设是“精确极大值”（Remark 3.4 承认算法可能不达精确极大值）。此外，对生成模型本身的理论保证（Assumption 4.2）被处理为高层假设，未深入具体架构（如 Diffusion）的收敛率。 缺失的引用：Intro 未提及基于 Wasserstein 距离的条件分布检验文献，也未提及半参数效率理论中关于 DR 估计量的更早期奠基工作（如 Robins et al.），尽管 DR 结构是本文核心卖点。

张力：未见明显对立引用。Hu & Lei (2024) 与本文在“如何处理高维 \(X\)”上路线不同（密度比 vs 生成器），数值结果（Table 5.2）显示在协变量分布不同时，HL-KLR 严重膨胀（Size 39.8%），而本文方法控制 Size（7.2%），这构成了实证上的张力，但理论上的对立（谁的下界更紧）未被讨论。

二、这篇论文做了什么¶

三句话： ① 研究了高维协变量与多变量响应下条件分布相等性 \(P(Y_1|X_1)=P(Y_2|X_2)\) 的检验问题。 ② 核心方法是利用条件生成模型进行 Cross-generation（交叉生成响应），构造 RKHS-indexed 经验过程的极大值作为统计量，并用 Multiplier bootstrap 校准。 ③ 主要结论是证明了该统计量在零假设下具有 Double-robustness（生成器误差只需 \(n^{-1/4}\) 衰减率即可保证 Size 有效），并在局部备择假设下具有一致性。

关键设定与假设： - 模型设定：\((X_1, Y_1) \sim P\), \((X_2, Y_2) \sim Q\)。允许 \(X_1, X_2\) 依赖，但假设 \(Y_1 \perp Y_2 | (X_1, X_2)\)。 - Noise-outsourcing：利用 Kallenberg (2002) 引理，假设存在生成器 \(G_1^*, G_2^*\) 使得 \(Y_j = G_j^*(X_j, Z_j^*)\)，\(Z_j^*\) 为辅助噪声。这是将条件分布转化为可学习映射的理论基础。 - Assumption 2.1 (RKHS 丰富性)：核 \(K\) 有界；固定 \(x\) 时，核 \(K_x(y, y')\) 在 \(Y\) 上是 characteristic（保证嵌入识别分布）；交互核 \(K'\) 对应的 RKHS \(H'\) 在 \(L^2(P_{X1,X2})\) 中稠密。含义：\(H'\) 必须足够丰富以捕捉 \(X_1, X_2\) 的依赖结构，否则统计量可能无法识别备择假设（见 Counterexample C.1）。 - Assumption 2.2 (Overlap)：\(P_{X1} \ll P_{X2}\) 且联合分布 \(P(X_1 \in A, X_2 \in A) > 0\)。含义：协变量支撑集必须重叠，且依赖结构不能导致“永远不在同一区域同时出现”的情况（见 Counterexample C.2）。 - Assumption 4.1 (Entropy)：RKHS 满足 logarithmic-power entropy condition。含义：允许无穷维函数类（如 Gaussian RKHS），保证 Donsker 性质。 - Assumption 4.2 (Generator accuracy)：\(\max_\ell E[ \| K((X_1, Y_1^{c*}), \cdot) - K((X_1, \hat{Y}_1^{(\ell)}), \cdot) \|_H^2 ]^{1/2} \le M n^{-k_1}\)，且 \(0 < k_1, k_2 < 1/2\)。含义：生成器在 RKHS 范数下的联合误差率（不仅是分布误差）需快于 \(n^{-1/2}\)。相比已有文献，这是一个强化的联合耦合假设（Remark 4.3 指出分布一致性不足以推出此假设，需耦合论证）。

主要结果： 1. Theorem 2.1 (识别性)：Population discrepancy \(\sup_{\Phi} E[\phi_{f,g,h}] = 0 \iff H_0\) 成立。关键在于交互项 \(h(X_1, X_2)\) 的必要性：若 \(X_1, X_2\) 依赖且 \(h \equiv 1\)，统计量可能在备择假设下为零（Cancellation phenomenon）。 2. Theorem 4.2 (Double-robustness)： - Null 下：\(\sqrt{n}|\hat{U} - U^*| = O_p( n^{-(k_1+k_2-1/2)} \log n )\)。只要 \(k_1+k_2 > 1/2\)（即一个生成器误差 \(n^{-k_1}\)，另一个 \(n^{-k_2}\)，加和过半），Plug-in error 在 \(\sqrt{n}\) 尺度下可忽略。直觉：Null 下 \(Y_1 =_d Y_1^c | X_1\)，一阶扰动项条件期望为零，残差仅含两个生成器误差的乘积项（高阶小）。 - Alt 下：\(\sqrt{n}|\hat{U} - U^*| = O_p( n^{-\min(k_1,k_2)+1/2} \log^{1/2} n )\)。误差由最差的生成器决定，无 DR 效应。 3. Proposition 4.1 (Bootstrap DR)：\(\sqrt{n}|\hat{U}^b - U^{b*}| = O_p( n^{-\min(k_1,k_2)/2} \log^v n )\)。Bootstrap 统计量在 Null 和 Alt 下误差均可忽略（因 Multiplier centering 消去了确定性偏差）。 4. Theorem 4.4 (Local Power)：能检测信号强度 \(\omega( n^{-\min(k_1,k_2)} \log^{1/2} n )\) 的局部备择假设。

证明路线与技术技巧： - 整体路线： 1. 构造统计量：定义 Cross-generated 样本，构造 \(\hat{U} = \sup_{\Phi} P_n \phi\)。 2. Oracle 极限：证明 \(U^*\) 为 Donsker 经验过程极大值，弱收敛至 Gaussian process 极大值 \(\|G\|_\Phi\)。 3. Plug-in 扰动分解：将 \(\hat{U} - U^*\) 通过 Telescoping decomposition 拆为三项 \(U_1^{(\ell)}, U_2^{(\ell)}, U_3^{(\ell)}\)（分别对应生成器 1 误差、生成器 2 误差、双误差交互）。 4. 逐项控制：利用 Symmetrization + Rademacher complexity bound 控制每一项的期望。 5. Null 下的 Cancellation：证明 \(U_1, U_2\) 在 Null 下条件期望为零（Double-robustness 的来源），仅剩 \(U_3\)（乘积项）主导。 6. Bootstrap：Multiplier CLT + 连续映射定理。 - 关键跳跃点： - Lemma F.7 (Telescoping)：将 \(\phi(\hat{Y}_1, \hat{Y}_2) - \phi(Y_1^c, Y_2^c)\) 拆解为 \(\phi(Y_1^c, \hat{Y}_1) + \phi(Y_2^c, \hat{Y}_2) + \phi(\hat{Y}_1, \hat{Y}_2)\)。这是分析 Plug-in error 的核心步骤。 - Null 下的 Cancellation (Lemma F.8)：证明 \(\mu_1^{(\ell)} = 0\) under Null。关键在于 \(E[g(X_2, Y_2) - g(X_2, Y_2^c) | X_1, X_2] = 0\)，因为 \(Y_2 =_d Y_2^c | X_2\) under Null。 - 技术技巧点名： - Noise-outsourcing lemma：将抽象的条件分布转化为具体的生成函数 \(G(x, z)\)，使得“交叉生成”操作在数学上严格可行。 - RKHS reproducing property：用于将无穷维优化 \(\sup_{f \in H}\) 转化为有限维核矩阵运算（Proposition 3.1 的 Alternating maximization）。 - Logarithmic-power entropy bound (Lemma F.6)：针对非 VC 类（如 Gaussian RKHS）的 Rademacher complexity 控制，推广了 Giné & Guillou (2001) 的 VC 类结果。 - Multiplier bootstrap：用于校准非 pivotal 的 Gaussian process 极大值分布。 - Cross-fitting：样本分割，保证生成器与评估样本独立，使得条件 iid 性质成立，进而可用 Symmetrization。

真实例子与应用： - UTK-Face 数据集： - 场景 1 (Scalar Y, Degraded X)：响应为年龄，协变量为 ResNet-18 提取的 512 维特征。通过裁剪/加噪构造 \(X_1\) 到 \(X_5\)（信息逐步退化）。 - 结果：HL 方法（基于密度比）在 \(X\) 退化时 p-value 分散，几乎无功效；本文 MDN 方法 p-value 随 \(X\) 退化单调下降，在 Case 4（纯噪声 \(X\)）时 p-value 全接近 0。 - 场景 2 (Multivariate Y, Dependence shift)：响应为 (年龄, 性别)。信号在于年龄与性别的依赖结构（趋势相反），而边际分布相似。 - 结果：边际检验（仅年龄或仅性别）功效极低；联合检验（本文方法）p-value 集中在 0 附近，成功检测依赖结构差异。 - 想说明什么：验证在协变量退化/高维（密度比失效）及多变量响应依赖结构差异（边际检验失效）下，本文方法的相对优势。

🔎 结论是否比证明窄： - Assumption 4.2 的可行性：Theorem 4.2 依赖 \(E[\|K((X, Y^c), \cdot) - K((X, \hat{Y}), \cdot)\|_H^2] \le M n^{-k}\)。Remark 4.3 承认这需要“Coupling arguments between oracle and estimated generators”，但正文未证明任何具体生成模型（如 CDM/MDN）满足此假设。这是一个明显的 Gap：理论假设强于当前生成模型理论所能保证的。 - Alternating maximization 的收敛性：Remark 3.4 承认算法可能不达精确极大值，且理论基于精确极大值。结论部分未包含算法近似误差的影响。

三、开放问题¶

生成模型的高层假设落地：需证明具体模型（如 Conditional Diffusion Models）在何种原始条件（平滑度、流形假设）下满足 Assumption 4.2 的 RKHS 范数收敛率 \(n^{-k}\)。扎根于 Section 7 "develop more primitive and model-specific conditions..."。
交互项 \(h\) 的必要性边界：当 \(X_1, X_2\) 独立或同分布时 \(h \equiv 1\) 即可；当 \(X_1, X_2\) 依赖时 \(h\) 必须稠密于 \(L^2\)。是否存在介于两者之间的条件（如弱依赖），使得 \(h\) 可选为低维函数从而降低计算复杂度？扎根于 Counterexample C.1 及 Remark 2.3。
局部化/诊断工具：拒绝 \(H_0\) 后，如何定位是哪个协变量区域或哪个响应分量导致的拒绝？扎根于 Section 7 "develop diagnostic or localization tools..."。
算法近似误差的理论纳入：Alternating maximization 的收敛性及其对 Bootstrap validity 的影响。扎根于 Remark 3.4 "theoretical justifications are stated for the exact supremum"。

四、最核心、最简单的例子 / 数学问题¶

最简特例：依赖协变量下的 Cancellation 现象（Counterexample C.1）

整篇论文的统计量构造核心在于引入交互项 \(h(X_1, X_2)\)。如果没有 \(h\)（即 \(h \equiv 1\)），在 \(X_1, X_2\) 依赖时，统计量可能在备择假设下为零。

设定： - \(X_1, X_2 \in \{0, 1\}\) 依赖：\(P(0,0)=0.4, P(0,1)=0.3, P(1,0)=0.2, P(1,1)=0.1\)。 - \(Y_1, Y_2 \in \{0, 1\}\)。 - 备择假设成立：\(P(Y_1=1|X_1=0) = 1/2+\epsilon\), \(P(Y_1=1|X_1=1) = 1/2-\epsilon\)；而 \(P(Y_2=1|X_2=0) = 1/2-\epsilon\), \(P(Y_2=1|X_2=1) = 1/2+\epsilon\)。条件分布明显不同。 - 核 \(K((x,y), (x',y')) = 1 + \psi(y)\psi(y')\)（不依赖 \(x\)）。此时 \(f(x,y) = a + b\psi(y)\)，差值 \(f(x,1)-f(x,0) = \Delta_f\) 不依赖 \(x\)。

无交互项 (\(h \equiv 1\)) 的失效：计算 \(E[ A_f(X_1) B_g(X_2) ]\)，其中 \(A_f(x) = E[f(X_1, Y_1) - f(X_1, Y_1^c) | X_1=x] = 2\epsilon \Delta_f (I\{x=0\} - I\{x=1\})\)。同理 \(B_g(x) = -2\epsilon \Delta_g (I\{x=0\} - I\{x=1\})\)。

\[E[A_f(X_1) B_g(X_2)] = -4\epsilon^2 \Delta_f \Delta_g E[ (I\{X_1=0\}-I\{X_1=1\})(I\{X_2=0\}-I\{X_2=1\}) ]\]

代入联合分布计算：

\[= -4\epsilon^2 \Delta_f \Delta_g [ (0.4+0.1) - (0.3+0.2) ] = -4\epsilon^2 \Delta_f \Delta_g [ 0.5 - 0.5 ] = 0\]

结果：尽管条件分布不同（\(\epsilon > 0\)），但由于 \(X_1, X_2\) 的依赖结构恰好使得正负信号抵消，期望为零！统计量无法识别此备择假设。

有交互项 (\(h \in H'\)) 的修复：取 \(h(x_1, x_2) = (I\{x_1=0\}-I\{x_1=1\})(I\{x_2=0\}-I\{x_2=1\})\)。因 \(H'\) 稠密于 \(L^2\)，此 \(h\) 可被近似。

\[E[A_f(X_1) B_g(X_2) h(X_1, X_2)] = -4\epsilon^2 \Delta_f \Delta_g E[h^2(X_1, X_2)] = -4\epsilon^2 \Delta_f \Delta_g \neq 0\]

核心数学：交互项 \(h\) 的作用是“加权”，打破由协变量依赖结构引起的信号抵消，使得条件分布的差异在期望层面不可约减。这解释了为何统计量必须是三重极大值 \(\sup_{f,g,h}\)，而非简单的 MMD 形式。

Maintained by 陈星宇 · Homepage · Source on GitHub

Testing Equality of Conditional Distributions via Generative Models¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论