跳转至

Testing Equality of Conditional Distributions via Generative Models

作者: Hanjia Gao, Linjun Huang, Yun Yang, Xiaofeng Shao
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.06930


一、领域脉络与小综述

这个方向是什么: 条件分布相等性检验(Testing equality of conditional distributions, \(P(Y|X) = Q(Y|X)\))旨在判断给定协变量后,两组响应变量的分布律是否一致。它是非参数假设检验中的经典难题,直接关联因果推断中的不变预测、机器学习中的分布公平性与域适应、以及模拟器验证。当前该方向的成熟度处于“有零散方法、但高维协变量与多变量响应下缺乏统一且计算可行的非参数框架”的阶段。

发展脉络: 1. 条件矩检验(弱假设):早期工作如 Hall & Hart (1990), Kulasekera (1995), Fan & Lin (1998), Neumeyer & Dette (2003) 检验条件矩相等。口子:只能捕捉低阶矩差异,对高阶矩、尾部、多峰性失效。 2. 条件分布拟合优度检验:Andrews (1997), Zheng (2000), Fan et al. (2006), Delgado & Stute (2008) 将无条件两样本检验推广到条件设定。口子:依赖条件密度估计或非参数回归平滑,受协变量维度 \(p\) 的维数灾难制约。 3. Conformal/密度比路线:Hu & Lei (2024) 提出基于 conformal prediction 与加权秩和的检验。口子:依赖条件密度比估计(在高维 \(X\) 下不稳定),且仅针对单变量响应 \(Y\)\(q=1\)),在协变量偏移或分布奇异时性能下降(作者在 Section 6 给出了数值证据)。 4. 核/距离条件检验:Chatterjee et al. (2024), Yan et al. (2025) 发展了基于条件 MMD 或条件能量距离的检验。口子:虽避免密度估计,但仍需在协变量空间 \(X\) 上做局部平滑或邻域构造,高维 \(X\) 下校准不稳定、功效衰减。 5. 生成模型辅助的条件独立性检验(CI):Shi et al. (2021), Zhang et al. (2026) 利用生成模型做 CI 检验(\(X \perp Y | Z\))。口子:CI 是条件分布检验的特例(共享条件变量 \(Z\)),且其统计量是有限变换集的最大值或 U-统计量,而非无穷维 RKHS 经验过程的极大值。

子线索聚类: - A簇(矩/密度路线):关注条件均值/方差/密度,依赖局部平滑,受维数灾难限制。 - B簇(秩/密度比路线):关注分布全局差异,通过分类器估计密度比,受限于单变量响应与协变量偏移。 - C簇(核/距离路线):关注分布全局差异,通过核嵌入或能量距离,受限于协变量空间的局部平滑。 - D簇(生成+核路线):本文及 Shi/Zhang 的工作。利用生成模型“对齐”协变量,将比较移至响应空间,避免在 \(X\) 上平滑。

这个方向在追问的核心问题: 1. 如何在高维 \(X\) 且多变量 \(Y\) 的设定下,构造一个无需局部平滑 \(X\) 的检验统计量? 2. 当使用机器学习(生成模型)作为“插件”估计条件分布时,如何控制其估计误差对检验 Size 与 Power 的影响?(即 Plug-in error 的扰动分析) 3. 如何校准此类非 pivotal 统计量的临界值?

⚠️ 作者的 framing: 作者将缺口 frame 为“局部平滑 \(X\) 的维数灾难”与“密度比估计的不稳定性”,从而让“Cross-generation(用生成器对齐 \(X\),直接在 \(Y\) 空间比较)”成为显然的下一步。作者强调了其 Double-robustness(只要一个生成器准确,检验 Size 即有效)相对于 Hu & Lei (2024) 密度比路线的优势。 被淡化/回避的路线:计算复杂度。Alternating maximization 算法虽利用核技巧有闭式更新,但需迭代且对初始化敏感,理论假设是“精确极大值”(Remark 3.4 承认算法可能不达精确极大值)。此外,对生成模型本身的理论保证(Assumption 4.2)被处理为高层假设,未深入具体架构(如 Diffusion)的收敛率。 缺失的引用:Intro 未提及基于 Wasserstein 距离的条件分布检验文献,也未提及半参数效率理论中关于 DR 估计量的更早期奠基工作(如 Robins et al.),尽管 DR 结构是本文核心卖点。

张力: 未见明显对立引用。Hu & Lei (2024) 与本文在“如何处理高维 \(X\)”上路线不同(密度比 vs 生成器),数值结果(Table 5.2)显示在协变量分布不同时,HL-KLR 严重膨胀(Size 39.8%),而本文方法控制 Size(7.2%),这构成了实证上的张力,但理论上的对立(谁的下界更紧)未被讨论。


二、这篇论文做了什么

三句话: ① 研究了高维协变量与多变量响应下条件分布相等性 \(P(Y_1|X_1)=P(Y_2|X_2)\) 的检验问题。 ② 核心方法是利用条件生成模型进行 Cross-generation(交叉生成响应),构造 RKHS-indexed 经验过程的极大值作为统计量,并用 Multiplier bootstrap 校准。 ③ 主要结论是证明了该统计量在零假设下具有 Double-robustness(生成器误差只需 \(n^{-1/4}\) 衰减率即可保证 Size 有效),并在局部备择假设下具有一致性。

关键设定与假设: - 模型设定\((X_1, Y_1) \sim P\), \((X_2, Y_2) \sim Q\)。允许 \(X_1, X_2\) 依赖,但假设 \(Y_1 \perp Y_2 | (X_1, X_2)\)。 - Noise-outsourcing:利用 Kallenberg (2002) 引理,假设存在生成器 \(G_1^*, G_2^*\) 使得 \(Y_j = G_j^*(X_j, Z_j^*)\)\(Z_j^*\) 为辅助噪声。这是将条件分布转化为可学习映射的理论基础。 - Assumption 2.1 (RKHS 丰富性):核 \(K\) 有界;固定 \(x\) 时,核 \(K_x(y, y')\)\(Y\) 上是 characteristic(保证嵌入识别分布);交互核 \(K'\) 对应的 RKHS \(H'\)\(L^2(P_{X1,X2})\) 中稠密。含义\(H'\) 必须足够丰富以捕捉 \(X_1, X_2\) 的依赖结构,否则统计量可能无法识别备择假设(见 Counterexample C.1)。 - Assumption 2.2 (Overlap)\(P_{X1} \ll P_{X2}\) 且联合分布 \(P(X_1 \in A, X_2 \in A) > 0\)含义:协变量支撑集必须重叠,且依赖结构不能导致“永远不在同一区域同时出现”的情况(见 Counterexample C.2)。 - Assumption 4.1 (Entropy):RKHS 满足 logarithmic-power entropy condition。含义:允许无穷维函数类(如 Gaussian RKHS),保证 Donsker 性质。 - Assumption 4.2 (Generator accuracy)\(\max_\ell E[ \| K((X_1, Y_1^{c*}), \cdot) - K((X_1, \hat{Y}_1^{(\ell)}), \cdot) \|_H^2 ]^{1/2} \le M n^{-k_1}\),且 \(0 < k_1, k_2 < 1/2\)含义:生成器在 RKHS 范数下的联合误差率(不仅是分布误差)需快于 \(n^{-1/2}\)。相比已有文献,这是一个强化的联合耦合假设(Remark 4.3 指出分布一致性不足以推出此假设,需耦合论证)。

主要结果: 1. Theorem 2.1 (识别性):Population discrepancy \(\sup_{\Phi} E[\phi_{f,g,h}] = 0 \iff H_0\) 成立。关键在于交互项 \(h(X_1, X_2)\) 的必要性:若 \(X_1, X_2\) 依赖且 \(h \equiv 1\),统计量可能在备择假设下为零(Cancellation phenomenon)。 2. Theorem 4.2 (Double-robustness): - Null 下\(\sqrt{n}|\hat{U} - U^*| = O_p( n^{-(k_1+k_2-1/2)} \log n )\)。只要 \(k_1+k_2 > 1/2\)(即一个生成器误差 \(n^{-k_1}\),另一个 \(n^{-k_2}\),加和过半),Plug-in error 在 \(\sqrt{n}\) 尺度下可忽略。直觉:Null 下 \(Y_1 =_d Y_1^c | X_1\),一阶扰动项条件期望为零,残差仅含两个生成器误差的乘积项(高阶小)。 - Alt 下\(\sqrt{n}|\hat{U} - U^*| = O_p( n^{-\min(k_1,k_2)+1/2} \log^{1/2} n )\)。误差由最差的生成器决定,无 DR 效应。 3. Proposition 4.1 (Bootstrap DR)\(\sqrt{n}|\hat{U}^b - U^{b*}| = O_p( n^{-\min(k_1,k_2)/2} \log^v n )\)。Bootstrap 统计量在 Null 和 Alt 下误差均可忽略(因 Multiplier centering 消去了确定性偏差)。 4. Theorem 4.4 (Local Power):能检测信号强度 \(\omega( n^{-\min(k_1,k_2)} \log^{1/2} n )\) 的局部备择假设。

证明路线与技术技巧: - 整体路线: 1. 构造统计量:定义 Cross-generated 样本,构造 \(\hat{U} = \sup_{\Phi} P_n \phi\)。 2. Oracle 极限:证明 \(U^*\) 为 Donsker 经验过程极大值,弱收敛至 Gaussian process 极大值 \(\|G\|_\Phi\)。 3. Plug-in 扰动分解:将 \(\hat{U} - U^*\) 通过 Telescoping decomposition 拆为三项 \(U_1^{(\ell)}, U_2^{(\ell)}, U_3^{(\ell)}\)(分别对应生成器 1 误差、生成器 2 误差、双误差交互)。 4. 逐项控制:利用 Symmetrization + Rademacher complexity bound 控制每一项的期望。 5. Null 下的 Cancellation:证明 \(U_1, U_2\) 在 Null 下条件期望为零(Double-robustness 的来源),仅剩 \(U_3\)(乘积项)主导。 6. Bootstrap:Multiplier CLT + 连续映射定理。 - 关键跳跃点: - Lemma F.7 (Telescoping):将 \(\phi(\hat{Y}_1, \hat{Y}_2) - \phi(Y_1^c, Y_2^c)\) 拆解为 \(\phi(Y_1^c, \hat{Y}_1) + \phi(Y_2^c, \hat{Y}_2) + \phi(\hat{Y}_1, \hat{Y}_2)\)。这是分析 Plug-in error 的核心步骤。 - Null 下的 Cancellation (Lemma F.8):证明 \(\mu_1^{(\ell)} = 0\) under Null。关键在于 \(E[g(X_2, Y_2) - g(X_2, Y_2^c) | X_1, X_2] = 0\),因为 \(Y_2 =_d Y_2^c | X_2\) under Null。 - 技术技巧点名: - Noise-outsourcing lemma:将抽象的条件分布转化为具体的生成函数 \(G(x, z)\),使得“交叉生成”操作在数学上严格可行。 - RKHS reproducing property:用于将无穷维优化 \(\sup_{f \in H}\) 转化为有限维核矩阵运算(Proposition 3.1 的 Alternating maximization)。 - Logarithmic-power entropy bound (Lemma F.6):针对非 VC 类(如 Gaussian RKHS)的 Rademacher complexity 控制,推广了 Giné & Guillou (2001) 的 VC 类结果。 - Multiplier bootstrap:用于校准非 pivotal 的 Gaussian process 极大值分布。 - Cross-fitting:样本分割,保证生成器与评估样本独立,使得条件 iid 性质成立,进而可用 Symmetrization。

真实例子与应用: - UTK-Face 数据集: - 场景 1 (Scalar Y, Degraded X):响应为年龄,协变量为 ResNet-18 提取的 512 维特征。通过裁剪/加噪构造 \(X_1\)\(X_5\)(信息逐步退化)。 - 结果:HL 方法(基于密度比)在 \(X\) 退化时 p-value 分散,几乎无功效;本文 MDN 方法 p-value 随 \(X\) 退化单调下降,在 Case 4(纯噪声 \(X\))时 p-value 全接近 0。 - 场景 2 (Multivariate Y, Dependence shift):响应为 (年龄, 性别)。信号在于年龄与性别的依赖结构(趋势相反),而边际分布相似。 - 结果:边际检验(仅年龄或仅性别)功效极低;联合检验(本文方法)p-value 集中在 0 附近,成功检测依赖结构差异。 - 想说明什么:验证在协变量退化/高维(密度比失效)及多变量响应依赖结构差异(边际检验失效)下,本文方法的相对优势。

🔎 结论是否比证明窄: - Assumption 4.2 的可行性:Theorem 4.2 依赖 \(E[\|K((X, Y^c), \cdot) - K((X, \hat{Y}), \cdot)\|_H^2] \le M n^{-k}\)。Remark 4.3 承认这需要“Coupling arguments between oracle and estimated generators”,但正文未证明任何具体生成模型(如 CDM/MDN)满足此假设。这是一个明显的 Gap:理论假设强于当前生成模型理论所能保证的。 - Alternating maximization 的收敛性:Remark 3.4 承认算法可能不达精确极大值,且理论基于精确极大值。结论部分未包含算法近似误差的影响。


三、开放问题

  1. 生成模型的高层假设落地:需证明具体模型(如 Conditional Diffusion Models)在何种原始条件(平滑度、流形假设)下满足 Assumption 4.2 的 RKHS 范数收敛率 \(n^{-k}\)。扎根于 Section 7 "develop more primitive and model-specific conditions..."。
  2. 交互项 \(h\) 的必要性边界:当 \(X_1, X_2\) 独立或同分布时 \(h \equiv 1\) 即可;当 \(X_1, X_2\) 依赖时 \(h\) 必须稠密于 \(L^2\)。是否存在介于两者之间的条件(如弱依赖),使得 \(h\) 可选为低维函数从而降低计算复杂度?扎根于 Counterexample C.1 及 Remark 2.3。
  3. 局部化/诊断工具:拒绝 \(H_0\) 后,如何定位是哪个协变量区域或哪个响应分量导致的拒绝?扎根于 Section 7 "develop diagnostic or localization tools..."。
  4. 算法近似误差的理论纳入:Alternating maximization 的收敛性及其对 Bootstrap validity 的影响。扎根于 Remark 3.4 "theoretical justifications are stated for the exact supremum"。

四、最核心、最简单的例子 / 数学问题

最简特例:依赖协变量下的 Cancellation 现象(Counterexample C.1)

整篇论文的统计量构造核心在于引入交互项 \(h(X_1, X_2)\)。如果没有 \(h\)(即 \(h \equiv 1\)),在 \(X_1, X_2\) 依赖时,统计量可能在备择假设下为零。

设定: - \(X_1, X_2 \in \{0, 1\}\) 依赖:\(P(0,0)=0.4, P(0,1)=0.3, P(1,0)=0.2, P(1,1)=0.1\)。 - \(Y_1, Y_2 \in \{0, 1\}\)。 - 备择假设成立\(P(Y_1=1|X_1=0) = 1/2+\epsilon\), \(P(Y_1=1|X_1=1) = 1/2-\epsilon\);而 \(P(Y_2=1|X_2=0) = 1/2-\epsilon\), \(P(Y_2=1|X_2=1) = 1/2+\epsilon\)。条件分布明显不同。 - 核 \(K((x,y), (x',y')) = 1 + \psi(y)\psi(y')\)(不依赖 \(x\))。此时 \(f(x,y) = a + b\psi(y)\),差值 \(f(x,1)-f(x,0) = \Delta_f\) 不依赖 \(x\)

无交互项 (\(h \equiv 1\)) 的失效: 计算 \(E[ A_f(X_1) B_g(X_2) ]\),其中 \(A_f(x) = E[f(X_1, Y_1) - f(X_1, Y_1^c) | X_1=x] = 2\epsilon \Delta_f (I\{x=0\} - I\{x=1\})\)。 同理 \(B_g(x) = -2\epsilon \Delta_g (I\{x=0\} - I\{x=1\})\)

\[E[A_f(X_1) B_g(X_2)] = -4\epsilon^2 \Delta_f \Delta_g E[ (I\{X_1=0\}-I\{X_1=1\})(I\{X_2=0\}-I\{X_2=1\}) ]\]
代入联合分布计算:
\[= -4\epsilon^2 \Delta_f \Delta_g [ (0.4+0.1) - (0.3+0.2) ] = -4\epsilon^2 \Delta_f \Delta_g [ 0.5 - 0.5 ] = 0\]
结果:尽管条件分布不同(\(\epsilon > 0\)),但由于 \(X_1, X_2\) 的依赖结构恰好使得正负信号抵消,期望为零!统计量无法识别此备择假设。

有交互项 (\(h \in H'\)) 的修复: 取 \(h(x_1, x_2) = (I\{x_1=0\}-I\{x_1=1\})(I\{x_2=0\}-I\{x_2=1\})\)。因 \(H'\) 稠密于 \(L^2\),此 \(h\) 可被近似。

\[E[A_f(X_1) B_g(X_2) h(X_1, X_2)] = -4\epsilon^2 \Delta_f \Delta_g E[h^2(X_1, X_2)] = -4\epsilon^2 \Delta_f \Delta_g \neq 0\]
核心数学:交互项 \(h\) 的作用是“加权”,打破由协变量依赖结构引起的信号抵消,使得条件分布的差异在期望层面不可约减。这解释了为何统计量必须是三重极大值 \(\sup_{f,g,h}\),而非简单的 MMD 形式。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论