On the properties of distance covariance for categorical data: Robustness, sure screening, and approximate null distributions¶
作者: Qingyang Zhang
来源: Scandinavian Journal of Statistics
主题: 其他
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:如何对分类变量(离散/列联表数据)进行有效的独立性检验与变量筛选,尤其是在列联表维度(类别数 \(p, q\))随样本量发散或远大于样本量、导致表格极度稀疏(大量零单元格)的设定下。传统的 Pearson 卡方检验或 G-test 在稀疏大表下不仅第一类错误失控,统计功效也急剧衰减。当前该方向的成熟度处于“新泛函/新检验刚提出,理论性质(鲁棒性、相合性、计算捷径)正在被系统补全”的阶段。
发展脉络: - 奠基工作:Szekely et al. (2007) 提出了距离协方差/距离相关,证明了它在连续变量下是“零即独立”的泛函,且经验估计基于欧氏距离而非样本矩,为非参数独立性检验提供了新范式。 - 主要进展(连续→离散的移植):Zhang (2019) 首次将距离协方差移植到分类变量,推导了分类情形下距离相关的显式公式,并提出了置换检验;Berrett & Samworth (2021) 提出了基于四阶 U-统计量的 U-statistic permutation (USP) 检验,证明了该 U-统计量是自然依赖泛函的唯一最小方差无偏估计,且在小样本/稀疏表下严格控制第一类错误。 - 当前 frontier(高维筛选与计算捷径):Fan & Lv (2008) 与 Fan & Song (2009) 建立了连续变量下 sure independence screening 的理论框架;Huang et al. (2014) 将其推广至分类变量的 Pearson 卡方筛选;Li et al. (2012) 提出了基于距离相关的连续变量筛选 (DC-SIS);Shen & Vogelstein (2019) 为连续变量的距离相关提出了自由度为 1 的卡方近似零分布,试图绕开置换检验的计算瓶颈。 - 本文的位置:本文填补了“分类变量下距离协方差”的三个理论空白——(1)鲁棒性(证明其 B-robust 而卡方不具备);(2)筛选相合性(将 DC-SIS 推广至分类设定并证明强相合);(3)近似零分布(为偏差校正的距离相关估计推导加权卡方近似,绕过置换计算)。
子线索聚类: 1. 泛函与检验构造线:Szekely et al. (2007) → Zhang (2019) → Berrett & Samworth (2021)。这一簇在寻找“零即独立”的泛函及其无偏/有偏估计,并构造置换检验。核心分歧在于估计量选择:Zhang (2019) 用了最大似然估计(有偏),Berrett & Samworth (2021) 用了四阶 U-统计量(无偏)。 2. 高维筛选线:Fan & Lv (2008) → Fan & Song (2009) → Huang et al. (2014) → Li et al. (2012)。这一簇在建立“sure screening”理论,从线性模型/连续变量扩展到广义线性模型/分类变量。Huang et al. (2014) 是分类变量筛选的基准,但作者指出其 maximum ratio 方法在大稀疏表下不稳定。 3. 计算捷径与近似零分布线:Shen & Vogelstein (2019) → 本文。这一簇试图为距离相关/协方差寻找无需置换的近似零分布,以降低计算代价。Shen et al. 提出了自由度为 1 的卡方近似,本文在此基础上推导了更精确的加权卡方近似。
这个方向在追问的核心问题: 1. 稀疏大列联表下,什么泛函/检验能同时保证第一类错误控制与高功效? 已知卡方检验失效,USP 与距离协方差置换检验是当前候选,但各自的理论性质(鲁棒性、功效界)尚未完全补全。 2. 高维分类变量筛选的 sure screening 条件与相合性界是什么? 连续变量下已有完备理论,分类变量下 Huang et al. (2014) 给出了卡方筛选的相合性,但稀疏设定下的稳定性与相合性界仍缺。 3. 如何绕过置换检验的 \(O(n^2)\) 或更高计算代价? 置换检验虽能严格控制第一类错误,但计算昂贵;近似零分布是否能在保持功效的同时提供快速检验?
⚠️ 作者的 framing: - 作者将缺口 frame 为:Pearson 卡方在稀疏大表下功效低且不鲁棒,而距离协方差虽已被提出用于分类数据(Zhang 2019; Berrett & Samworth 2021),但其鲁棒性、筛选相合性、近似零分布三个关键性质尚未被系统研究——本文正是填补这三个空白。 - 被淡化或回避的竞争路线:作者未在 intro 中讨论核方法独立性检验(如 HSIC / Gretton et al. 2005;仅 Zhang et al. 2016 出现在参考文献但未在 intro 被引用讨论),也未对比基于似然比的 G-test 在稀疏表下的鲁棒性/功效差异。此外,Berrett & Samworth (2021) 的 USP 检验已被证明是 minimax optimal(Berrett, Kontoyiannis, Samworth 2020),作者未在 intro 中正面比较距离协方差筛选与 USP 在功效界上的理论优劣。 - 明显该被引却未出现的:HSIC / MMD 相关的独立性检验文献(Gretton et al. 2005; Sejdinovic et al. 2013)在分类数据下也有推广(通过核化),但 intro 未提及;此外,高维分类变量筛选的交互效应筛选文献(如 Huang et al. 2014 讨论了交互效应,但本文筛选理论仅覆盖边际独立性)也未被充分对比。
张力: 未见明显对立引用。Zhang (2019) 与 Berrett & Samworth (2021) 在估计量选择上有分歧(有偏 vs 无偏),但作者在本文中同时讨论了两者,并指出 Zhang (2019) 的 MLE 用于置换检验、Berrett & Samworth (2021) 的 U-统计量用于 USP,未宣称一方绝对优于另一方。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(X, Y\):两个分类随机变量,\(X\) 取值于 \(\{1, \ldots, p\}\),\(Y\) 取值于 \(\{1, \ldots, q\}\)。
- \(p, q\):类别数,可以是固定常数,也可以随样本量 \(n\) 发散(\(p_n, q_n \to \infty\))。
- \(n\):样本量。
- \(\pi_{ij}\):联合概率,\(P(X=i, Y=j) = \pi_{ij}\)。
- \(\pi_{i+}, \pi_{+j}\):边际概率,\(\pi_{i+} = P(X=i)\),\(\pi_{+j} = P(Y=j)\)。
- \(\Delta(X, Y)\):距离协方差泛函,即本文的核心 estimand,定义为联合分布与边际分布乘积在特定距离核下的 \(L^2\) 距离。
- \(R(X, Y)\):距离相关泛函,\(\Delta(X, Y)\) 的标准化版本。
- \(\hat{\Delta}_n\):距离协方差的经验估计(基于样本的 V-统计量/有偏估计)。
- \(\hat{\Delta}_n^U\):距离协方差的无偏 U-统计量估计(四阶 U-统计量,即 Berrett & Samworth 2021 使用的)。
- \(\hat{R}_n^*\):偏差校正的距离相关估计,本文推导近似零分布的对象。
- \(\mathbf{1}_{X=i}, \mathbf{1}_{Y=j}\):指示变量。
- \(a_{ij} = |i - j|\) 或其他距离度量:分类变量取值之间的距离(本文默认用绝对差 \(|i-j|\),但理论适用于一般距离)。
-
\(IF(\cdot; \Delta, F)\):影响泛函,用于定义 B-robustness。
-
模型: 数据生成机制:\((X, Y)\) 服从 \(\{1,\ldots,p\} \times \{1,\ldots,q\}\) 上的某个联合分布 \(F\),联合概率为 \(\pi_{ij}\),边际为 \(\pi_{i+}, \pi_{+j}\)。独立性假设 \(H_0\) 即 \(\pi_{ij} = \pi_{i+}\pi_{+j}\) 对所有 \(i,j\)。要估的对象是 \(\Delta(X, Y)\)(衡量偏离独立性的程度),要检验的是 \(H_0: \Delta(X, Y) = 0\)。
-
可观测数据: 研究者实际能观测到的是 \(n\) 个独立同分布的样本 \((X_1, Y_1), \ldots, (X_n, Y_n)\),每个样本取值于 \(\{1,\ldots,p\} \times \{1,\ldots,q\}\)。这些样本可以汇总成 \(p \times q\) 的列联表,单元格频数为 \(n_{ij} = \sum_{k=1}^n \mathbf{1}_{X_k=i, Y_k=j}\)。不可观测的是真实的联合概率 \(\pi_{ij}\) 与边际概率 \(\pi_{i+}, \pi_{+j}\),只能靠样本频数估计。在稀疏设定下(\(pq \gg n\)),大量 \(n_{ij} = 0\),导致传统卡方检验失效。
第二步:最小内核——分类变量距离协方差的显式公式与 B-robustness
整篇论文的数学内核建立在分类变量下距离协方差泛函的显式公式之上。一旦有了显式公式,鲁棒性、筛选相合性、近似零分布的推导都顺理成章。最简特例是 \(p=q=2\)(二值变量)且距离为绝对差 \(a_{ij} = |i-j|\)。
在这个特例下: - \(X, Y \in \{1, 2\}\),联合概率为 \(\pi_{11}, \pi_{12}, \pi_{21}, \pi_{22}\),边际为 \(\pi_{1+}, \pi_{2+}, \pi_{+1}, \pi_{+2}\)。 - 距离核:\(a_{ij} = |i-j|\),即 \(a_{11}=0, a_{12}=1, a_{21}=1, a_{22}=0\)。 - 距离协方差泛函 \(\Delta(X, Y)\) 的显式公式(Zhang 2019 推导的一般公式的特例)退化为:
B-robustness 的最小内核: - B-robustness 定义:泛函 \(T(F)\) 是 B-robust 的,若其影响泛函 \(IF(x; T, F)\) 在 \(F\) 的支撑上有界。 - 对 Pearson 卡方泛函 \(\chi^2 = \sum_{ij} (\pi_{ij} - \pi_{i+}\pi_{+j})^2 / (\pi_{i+}\pi_{+j})\),影响泛函在 \(\pi_{i+}\pi_{+j} \to 0\) 时无界(分母趋于零),故非 B-robust。 - 对距离协方差 \(\Delta(X, Y)\),在二值特例下 \(IF(x; \Delta, F)\) 是 \(\pi_{ij}\) 的连续函数,且无分母项,故在 \(\pi_{i+}\pi_{+j} \to 0\) 时仍保持有界。一般 \(p, q\) 下,显式公式中 \(\Delta\) 是 \(\pi_{ij}\) 的二次型,无除以边际概率的操作,因此 \(IF\) 有界——这就是本文定理 1 的核心:距离协方差泛函对任意 \(p, q\)(固定或发散)都是 B-robust 的,而卡方泛函不是。
筛选相合性的最小内核: - 在高维筛选设定下,有 \(d\) 个分类协变量 \(X_1, \ldots, X_d\),要筛选出与响应 \(Y\) 不独立的协变量。筛选条件是保留 \(\Delta(X_k, Y) \geq c_n\) 的变量。 - 强相合性要求:\(P(\text{保留所有真实相关变量}) \to 1\) 且 \(P(\text{不保留不相关变量}) \to 1\)。 - 最简特例下,\(\Delta(X_k, Y) = 4(\pi_{12}^{(k)} - \pi_{1+}^{(k)}\pi_{+2})^2\),只要真实相关变量的 \(\Delta\) 不随 \(n\) 衰减过快(条件 \(\Delta(X_k, Y) \geq c n^{-\kappa}\)),经验估计 \(\hat{\Delta}_n^{(k)}\) 的偏差与方差可被显式控制,从而保证相合性。
近似零分布的最小内核: - 偏差校正的距离相关估计 \(\hat{R}_n^*\) 在 \(H_0\) 下的近似零分布。 - 二值特例下,\(\hat{R}_n^*\) 退化为样本协方差的标准化版本,其零分布可由加权卡方近似(因为它是二次型)。
三、这篇论文做了什么¶
三句话: ①研究了分类变量下距离协方差的三个关键统计性质:鲁棒性、筛选相合性、近似零分布。 ②核心工具是分类变量下距离协方差的显式公式展开、影响泛函计算、U/V-统计量的偏差与方差界、以及二次型的加权卡方近似。 ③主要结论:距离协方差泛函是 B-robust 的(卡方不是);距离协方差筛选在温和条件下强相合;偏差校正距离相关估计的零分布可由加权卡方近似,无需置换。
关键设定与假设: - 设定:\((X, Y)\) 为分类变量,\(X \in \{1,\ldots,p\}\),\(Y \in \{1,\ldots,q\}\),\(p, q\) 可固定或发散。距离度量 \(a_{ij}\) 为分类取值之间的距离(默认 \(|i-j|\),但理论适用于一般强负型距离)。 - 假设 1(鲁棒性):无额外假设,仅要求 \(p, q\) 有限或发散,证明 \(\Delta(X, Y)\) 的 \(IF\) 有界。 - 假设 2(筛选相合性): - (A1) 最小边际概率 \(\min_{i} \pi_{i+} \geq c_1 n^{-\alpha_1}\),\(\min_{j} \pi_{+j} \geq c_2 n^{-\alpha_2}\)(防止极端稀疏导致估计方差爆炸)。 - (A2) 真实相关变量的信号强度 \(\Delta(X_k, Y) \geq c n^{-\kappa}\)(保证信号不被噪声淹没)。 - (A3) 维数 \(d\) 可随 \(n\) 发散,但满足 \(d = O(e^{n^\tau})\) 或类似条件。 - 相比 Huang et al. (2014) 的卡方筛选,本文假设放宽了边际概率的下界要求(因为距离协方差无分母,不需要 \(\pi_{i+}\pi_{+j} \geq c/n\) 的强条件)。 - 假设 3(近似零分布):\(H_0\) 下 \(\Delta(X, Y) = 0\),样本量 \(n \to \infty\),类别数 \(p, q\) 固定。
主要结果: 1. 定理 1(B-robustness):距离协方差泛函 \(\Delta(X, Y)\) 对任意 \(p, q\)(固定或发散)是 B-robust 的,即 \(IF(x; \Delta, F)\) 在 \(F\) 的支撑上有界。Pearson 卡方泛函 \(\chi^2\) 的 \(IF\) 在 \(\pi_{i+}\pi_{+j} \to 0\) 时无界,故非 B-robust。 - 直觉:\(\Delta\) 是 \(\pi_{ij}\) 的二次型,无除以边际概率的操作;\(\chi^2\) 有分母 \(\pi_{i+}\pi_{+j}\),稀疏时爆炸。 - 必要条件:仅需距离核 \(a_{ij}\) 有界(强负型距离满足此条件)。 - 技术难点:计算分类变量下 \(\Delta\) 的 \(IF\) 需要显式公式展开,作者利用 Zhang (2019) 的公式完成了展开与界控制。
- 定理 2-3(Sure Screening Consistency):在假设 (A1)-(A3) 下,距离协方差筛选具有强相合性:
- \(P(\mathcal{M}_* \subseteq \hat{\mathcal{M}}_\gamma) \to 1\)(保留所有真实相关变量),
- \(P(|\hat{\mathcal{M}}_\gamma| \leq O(n^{2\kappa + \alpha_1 + \alpha_2})\)(不保留过多不相关变量)。
- 直觉:\(\hat{\Delta}_n\) 的偏差为 \(O(1/n)\),方差为 \(O(1/n^2)\)(U-统计量性质),信号强度 \(\Delta \geq c n^{-\kappa}\) 时,经验估计能可靠区分信号与噪声。
-
相比 Huang et al. (2014):卡方筛选需要 \(\pi_{i+}\pi_{+j} \geq c/n\) 的强条件,距离协方差仅需 \(\pi_{i+} \geq c n^{-\alpha_1}\),\(\pi_{+j} \geq c n^{-\alpha_2}\),条件更弱。
-
定理 4-5(Approximate Null Distribution):偏差校正距离相关估计 \(\hat{R}_n^*\) 在 \(H_0\) 下的零分布可由加权卡方分布近似:
\[\hat{R}_n^* \approx \sum_{l=1}^{L} \lambda_l Z_l^2\]其中 \(Z_l\) 为独立标准正态,\(\lambda_l\) 为距离核矩阵的特征值。当 \(p=q=2\) 且 \(a_{ij}=|i-j|\) 时,退化为单倍卡方(自由度 1),与 Shen et al. (2019) 的结果一致;一般情形下是加权卡方。 - 直觉:\(\hat{R}_n^*\) 是二次型统计量,其零分布可由二次型的谱分解近似。
- 技术难点:偏差校正后的 \(\hat{R}_n^*\) 不是简单的 V-统计量,需要精确计算其期望与方差,并证明加权卡方近似在 \(n \to \infty\) 时的有效性。
证明路线与技术技巧: - 整体路线: 1. 利用 Zhang (2019) 的显式公式,将 \(\Delta(X, Y)\) 写成 \(\pi_{ij}\) 的二次型。 2. 计算二次型泛函的影响泛函 \(IF\),证明其有界(定理 1)。 3. 对经验估计 \(\hat{\Delta}_n\)(V-统计量)或 \(\hat{\Delta}_n^U\)(U-统计量),计算偏差与方差界,结合信号强度假设证明筛选相合性(定理 2-3)。 4. 对偏差校正的 \(\hat{R}_n^*\),在 \(H_0\) 下展开为二次型,计算其谱分解,推导加权卡方近似(定理 4-5)。
- 关键跳跃点:
- 定理 1 的关键在于显式公式展开:分类变量下 \(\Delta(X, Y)\) 的公式涉及双重求和 \(\sum_{i,i'} \sum_{j,j'} a_{ii'} a_{jj'} (\pi_{ij} - \pi_{i+}\pi_{+j})(\pi_{i'j'} - \pi_{i'+}\pi_{+j'})\),计算 \(IF\) 需要对 \(\pi_{ij}\) 求导并控制界。作者利用了二次型结构,避免了分母项。
- 定理 2-3 的关键在于U/V-统计量的偏差-方差分解:\(\hat{\Delta}_n\) 的偏差为 \(O(1/n)\)(V-统计量固有偏差),方差为 \(O(1/n^2)\)(H-decomposition 的核心项)。在稀疏设定下,偏差与方差的界需要额外控制边际概率的下界(假设 A1),否则方差可能爆炸。
-
定理 4-5 的关键在于偏差校正后的二次型谱分解:\(\hat{R}_n^*\) 不是标准 V-统计量,需要先校正偏差(减去期望),再对剩余二次型做谱分解。作者证明了校正后的二次型可由距离核矩阵的特征值加权卡方近似。
-
技术技巧点名:
- 影响泛函计算:用于定理 1,证明 B-robustness。具体操作是对 \(\Delta\) 的显式公式求导,得到 \(IF(x; \Delta, F)\) 的表达式,然后证明其在 \(\pi_{ij} \to 0\) 时有界。
- H-decomposition / U-统计量偏差-方差界:用于定理 2-3,控制经验估计的偏差与方差。V-统计量的偏差为 \(O(1/n)\),U-统计量的方差由核函数的退化阶数决定。
- 二次型谱分解 / 加权卡方近似:用于定理 4-5,将偏差校正的 \(\hat{R}_n^*\) 在 \(H_0\) 下展开为 \(\sum \lambda_l Z_l^2\)。这是经典技巧(如 Box 1963 的二次型零分布理论),本文将其适配到距离相关的分类变量版本。
- 距离核矩阵的特征值计算:用于定理 4-5,计算加权卡方的权重 \(\lambda_l\)。在分类变量下,距离核矩阵 \(A = [a_{ii'}]\) 是固定矩阵,其特征值可显式计算(如 \(a_{ij}=|i-j|\) 时特征值有闭式)。
真实例子与应用: - GSS (General Social Survey) 数据:作者用 GSS 数据演示距离协方差筛选。场景:响应变量为分类(如婚姻状态),协变量为多个分类变量(如教育水平、宗教信仰等)。方法:计算每个协变量与响应的距离协方差,按阈值筛选。结果:距离协方差筛选保留了与婚姻状态显著相关的变量,而卡方筛选在稀疏单元格上漏掉了部分相关变量(因为卡方值不稳定)。这个例子想说明:在真实稀疏分类数据上,距离协方差筛选比卡方筛选更稳定、更全面。 - 模拟实验: - 场景 1-2:固定 \(p, q\),比较距离协方差置换检验、USP 检验、卡方检验、G-test 的第一类错误与功效。结果:距离协方差置换检验与 USP 严格控制第一类错误,功效在稀疏设定下优于卡方。 - 场景 3-6:发散 \(p_n, q_n\),比较距离协方差筛选与卡方筛选的保留率与错误率。结果:距离协方差筛选在 \(pq \gg n\) 时仍保持高保留率,卡方筛选的保留率急剧下降。 - 场景 7-8:近似零分布的检验功效与置换检验的比较。结果:加权卡方近似的功效与置换检验接近,但计算时间从 \(O(n^2 B)\)(\(B\) 为置换次数)降至 \(O(n)\)。
🔎 结论是否比证明窄: - 定理 1 的 B-robustness 结论在“任意 \(p, q\)(发散)”下被证明,但 \(IF\) 的界在 \(p, q \to \infty\) 时可能随 \(p, q\) 增长(界是 \(O(\max a_{ij})\),若 \(a_{ij}=|i-j|\) 则界为 \(O(pq)\))。作者未明确讨论 \(IF\) 界在 \(p, q \to \infty\) 时的增长速率对鲁棒性实际意义的影响——这是一个值得研究者核查的点。 - 定理 4-5 的加权卡方近似在“固定 \(p, q\)”下被证明,但作者在模拟中测试了发散 \(p_n, q_n\) 的情形,发现近似仍有效。这是一个未被严格证明但被模拟支持的 claim(原文第 5 节:"simulations confirm its effectiveness"),研究者应留意此 gap。
四、开放问题(点到为止,扎根具体语句)¶
- 发散类别数下近似零分布的严格理论:定理 4-5 仅在固定 \(p, q\) 下证明了加权卡方近似,模拟显示发散 \(p_n, q_n\) 下近似仍有效,但严格理论缺失。扎根点:原文第 5 节 "we derive an approximate null distribution for a bias-corrected distance correlation estimate" 仅陈述固定情形,发散情形的证明是 open。
- 距离协方差筛选与 USP 筛选的理论与实证对比:本文证明了距离协方差筛选的相合性,但未与 Berrett & Samworth (2021) 的 USP 检验在筛选设定下做理论功效界对比(USP 已被证明 minimax optimal,距离协方差是否也 minimax optimal?)。扎根点:原文 intro 仅提及 USP 是另一条路线,未讨论其筛选相合性或 minimax 性质。
- 影响泛函界在发散 \(p, q\) 下的实际鲁棒性意义:定理 1 证明 \(IF\) 有界,但界可能随 \(p, q\) 增长(\(O(pq)\))。在 \(pq \gg n\) 时,界增长是否削弱鲁棒性的实际意义?扎根点:定理 1 的证明中 \(IF\) 界依赖于 \(\max a_{ij}\),若 \(a_{ij}=|i-j|\) 则界为 \(O(pq)\),原文未讨论此依赖的统计后果。
- 交互效应与条件独立性筛选:本文筛选仅覆盖边际独立性 \(\Delta(X_k, Y)\),未扩展到条件独立性 \(\Delta(X_k, Y | W)\) 或交互效应筛选。扎根点:原文第 4 节末提及 "a normalized version of \(\Delta(X_k, Y | W_1, \ldots, W_s)\) could be used as a correlation metric within existing network learning algorithms like the PC algorithm",但未给出条件独立性筛选的理论。
Maintained by 陈星宇 · Homepage · Source on GitHub