SID: A novel class of nonparametric tests of independence for censored outcomes¶

作者: Jinhong Li, Jicai Liu, Jinhong You, Riquan Zhang
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在右删失生存数据下，如何非参数地检验一个生存时间 \(T\) 与一组协变量 \(X\) 之间的独立性。经典的独立性检验（如距离相关 dCor、HSIC）要求对 \((T, X)\) 有完全观测；但在生存分析中，\(T\) 常被删失时间 \(C\) 截断，只能观测到 \(Y = \min(T, C)\) 与删失指示 \(\delta = I(T \le C)\)。直接把 \(Y\) 当作 \(T\) 的代理去跑经典检验会出错（因为 \(Y\) 与 \(X\) 独立绝不意味着 \(T\) 与 \(X\) 独立），而直接估 \(T\) 的分布再算相关又受限于 Kaplan-Meier 的高维诅咒与非光滑性。当前该方向的成熟度处于“有零散的专门检验被提出，但缺乏像完全数据下 dCor/HSIC 那样统一、有清晰渐近理论且计算可行的非参数度量族”的阶段。

发展脉络： - 奠基工作（完全数据下的非参数独立性度量）：Székely et al. (2007) 提出距离协方差，确立了“度量零当且仅当独立、基于距离可算”的范式。Sejdinovic et al. (2012) 证明距离相关与 RKHS 嵌入下的 MMD/HSIC 在负定半度量下等价，把统计文献与机器学习文献统一。Weihs et al. (2017) 把基于秩的对称协方差（如 Hoeffding's D）统一进 Symmetric Rank Covariances 框架，并给出高效 U-统计量算法。这些工作为独立性检验提供了“零值 ⇔ 独立”的度量基石，但均未触及删失机制。 - 主要进展（条件独立与特征函数路线）：Su & White (2003) 用条件特征函数构造条件独立性检验，走泛函 delta 方法路线；Ke & Yin (2020) 提出基于条件与边际特征函数差异的独立性度量，并指出其落入 RKHS 大框架；Wang et al. (2015) 提出条件距离相关。这些工作把独立性检验推向条件与泛函层面，但仍只处理完全观测。 - 当前 frontier（删失数据下的独立性检验）：Fernandez et al. (2019) 提出基于核的对数秩检验，把对数秩检验的权重函数放入 RKHS，取其上确界，等价于 HSIC 型嵌入差范数，并用野自助法取临界值。这是目前最直接处理右删失下非参数独立性检验的工作，但其度量形式依赖于核的选择与对数秩结构，未给出更一般的度量族框架。 - 本文的位置：Li et al. (本文) 提出生存独立散度（SID），用计数过程策略把删失下的不可检验独立性等价转化为完全观测上的检验问题，构造出一族新度量，零值 ⇔ \(T\) 与 \(X\) 独立，并给出经验估计的渐近性质与野自助一致性。

子线索聚类： 1. 距离 / RKHS 嵌入度量簇：Székely et al. (2007) → Sejdinovic et al. (2012) → Wang et al. (2015) → Ke & Yin (2020)。这一簇用距离或核把分布差嵌入 Hilbert 空间，用范数度量依赖。核心瓶颈：依赖完全观测，对删失无直接定义。 2. 特征函数 / 泛函路线簇：Su & White (2003) → Ke & Yin (2020)。用特征函数的相等性刻画独立，走泛函展开与 delta 方法。瓶颈：特征函数在删失下不可直接算，需估生存函数。 3. 删失数据专门检验簇：Fernandez et al. (2019)（核对数秩） → 本文 SID。这一簇直接面对右删失，用生存分析结构（对数秩 / 计数过程）绕开直接估 \(T\) 的分布。瓶颈：如何保证度量零 ⇔ 独立且检验对所有备择有势。

这个方向在追问的核心问题： 1. 识别问题：在只能观测 \((Y, \delta, X)\) 时，如何构造一个度量 \(D(T, X)\) 使得 \(D = 0 \iff T \perp X\)，且 \(D\) 只依赖可观测量的分布？ 2. 估计与渐近问题：经验估计 \(\hat{D}\) 在什么条件下收敛？收敛速率是什么？零假设下的渐近分布是什么（通常非标准，因度量是泛函的二次型）？ 3. 检验一致性与临界值：如何获取临界值（野自助法？置换？），自助法在零假设与备择下是否一致？ 4. 计算可行性：在高维 \(X\) 或大样本下，度量与自助法能否在多项式时间内算完？（Schrab et al. (2022) 在完全数据下用不完全 U-统计量把 HSIC 从 \(O(n^2)\) 降到 \(O(n)\)，删失下尚无此类加速。）

⚠️ 作者的 framing： - 作者把缺口 frame 成：现有删失下的独立性检验（如 Fernandez et al. 2019 的核对数秩）依赖于特定的对数秩结构或核选择，缺乏一个像完全数据下 dCor/HSIC 那样统一、零 ⇔ 独立、可检测非线性依赖的度量族，且现有方法在经验估计与自助法的渐近理论上不够系统。SID 通过计数过程策略填补了这个缺口。 - 被淡化或回避的竞争路线：作者未深入讨论直接用 Kaplan-Meier 估 \(T\) 的分布再套用 dCor/HSIC 这条路线的困难（如高维下 KM 不光滑、收敛慢），只在数值实验中与基于 KM 的方法比较。也未讨论基于特征函数的路线（Su & White 2003, Ke & Yin 2020）在删失下的推广可能。 - 明显该被引 / 该存在却未出现在 intro 里的：Schrab et al. (2022) 关于不完全 U-统计量与计算效率的工作——本文的 SID 估计量本质上是某种 U-统计量或 V-统计量，计算与自助法的计算复杂度是实际瓶颈，但 intro 未提及计算效率的文献。此外，Rodrigues et al. (2018) 关于区间删失的工作在 intro 被引，但本文只处理右删失，区间删失的推广完全没谈——这是一个值得研究者去查的缺口。

张力：未见明显对立引用。Fernandez et al. (2019) 与本文 SID 是同一设定下的不同构造，前者用对数秩 + RKHS，后者用计数过程 + 距离/核型泛函，理论结论（零 ⇔ 独立、自助一致）方向一致，但度量形式与渐近分布不同。数值实验中两者表现有差异，但无理论层面的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(T\)：感兴趣的生存时间（随机变量，潜在 / 不可完全观测）。
\(X\)：协变量向量（随机变量，维数 \(d_x\)，完全可观测）。
\(C\)：删失时间（随机变量，不可观测，只能通过 \(Y\) 与 \(\delta\) 间接推断）。
\(Y = \min(T, C)\)：观测时间（随机变量，可观测）。
\(\delta = I(T \le C)\)：删失指示（随机变量，取值 0 或 1，可观测；\(\delta=1\) 表示未删失，\(T=Y\)；\(\delta=0\) 表示删失，只知 \(T > Y\)）。
\(G(t \mid x) = P(C > t \mid X=x)\)：给定 \(X\) 下删失时间的条件生存函数（未知分布函数，需假设可估）。
\(N(t) = I(Y \le t, \delta=1)\)：计数过程（可观测，记录在时间 \(t\) 前是否发生未删失事件）。
\(M(t) = N(t) - \int_0^t I(Y \ge s) \lambda_T(s \mid X) ds\)：\(T\) 的条件强度对应的鞅（不可观测，因为 \(\lambda_T\) 未知，但这是理论推导的核心中间量）。
\(n\)：样本量。
\((Y_i, \delta_i, X_i), i=1,\dots,n\)：可观测的 i.i.d. 样本。

模型：数据生成机制：\((T_i, C_i, X_i)\) i.i.d. 生成，\(T_i\) 与 \(C_i\) 在给定 \(X_i\) 下条件独立（独立删失假设，即 \(T \perp C \mid X\)）。研究者只观测到 \((Y_i, \delta_i, X_i)\)。目标是检验 \(H_0: T \perp X\) vs \(H_1: T \not\perp X\)。

可观测数据：实际能观测到的是 \(n\) 个 i.i.d. 的三元组 \((Y_i, \delta_i, X_i)\)。\(T_i\) 在 \(\delta_i=0\) 时不可观测（只知 \(T_i > Y_i\)）。想要但观测不到的是 \((T_i, X_i)\) 的完全联合分布——只能靠独立删失假设与计数过程策略去识别。

第二步：最小内核——计数过程策略下的独立性等价转化

剥掉所有泛函距离与核的包装，支撑整篇论文的最小内核是：在独立删失假设下，\(T \perp X\) 这一不可直接检验的假设，可以等价转化为一个只涉及可观测量的鞅均值为零的检验问题。

最简特例：单时间点 \(t\) 下的等价转化：考虑一个固定时间点 \(t\)。零假设 \(H_0: T \perp X\) 下，\(T\) 的边际生存函数 \(S_T(t) = P(T > t)\) 与条件生存函数 \(S_T(t \mid x) = P(T > t \mid X=x)\) 相等，即 \(S_T(t \mid x) - S_T(t) = 0\) 对所有 \(x\) 成立。但 \(S_T(t \mid x)\) 不可直接算（因 \(T\) 被删失）。

计数过程策略的关键跳跃：利用独立删失假设 \(T \perp C \mid X\)，定义可观测的计数过程 \(N(t) = I(Y \le t, \delta=1)\) 与风险过程 \(R(t) = I(Y \ge t)\)。定义鞅：

\[M(t) = N(t) - \int_0^t R(s) \lambda_T(s \mid X) ds\]

其中 \(\lambda_T(s \mid X)\) 是 \(T\) 给定 \(X\) 的条件 hazard。在独立删失下，\(M(t)\) 是关于 \((Y, X)\) 生成的过滤的鞅。

现在，把 \(S_T(t \mid x) - S_T(t)\) 用鞅表示。由生存函数与累积 hazard 的关系：

\[S_T(t \mid x) = \exp\left(-\int_0^t \lambda_T(s \mid x) ds\right)\]

在 \(H_0\) 下，\(\lambda_T(s \mid x) = \lambda_T(s)\)（边际 hazard）。于是：

\[\int_0^t R(s) \lambda_T(s \mid X) ds = \int_0^t R(s) \lambda_T(s) ds \quad \text{(a.s. under } H_0)\]

这意味着，在 \(H_0\) 下，把 \(M(t)\) 中的条件 hazard 替换为边际 hazard \(\lambda_T(s)\)，得到的

\[\tilde{M}(t) = N(t) - \int_0^t R(s) \lambda_T(s) ds\]

仍然是鞅（因为 \(H_0\) 下两者相等）。而 \(\tilde{M}(t)\) 只依赖可观测的 \(N(t), R(t)\) 与边际 hazard \(\lambda_T(s)\)（不依赖 \(X\)）。

进一步，考虑泛函 \(E[\tilde{M}(t) w(X)]\)，其中 \(w(X)\) 是某个权重函数。在 \(H_0\) 下，因为 \(\tilde{M}(t)\) 是鞅且与 \(X\) 的函数独立（边际 hazard 不依赖 \(X\)），有 \(E[\tilde{M}(t) w(X)] = 0\)。反过来，如果对所有 \(w\) 都有 \(E[\tilde{M}(t) w(X)] = 0\)，那么 \(\lambda_T(s \mid X) = \lambda_T(s)\)，即 \(T \perp X\)。

最小内核的数学命题：在独立删失 \(T \perp C \mid X\) 下，

\[H_0: T \perp X \iff E\left[\left(N(t) - \int_0^t R(s) \lambda_T(s) ds\right) w(X)\right] = 0 \quad \text{对所有 } t, w\]

左边只涉及可观测的 \(N(t), R(t), X\) 与边际 hazard \(\lambda_T(s)\)（可用 Kaplan-Meier 估）。不可观测的 \(T\) 与条件分布被彻底消去。

本文的 SID 就是把这个等价泛函（鞅均值乘以核权重）的二次型或距离型范数化，构造出 \(SID = 0 \iff H_0\) 的度量。证明路线的核心难点全在“把边际 hazard 的 Kaplan-Meier 估计代入后，经验鞅的泛函展开与余项控制”——这就是最小内核揭示的真正吃劲处。

三、这篇论文做了什么¶

三句话： ① 研究了右删失生存时间 \(T\) 与协变量 \(X\) 之间的非参数独立性检验问题。 ② 核心工具是计数过程策略，把删失下的独立性等价转化为可观测鞅均值为零的泛函检验，并构造生存独立散度（SID）度量族。 ③ 主要结论：SID 零值当且仅当 \(T \perp X\)，经验 SID 估计量收敛速率 \(O_P(n^{-1/2})\)，基于野自助法的检验在零假设下渐近水平正确、在备择下一致。

关键设定与假设： - 独立删失假设：\(T \perp C \mid X\)。这是整个计数过程策略与鞅展开的地基，没有它，\(M(t)\) 不是鞅，等价转化失效。统计含义：删失机制不依赖生存时间（给定协变量后）。相比已有文献（Fernandez et al. 2019 也需此假设），本文未放宽。 - \(G\) 的支撑条件：\(P(C \ge \tau \mid X=x) > 0\) 对某个 \(\tau\) 成立，保证 KM 估计在 \(\tau\) 前一致收敛。统计含义：不能所有人都被删失光了，否则 \(T\) 的分布不可识别。 - 核 / 距离函数的条件：SID 定义中用到的核 \(k(\cdot, \cdot)\) 或距离 \(d(\cdot, \cdot)\) 需满足正定性或负定性条件（类似 Sejdinovic et al. 2012 的框架），以保证 \(SID = 0 \iff\) 独立。统计含义：度量能捕获所有依赖，不漏检。 - 鞅的均方可积条件：用于控制经验鞅的泛函余项，保证渐近展开成立。

主要结果： 1. SID 的定义与零 ⇔ 独立（Theorem 1 类）：定义

\[SID(T, X) = E\left[ \tilde{M}(T) k(X, X') \right] \text{ 的某种范数形式}\]

（具体形式依赖核或距离选择，论文给出一族 SID）。在独立删失下，\(SID(T, X) = 0 \iff T \perp X\)。直觉：\(H_0\) 下鞅均值与任何核权重乘积期望为零；备择下条件 hazard 偏离边际 hazard，鞅均值非零，核范数捕获其大小。 2. 经验 SID 的收敛速率（Theorem 2 类）：用 KM 估计 \(\hat{\lambda}_T\) 代入 \(\tilde{M}\) 得 \(\hat{M}\)，构造 \(\hat{SID}\)。证明 \(\hat{SID} - SID = O_P(n^{-1/2})\)。直觉：KM 估计收敛速率 \(O_P(n^{-1/2})\)，代入鞅泛函后，余项由经验过程与鞅不等式控制，速率不退化。 3. 野自助法检验的一致性（Theorem 3 类）：用野自助法（对每个样本乘以 i.i.d. 标准高斯权重 \(\xi_i\)）生成 \(\hat{SID}^*\) 的分布，取临界值。证明：在 \(H_0\) 下，\(\hat{SID}^*\) 的渐近分布与 \(\hat{SID}\) 一致（水平正确）；在 \(H_1\) 下，\(\hat{SID}\) 的值大于临界值概率趋 1（检验一致）。直觉：野自助法通过随机权重扰动，正确模拟了零假设下鞅泛函的二次型分布（类似 HSIC 的野自助理论）。

证明路线与技术技巧： - 整体路线： 1. 等价转化：用独立删失假设，把 \(H_0: T \perp X\) 转化为 \(E[\tilde{M}(t) w(X)] = 0\) 对所有 \(t, w\)。 2. 度量构造：把上述泛函条件包装成 SID（核范数或距离范数形式），证明 \(SID=0 \iff\) 泛函条件成立 \(\iff H_0\)。 3. 经验估计展开：把 \(\hat{SID}\) 在真实 SID 处展开，余项分为“KM 估计误差代入鞅的泛函误差”与“经验过程误差”。 4. 余项控制：用鞅不等式与经验过程理论控制泛函余项，证明 \(O_P(n^{-1/2})\) 收敛。 5. 自助法一致：用条件渐近理论证明野自助权重扰动下的 \(\hat{SID}^*\) 在 \(H_0\) 下与 \(\hat{SID}\) 同分布，在 \(H_1\) 下 \(\hat{SID}\) 发散而临界值有界。 - 关键跳跃点： - KM 估计代入鞅后的泛函展开：这是最吃功夫的地方。\(\hat{M}(t) = N(t) - \int_0^t R(s) \hat{\lambda}_T(s) ds\)，把 \(\hat{\lambda}_T\) 展开，余项涉及 \(\int R(s) (\hat{\lambda}_T(s) - \lambda_T(s)) ds\) 乘以核权重的期望。这里不能直接用经验过程，因为 \(\hat{\lambda}_T\) 是 KM 导数，不光滑。作者用鞅的积分表示与 Rebolledo 定理把 KM 误差转化为鞅积分，再用鞅不等式（Lepingle 类）控制。 - SID 零 ⇔ 独立的充分性：证明 \(SID=0 \Rightarrow E[\tilde{M}(t) w(X)] = 0\) 对所有 \(w\) 成立 \(\Rightarrow \lambda_T(t \mid X) = \lambda_T(t)\) a.s. \(\Rightarrow T \perp X\)。这里需要核族足够丰富（特征映射能区分所有分布差），用到 RKHS 的特征性质。 - 技术技巧点名： - 计数过程与鞅理论：用 \(N(t), R(t), M(t)\) 的鞅结构，把删失机制从估计误差中分离。起作用：让 KM 误差可表为鞅积分，从而用鞅不等式控制。 - Rebolledo 定理：鞅泛函的渐近正态性定理。起作用：证明经验鞅泛函的弱收敛。 - 泛函 delta 方法 / 经验过程：用于 \(\hat{SID}\) 的展开与余项控制。 - 野自助法：乘以高斯权重扰动 V-统计量 / U-统计量。起作用：模拟零假设下二次型的非标准分布，避免直接算渐近分布的复杂泛函形式。 - RKHS 嵌入与特征映射：用于 SID 的构造与零 ⇔ 独立的证明，保证核族能捕获所有依赖。

真实例子与应用：论文包含数值实验（模拟 + 真实数据）： - 模拟实验：设定多种 \(T\) 与 \(X\) 的依赖形式（线性、非线性、单调、非单调）与不同删失率（10%, 30%, 50%）。比较 SID 检验与 Fernandez et al. (2019) 的核对数秩检验、基于 KM 估距离相关的方法等。结果：SID 在非线性依赖与高删失率下检验势更高，在线性依赖下与对数秩相当。这个例子想说明：SID 族对多种依赖形式有稳健检测力，且计数过程策略在高删失下比直接套 KM 更稳。 - 真实数据例子：用某个生存数据集（具体数据集名需查原文，摘要与 intro 未点名，只说“real data example”），检验生存时间与多个协变量的独立性。结果：SID 检验能检出对数秩检验漏掉的非线性依赖。这个例子想展示 SID 在实际数据中相对传统方法的优势。

🔎 结论是否比证明窄： - 论文在“SID 零 ⇔ 独立”的证明中，严格依赖独立删失假设与核的特征条件。但在 framing 中泛泛 claim SID “capable of detecting various types of nonlinear dependence”，未明确点名哪些非线性依赖在势上被严格保证（势的一致性定理只保证对所有备择 \(P_1\) 势趋 1，未给出局部备择的势速率）。 - 野自助法的一致性证明严格在 \(H_0\) 与固定备择下完成，但对局部备择 \(n^{-1/2}\) 邻域的势行为未给出理论结果（模拟中展示了势曲线，但理论未证）。这是常见的 claim 比证明窄的地方。

四、开放问题（点到为止，扎根具体语句）¶

区间删失下的推广：本文只处理右删失，intro 引了 Rodrigues et al. (2018) 关于区间删失的工作，但 SID 的计数过程策略在区间删失下是否可行？鞅结构在区间删失下更复杂（双风险集）。扎根点：intro 提及区间删失文献但未讨论推广，假设部分明确限定“right-censored”。
局部备择的势速率：理论只证了固定备择下的一致性，未给出局部备择 \(H_1: P_n\) 在 \(n^{-1/2}\) 邻域下的势函数与分离速率。扎根点：Theorem 3 只证 \(P(\hat{SID} > c_\alpha) \to 1\) under fixed \(H_1\)，未给局部势。
计算效率与不完全 U-统计量：SID 估计量与野自助法的计算复杂度在 \(X\) 维数高或 \(n\) 大时是否可加速？Schrab et al. (2022) 在完全数据下用不完全 U-统计量把 HSIC 降到线性时间，SID 是否可类似加速？扎根点：intro 未提及计算效率文献，数值实验部分未报告计算时间。
独立删失假设的放宽：整个等价转化依赖 \(T \perp C \mid X\)，若此假设不成立（如删失依赖 \(T\)），SID 的零值是否还等价于独立？是否有敏感性分析？扎根点：假设部分明确列出独立删失，未讨论违反后果。

（要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。）

Maintained by 陈星宇 · Homepage · Source on GitHub

SID: A novel class of nonparametric tests of independence for censored outcomes¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论