Local differential privacy in survival analysis using private failure indicators¶

作者: Maxime Egéa, Mikael Escobar-Bach
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在右删失生存数据中，当最敏感的个体信息（是否发生失效/死亡事件，即失效指示变量）必须经过局部差分隐私机制扰动后发布时，如何对累积危险函数及分布函数进行非参数估计，并严格量化隐私保护带来的统计效率代价（minimax 收敛速率的退化）。当前该方向处于理论框架初步确立、具体模型速率刚被精确刻画的阶段。

发展脉络： - 奠基工作（DP 与 minimax 框架结合）：Duchi, Wainwright & Jordan (2018, 即文中引用的 [JCDW18]) 建立了局部差分隐私下的 minimax 理论基石，发展了私有版本的 Le Cam、Fano 与 Assouad 引理，使得对各类估计问题（均值、密度等）给出精确的隐私-效用权衡速率成为可能。Wasserman & Zhou (2010) 与 Dwork & Smith (2010) 则最早将 minimax 框架引入统计效用度量。 - 主要进展（生存分析中的隐私尝试）：Bonomi et al. (2019) 首次将差分隐私引入 Kaplan-Meier 生存估计，但作者在文中明确指出，这类工作"most of the literature has explored the problem heuristically with time-to-event data [OSML12, BWF22b] or connections between likelihood estimation and global privacy [NH17]"，即仅停留在启发式算法与经验评估，缺乏 minimax 速率层面的理论刻画。 - 当前 frontier（LDP 下的非参数 minimax 速率）：Achddou & Guillou (2023, [AG23]) 首次在 LDP 下对密度估计给出了 minimax 速率；Duchi et al. (2018) 对均值与广义线性模型给出了匹配的上下界。但在删失数据这一具有复杂观测结构的场景下，LDP 如何影响非参数估计的收敛速率，此前未有理论结果。 - 本文的位置：本文填补了"右删失数据 + LDP 扰动失效指示变量 + 累积危险函数非参数估计"这一空白，首次给出了该设定下的 minimax 下界与达到该下界的核估计器，完成了速率的精确匹配。

子线索聚类： 1. LDP 下的 minimax 理论：以 Duchi et al. (2018) 为代表，核心是改造经典信息不等式以适应私有信道，给出离散/连续参数与密度估计的精确速率。本文直接继承了这一 minimax 下界技术路线。 2. 生存分析的隐私保护应用：以 Bonomi et al. (2019)、O'Keefe et al. (2012)、Nguyen & Hui (2017) 为代表，侧重在 Kaplan-Meier 或 Cox 回归上设计 DP 机制并做模拟验证，缺乏收敛速率的严格理论。 3. 删失指示变量不完整时的非参数估计：以 Escobar-Bach & Goudet (2020) 为代表，研究删失指示变量 MNAR（Missing Not At Random）时 Beran 估计器的行为。本文的 LDP 扰动可视为一种特殊的、有可控随机结构的"缺失/扰动"机制，与这一线索有技术交集。

核心追问： 1. 在 LDP 约束下，右删失数据的非参数估计 minimax 速率退化了几个阶？退化是由隐私噪声本身主导，还是由删失结构主导？ 2. 如何构造一个在 LDP 扰动后仍保持一致性且达到 minimax 最优的估计器？带宽选择如何平衡偏差、方差与隐私噪声三重来源？ 3. 对失效指示变量施加 LDP（而非对生存时间或协变量施加）这一建模选择，在何种应用场景下是合理的？它对识别性有何影响？

⚠️ 作者的 framing： - 作者将缺口 frame 为：已有生存分析隐私工作"heuristic"而无 minimax 理论，已有 LDP minimax 理论未覆盖删失数据结构。这使得本文成为"显然的下一步"：将 [JCDW18] 的 minimax 下界工具移植到删失场景，并用核估计器填补上界空白。 - 被淡化或回避的竞争路线：作者仅对失效指示变量施加 LDP，而未讨论对生存时间 \(T\) 或删失时间 \(C\) 施加 LDP 的情形（后者在医疗数据中同样敏感）。文中也未与全局差分隐私下的生存估计速率做直接对比，仅一句提及"global ones [LO19]"。 - 明显该被引却未出现的：右删失下累积危险函数的经典 minimax 速率文献（如 González-Manteiga 等对 Nelson-Aalen 估计器的收敛速率研究）未在 intro 出现，这使得读者难以直接对比"无隐私时"与"有隐私时"的速率退化幅度。此外，LDP 下函数估计的最新进展（如密度估计的 [AG23] 被引了，但回归/危险函数的其他相关工作未引）也值得研究者去查。

张力：未见明显对立引用。各工作在不同设定（全局 vs 局部 DP、不同目标函数、启发式 vs 理论）下得出相容结论：隐私约束总是使速率退化，退化幅度取决于隐私参数 \(\alpha\) 与样本量 \(n\) 的关系。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\Lambda(x, t)\)：给定协变量 \(x\) 时，在时间 \(t\) 处的条件累积危险函数，\(\Lambda(x, t) = \int_0^t \lambda(x, u) du\)，其中 \(\lambda\) 为条件危险率。这是本文的核心估计目标。
\(F(x, t)\)：条件分布函数，\(F(x, t) = 1 - \exp(-\Lambda(x, t))\)（在连续模型下二者等价可互推）。
随机变量 / 样本：
\((X_i, T_i, C_i)\)，\(i=1,\dots,n\)：第 \(i\) 个个体的协变量、失效时间、删失时间，相互独立且服从 \((X, T, C) \sim P_0\)。
\(Y_i = \min(T_i, C_i)\)：观测到的生存时间。
\(\Delta_i = \mathbb{1}(T_i \leq C_i)\)：失效指示变量（1 表示观察到失效，0 表示被删失）。这是本文施加隐私保护的对象。
维数 / 样本量等指标：
\(n\)：样本量。
\(d\)：协变量 \(X\) 的维数（本文主要处理 \(d=1\) 的核估计，但框架可推广）。
\(\alpha \in (0, \infty)\)：局部差分隐私参数，\(\alpha\) 越小隐私保护越强。
\(h\)：核估计的带宽。
潜在 / 不可观测量：
\(T_i\) 和 \(C_i\) 本身不可同时观测（只能观测 \(Y_i\) 和 \(\Delta_i\)）。
在 LDP 机制下，真实的 \(\Delta_i\) 也对统计学家不可见，只能观测其私有化版本 \(\Delta_i^*\)。

模型（数据生成机制）： 1. 原始数据生成：\((X_i, T_i, C_i)\) 独立同分布，\(T_i\) 与 \(C_i\) 在给定 \(X_i\) 下独立（标准右删失无信息假设）。 2. LDP 机制：每个个体在本地将 \(\Delta_i\) 通过随机化信道 \(Q\) 映射为 \(\Delta_i^* \in \{0, 1\}\)，满足 \(\alpha\)-局部差分隐私：

\[\frac{P(\Delta_i^* = z \mid \Delta_i = 1)}{P(\Delta_i^* = z \mid \Delta_i = 0)} \leq e^\alpha, \quad \forall z \in \{0, 1\}.\]

统计学家仅能收集 \((X_i, Y_i, \Delta_i^*)\)，无法接触真实的 \(\Delta_i\)。 3. 估计目标：基于私有样本 \(\{(X_i, Y_i, \Delta_i^*)\}_{i=1}^n\)，估计 \(\Lambda(x, t)\)。

可观测数据： - 研究者实际观测到的是 \(\{(X_i, Y_i, \Delta_i^*)\}_{i=1}^n\)，其中 \(Y_i\) 和 \(X_i\) 是真实值（未加噪），\(\Delta_i^*\) 是 \(\Delta_i\) 的 LDP 扰动版本。 - 想要但观测不到的：真实的失效指示 \(\Delta_i\)，以及被删失个体的真实失效时间 \(T_i\)。

第二步：最小内核

剥掉所有一般性技术假设（如协变量维数 \(d>1\)、边界修正、复杂核函数），支撑整篇论文的最小内核是：

最简特例：\(d=1\)（单协变量）、二值 LDP 信道、核估计累积危险函数

在 \(d=1\) 下，取最常用的二值随机响应机制作为 LDP 信道：

\[\Delta_i^* = \begin{cases} \Delta_i & \text{w.p. } \frac{e^\alpha}{1+e^\alpha}, \\ 1 - \Delta_i & \text{w.p. } \frac{1}{1+e^\alpha}. \end{cases}\]

此时，\(\Delta_i^*\) 的分布可显式写出：

\[P(\Delta_i^* = 1 \mid X_i=x, Y_i=y) = \frac{e^\alpha}{1+e^\alpha} P(\Delta=1 \mid X=x, Y=y) + \frac{1}{1+e^\alpha} P(\Delta=0 \mid X=x, Y=y).\]

定义私有化后的"伪危险率"：

\[\lambda^*(x, t) = \lim_{dt \to 0} \frac{P(\Delta^*=1, Y \in [t, t+dt] \mid X=x)}{dt \cdot P(Y \geq t \mid X=x)}.\]

通过 LDP 机制的线性性质，可解出真实危险率与伪危险率的关系：

\[\lambda(x, t) = \frac{(1+e^\alpha)}{e^\alpha - 1} \lambda^*(x, t) - \frac{1}{e^\alpha - 1} \frac{P(Y \in [t, t+dt], \Delta^*=0 \mid X=x)}{dt \cdot P(Y \geq t \mid X=x)}.\]

最小内核的证明路线： 1. 构造私有核估计器：用 \(\Delta_i^*\) 替代 \(\Delta_i\)，构造 Nelson-Aalen 型核估计：

\[\hat{\Lambda}^*(x, t) = \int_0^t \frac{\sum_{i=1}^n K_h(X_i - x) \Delta_i^* \mathbb{1}(Y_i = u)}{\sum_{i=1}^n K_h(X_i - x) \mathbb{1}(Y_i \geq u)} du.\]

（离散时间下为求和形式，连续时间下为积分形式，本文用离散求和定义。）

偏差-方差分解：私有估计器的偏差来自两部分——核偏差（与无隐私时相同，阶为 \(h^\beta\)，\(\beta\) 为光滑度）+ LDP 机制引入的偏差（可通过上述线性关系校正，校正后偏差阶仍为 \(h^\beta\)）。方差来自三部分——核估计方差（阶 \(1/(nh)\)）+ LDP 噪声方差（阶 \(1/(n h e^\alpha)\)，当 \(\alpha\) 小时主导）+ 删失结构方差。
核心数学困难：当 \(\alpha \to 0\)（强隐私），LDP 噪声方差项 \(1/(n h e^\alpha)\) 爆炸，带宽 \(h\) 必须选大以压制方差，但大 \(h\) 又引入大偏差 \(h^\beta\)。最优带宽平衡后给出速率：
\[\text{Minimax rate} \asymp n^{-\frac{\beta}{2\beta+1}} \quad \text{（无隐私时）} \quad \Rightarrow \quad n^{-\frac{\beta}{2\beta+1}} \cdot \left(\frac{e^\alpha - 1}{e^\alpha + 1}\right)^{-\frac{2\beta}{2\beta+1}} \quad \text{（LDP 下）}.\]
当 \(\alpha\) 很小，\((e^\alpha - 1) \approx \alpha\)，速率近似为 \((n\alpha^2)^{-\frac{\beta}{2\beta+1}}\)，即有效样本量从 \(n\) 退化为 \(n\alpha^2\)。
为什么成立：LDP 信道是线性的（二值随机响应下），使得私有化后的危险率可被精确校正回真实危险率（偏差可控）；而方差退化因子 \((e^\alpha-1)/(e^\alpha+1)\) 直接来自 LDP 信道的信息缩减，这与 Duchi et al. (2018) 在均值估计中发现的 \(n\alpha^2\) 有效样本量规律一致——本文的最小内核表明，在删失结构下，LDP 对非参数速率的退化形式与无删失时完全同构，只是将 \(n\) 替换为 \(n\alpha^2\)。

三、这篇论文做了什么¶

三句话： ①研究了在右删失数据下对失效指示变量施加 \(\alpha\)-局部差分隐私后，条件累积危险函数的非参数估计问题； ②核心工具是构造基于私有失效指示变量的核估计器，并利用 LDP 信道的线性可逆性校正偏差，同时用改造的 Le Cam 方法证明 minimax 下界； ③主要结论是：在光滑度 \(\beta\) 与隐私参数 \(\alpha\) 下，minimax 收敛速率为 \((n(e^\alpha-1)^2)^{-\frac{\beta}{2\beta+1}}\)，且所提核估计器在最优带宽选择下达到该速率（minimax 最优）。

关键设定与假设：在第二节最小记号基础上补全：

定义 1（\(\alpha\)-LDP 机制）：随机化信道 \(Q\) 满足对任意 \(\delta, \delta' \in \{0,1\}\) 和任意 \(z\)，\(Q(z \mid \delta) / Q(z \mid \delta') \leq e^\alpha\)。本文采用 Warner 型随机响应机制作为具体实例，但下界证明对任意满足 LDP 的机制成立。
假设 1（光滑度）：\(\Lambda(x, t)\) 对 \(x\) 满足 \(\beta\)-阶 Hölder 条件：\(|\Lambda(x, t) - \Lambda(x', t)| \leq L|x - x'|^\beta\)，\(\beta > 0\)。这是非参数速率的标准假设，决定了偏差阶 \(h^\beta\)。
假设 2（核函数与带宽）：核 \(K\) 为有界、对称、紧支撑的标准阶核（order \(\ell < \beta\)），带宽 \(h \to 0\)。
假设 3（删失与协变量的密度条件）：\(Y\) 的条件密度 \(f_Y(\cdot \mid x)\) 与 \(X\) 的边际密度 \(f_X(x)\) 在估计点附近有界且下界远离零；\(P(Y \geq t \mid X=x)\) 有下界。这保证了核估计分母不退化（标准条件）。
假设 4（无信息删失）：\(T\) 与 \(C\) 在给定 \(X\) 下独立。这是生存分析的标准识别性假设，本文未放宽。
统计含义：假设 1-3 是非参数核估计达到 \(n^{-\beta/(2\beta+1)}\) 速率的常规条件；假设 4 是 Nelson-Aalen 型估计器一致性的根基。相比已有 LDP minimax 文献（如 Duchi et al. 2018），本文额外引入了删失结构（假设 3-4），但 LDP 下的速率退化形式与无删失情形同构，说明删失并未引入额外的隐私-效用交互退化。

主要结果：

定理 1（核估计器的偏差-方差界与一致性）：
陈述：在假设 1-4 下，私有核估计器 \(\hat{\Lambda}^*_n\) 的 MSE 满足：
\[\mathbb{E}[(\hat{\Lambda}^*_n(x, t) - \Lambda(x, t))^2] \leq C_1 h^{2\beta} + C_2 \frac{1}{nh} + C_3 \frac{1}{nh(e^\alpha - 1)^2}.\]
当 \(\alpha\) 有界远离零时，方差主导项为 \(1/(nh)\)（与无隐私时同阶）；当 \(\alpha \to 0\) 时，方差主导项为 \(1/(nh(e^\alpha-1)^2) \approx 1/(nh\alpha^2)\)。
直觉：LDP 噪声将方差放大了 \((e^\alpha-1)^{-2}\) 倍，偏差可通过 LDP 信道可逆性校正至与无隐私时同阶。
必要条件：带宽 \(h\) 必须随 \(n\) 与 \(\alpha\) 联合调整以平衡偏差与隐私方差。
定理 2（Minimax 下界）：
陈述：对任意满足 \(\alpha\)-LDP 的机制 \(Q\) 与任意估计器 \(\hat{\Lambda}\)，存在分布 \(P_0\) 使得：
\[\inf_{\hat{\Lambda}, Q} \sup_{P \in \mathcal{P}_\beta} \mathbb{E}[(\hat{\Lambda}(x, t) - \Lambda(x, t))^2] \geq c \left( n(e^\alpha - 1)^2 \right)^{-\frac{2\beta}{2\beta+1}}.\]
直觉：LDP 约束将有效样本量从 \(n\) 缩减为 \(n(e^\alpha-1)^2\)，minimax 速率相应退化。这与 Duchi et al. (2018) 的 \(n\alpha^2\) 有效样本量规律一致（当 \(\alpha\) 小时 \((e^\alpha-1)^2 \approx \alpha^2\)）。
解决的技术难点：如何在删失结构下构造局部差分隐私版本的 Le Cam 下界——关键在于构造两个仅失效指示变量分布不同、而生存时间与删失时间分布相同的假设分布对，使得 LDP 信道对失效指示的信息缩减直接反映在分布对的 KL 距离缩减上。
定理 3（Minimax 最优性）：
陈述：取带宽 \(h \asymp (n(e^\alpha-1)^2)^{-\frac{1}{2\beta+1}}\)，则 \(\hat{\Lambda}^*_n\) 达到定理 2 的 minimax 下界（匹配至常数因子）。
直觉：最优带宽随 \(\alpha\) 递减而增大（强隐私需大带宽压制噪声方差），具体阶为 \((n\alpha^2)^{-1/(2\beta+1)}\)（当 \(\alpha\) 小时）。

证明路线与技术技巧：

整体路线（5 步）：
LDP 信道可逆性分析：建立私有伪危险率 \(\lambda^*\) 与真实危险率 \(\lambda\) 的线性关系，证明偏差可通过逆映射校正。
私有核估计器的偏差-方差分解：将 MSE 分解为核偏差项 + 经典方差项 + LDP 噪声方差项，分别用 VC 类与经验过程理论控制。
带宽选择与上界优化：对偏差-方差求和关于 \(h\) 优化，得到最优带宽阶与对应的上界速率。
Minimax 下界构造：构造局部假设对（仅 \(\Delta\) 的分布不同），计算 LDP 信道输出后的 KL 距离缩减，用私有版 Le Cam 引理推出下界。
上下界匹配：比较定理 1 的上界速率与定理 2 的下界速率，确认在最优带宽下二者阶相同。
关键跳跃点：
引理：LDP 信道下分布对的 KL 距离缩减：这是下界证明的核心难点。对两个仅在 \(P(\Delta=1 \mid X=x, Y=y)\) 上不同的分布 \(P_0, P_1\)，经 LDP 信道 \(Q\) 后，观测 \((Y, \Delta^*)\) 的 KL 距离被缩减为原 KL 距离的 \((e^\alpha-1)^2/(e^\alpha+1)^2\) 倍。这一缩减因子的精确计算依赖于二值 LDP 信道的线性结构，是整个 minimax 下界的定量锚点。
技术技巧点名：
私有版 Le Cam 引理（Duchi et al. 2018）：用于将 LDP 信道的信息缩减转化为 minimax 风险下界，具体计算 KL 距离缩减因子。
VC 类与经验过程（van der Vaart & Wellner）：用于控制核估计器分母（\(\sum K_h(X_i-x)\mathbb{1}(Y_i \geq u)\)）的随机波动，保证偏差-方差分解的余项可控。
LDP 信道可逆性/线性校正：利用 Warner 随机响应的显式逆映射，将私有估计器的偏差校正回真实参数的偏差，这是上界证明的关键步骤。
Bernstein 不等式：用于控制私有核估计器中经验过程的集中偏差。

真实例子与应用：本文为纯理论工作，无真实数据例子或模拟实验。文中未包含任何实证验证章节，所有结论均以定理与证明形式给出。

🔎 结论是否比证明窄： - 文中在定理 1 的陈述中对 LDP 机制采用了 Warner 随机响应作为具体实例，但在定理 2 的 minimax 下界中对"任意满足 \(\alpha\)-LDP 的机制"成立。这意味着上界仅在特定机制下证明，而下界对所有机制成立。若存在比 Warner 机制更优的 LDP 信道，上界可能被进一步降低——但文中未讨论这一可能性，也未 conjecture Warner 机制在所有 LDP 机制中最优。 - 文中 claim"estimator is minimax optimal under a well-chosen bandwidth"，但严格来说，这仅在 Warner 随机响应机制类内成立；对更广的 LDP 机制类，最优性是 open question。

四、开放问题（点到为止，扎根具体语句）¶

对生存时间 \(Y\) 或删失时间 \(C\) 施加 LDP 时的 minimax 速率：本文仅对失效指示 \(\Delta\) 施加 LDP（文中"This is done through a \(\alpha\)-locally differentially private mechanism for the failure indicators"），若对连续变量 \(Y\) 施加 LDP（如加噪或区间化），速率退化形式是否仍为 \(n \to n\alpha^2\) 的有效样本量缩减，还是会出现更复杂的交互退化？这需研究者去查 LDP 下连续变量非参数估计的已有速率。
上界是否在所有 LDP 机制中最优：定理 1 的上界仅在 Warner 随机响应下证明，定理 2 的下界对所有 LDP 机制成立。是否存在非 Warner 机制（如更复杂的二值信道或多轮交互机制）能达到更低的 MSE 上界，从而缩小上下界之间的常数因子差距？扎根于文中定理 1 与定理 2 的陈述差异。
高维协变量下的 LDP 生存估计：本文框架限于 \(d=1\) 协变量（核估计带宽 \(h\) 的方差项 \(1/(nh)\)），当 \(d>1\) 时核估计方差项变为 \(1/(nh^d)\)，LDP 噪声方差项变为 \(1/(nh^d \alpha^2)\)，此时 minimax 速率是否退化为 \((n\alpha^2 h^d)^{-\beta/(2\beta+d)}\)？这需研究者去查高维非参数 LDP 估计的已有结果（如 Duchi et al. 2018 的密度估计高维扩展）。
无信息删失假设的放宽：假设 4（\(T\) 与 \(C\) 给定 \(X\) 下独立）是 Nelson-Aalen 估计器的识别性根基，文中未讨论放宽。若删失有信息（\(T\) 与 \(C\) 相关），LDP 扰动 \(\Delta\) 后的识别性是否仍成立？扎根于文中假设 4 的陈述与 intro 中对右删失模型的设定。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Local differential privacy in survival analysis using private failure indicators¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论