Regression analysis of group-tested current status data¶

作者: Shuwei Li, Tao Hu, Lianming Wang, Christopher S McMahan, Joshua M Tebbs
来源: Biometrika
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1093/biomet/asae006

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是在观测机制存在双重信息压缩（时间上的当前状态截断 + 空间上的组检测混合）下，如何对生存数据做半参数估计。根本的统计问题是：当个体是否感染的精确时间不可测（只知在某监测时刻前或后感染），且个体的感染状态也不可直接测（只能测包含该个体的混合样本池是否阳性）时，如何恢复比例风险回归模型中回归参数与基线累积风险函数的渐近性质与计算可行性。当前成熟度处于方法刚建立、渐近理论刚闭环、但纵向/更复杂截断机制尚未推开的阶段。

发展脉络（history）： - 奠基工作（Current Status Data）：Jewell & van der Rijn (1984) 与 Keiding et al. (1991) 建立了当前状态数据（只观测一次、终点为时间-事件）的非参数最大似然估计（NPMLE）框架，证明了单调约束下的相合性，但留下回归模型下的半参数估计口子。 - 主要进展（Current Status + Regression）：Rossini & Tsiatis (1996) 与 Huang & Wellner (1997) 将比例风险模型引入当前状态数据， Huang (1996) 给出了回归参数的 \(\sqrt{n}\) 相合与渐近正态结果，但基线累积风险函数的收敛速度受限于当前状态信息的非参数不可识别性（收敛速度 \(O_p(n^{-1/3})\)）。 - 组检测引入：Group testing 经典文献 Dorfman (1943) 解决了大规模筛查的成本问题；Hughes-Oliver & Swallow (1994) 探讨了组检测下的估计问题，但均未触及时间-事件终点。 - 当前 frontier（Group-tested Current Status）：Petito & Jewell (2016) 首次正式定义了"组检测当前状态数据"（group-tested current status data），给出了非参数边际分布的初步估计，但未处理回归模型、未给出半参数框架、未建立渐近理论——这正是本文作者定位的缺口。 - 本文的位置：填补 Petito & Jewell (2016) 留下的回归与渐近理论空白，将 Huang (1996) 的半参数框架从个体检测推到组检测，用 sieve MLE + EM 算法闭环了"估计 + 计算 + 渐近性质"。

子线索聚类： 1. 当前状态数据的半参数理论线：Huang (1996) → Huang & Wellner (1997) → Shen (1997)（sieve 方法在半参数单调约束下的应用）。这一簇在做"如何在非参数分量收敛慢 (\(n^{-1/3}\)) 的条件下，证明参数分量仍能 \(\sqrt{n}\) 相合"。 2. 组检测的统计推断线：Dorfman (1943) → Hughes-Oliver & Swallow (1994) → McMahan et al. (2017)（组检测下的回归估计）。这一簇在做"如何从池（pool）的二元结果反推个体的二元/连续结果"。 3. Sieve MLE 与经验过程工具线：Shen (1997) → van der Vaart & Wellner (1996)（经验过程理论在 M-估计中的应用）。这一簇在做"如何用分段常数/多项式逼近无限维参数，并用经验过程控制余项"。

这个方向在追问的核心问题： 1. 信息损失下的可识别性与收敛速度：双重压缩（当前状态 + 组检测）下，回归参数是否仍能保持 \(\sqrt{n}\) 相合？基线风险函数的收敛速度是否仍受限于 \(n^{-1/3}\)？ 2. 计算可行性：组检测下的似然函数涉及池内个体状态的联合隐变量，直接优化不可行，如何用数据增广与 EM 算法绕过隐变量的联合求和？ 3. 组检测相对个体检测的统计效率：在成本约束下，组检测是否能在同等总检测次数下提供比个体检测更准确的回归参数估计？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成"Petito & Jewell (2016) 只做了非参数边际分布，没做回归模型与渐近理论"，从而让本文的 sieve MLE + EM 成为"显然的下一步"。 - 被淡化的竞争路线：作者未讨论贝叶斯方法（如组检测下的贝叶斯生存分析）或其他半参数模型（如加速失效时间模型 AFT），只聚焦比例风险模型。 - 明显该被引却未出现的：组检测下的误分类（misclassification）文献（如 Kim et al. 2007 关于组检测敏感度/特异度不完美的估计）——本文假设池检测完美无误差，但实际筛查中池检测的敏感度常低于个体检测，这一假设的脆弱性未被讨论，值得研究者去查。

张力：未见明显对立引用。组检测文献与当前状态文献此前几乎平行发展，Petito & Jewell (2016) 是首次交汇，本文是首次在交汇处建半参数理论，无相反结论的竞争工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(T_i\)：个体 \(i\) 的潜在感染时间（不可观测的连续随机变量）。
\(C_i\)：个体 \(i\) 的监测时间（可观测的连续随机变量）。
\(Z_i\)：个体 \(i\) 的协变量向量（可观测，维度 \(p\)）。
\(\beta\)：回归参数（estimand，\(p\) 维向量）。
\(\Lambda_0(t)\)：基线累积风险函数（estimand，无限维非参数函数）。
\(n\)：样本量（个体总数）。
\(K\)：池（pool）的数量。
\(G_k\)：第 \(k\) 个池包含的个体集合（已知设计）。
\(Y_k\)：第 \(k\) 个池的检测结果（可观测的二元随机变量，1=阳性，0=阴性）。
\(S_k\)：第 \(k\) 个池的潜在真实状态（不可观测的二元随机变量，\(S_k = \max_{i \in G_k} I(T_i \leq C_i)\)）。
模型（数据生成机制）：
感染时间服从比例风险模型：\(T_i \sim \text{Surv}(\Lambda_0, \beta)\)，即 \(P(T_i > t | Z_i) = \exp\{-\Lambda_0(t) \exp(Z_i^T \beta)\}\)。
监测时间 \(C_i\) 与 \(T_i\) 独立给定 \(Z_i\)（当前状态数据的标准独立截断假设）。
池的真实状态由池内个体决定：\(S_k = 1\) iff 至少一个个体在监测时已感染。
池的检测结果完美：\(Y_k = S_k\)（无误分类）。
可观测数据：
研究者实际观测到的是 \(\{(Y_k, \{C_i, Z_i\}_{i \in G_k})\}_{k=1}^K\)。
想要但观测不到的：个体真实状态 \(I(T_i \leq C_i)\) 与精确感染时间 \(T_i\)。只能靠池结果 \(Y_k\) 与模型假设去识别。

第二步：讲最小内核

剥掉所有为一般性服务的技术假设（如多维协变量、一般池大小、sieve 空间的收敛速度细节），支撑整篇论文的最小内核是单个池大小为 2、无协变量（\(p=0\)）的比例风险模型下的似然结构与识别。

最简特例设定：\(p=0\)（无协变量，只估 \(\Lambda_0(t)\)），池大小 \(|G_k|=2\)，所有个体在同一时间 \(C\) 监测（即 \(C_i = C\) 常数）。
似然结构：
个体 \(i\) 在 \(C\) 前感染的概率为 \(p_C = 1 - \exp\{-\Lambda_0(C)\}\)。
池 \(k\) 包含个体 1 和 2，池阳性概率为 \(P(Y_k=1) = 1 - (1-p_C)^2 = 2p_C - p_C^2\)。
观测到 \(K\) 个池的结果 \(Y_1, \dots, Y_K\)，似然函数为 \(\prod_{k=1}^K (2p_C - p_C^2)^{Y_k} (1 - 2p_C + p_C^2)^{1-Y_k}\)。
核心数学困难：似然函数中的参数 \(p_C\) 出现在多项式组合 \(2p_C - p_C^2\) 中，而非线性单项 \(p_C\)。这导致：
似然函数非凸：对 \(p_C\) 的似然不是标准 Bernoulli 似然，直接优化可能有多局部极值。
信息损失：池阴性 \((Y_k=0)\) 只能推出两人均阴性，池阳性 \((Y_k=1)\) 无法区分"一人阳性一人阴性"还是"两人阳性"——这是组检测的信息混合本质。
本文关键想法怎么破：
数据增广：引入隐变量 \(U_{ki} = I(T_i \leq C)\) 表示个体真实状态，将似然重写为 \(\prod_k \prod_{i \in G_k} p_C^{U_{ki}} (1-p_C)^{1-U_{ki}}\)，受约束 \(\max_{i \in G_k} U_{ki} = Y_k\)。这把多项式组合拆解为个体层面的 Bernoulli 乘积，使得 EM 算法的 E 步只需计算 \(U_{ki}\) 的条件期望（给定 \(Y_k\) 与当前 \(p_C\)），M 步变成标准的 Bernoulli 似然优化（对 \(p_C\) 有显式解）。
Sieve 逼近：当 \(C\) 不是常数而是连续分布时，\(\Lambda_0(t)\) 是无限维函数，本文用分段常数函数逼近 \(\Lambda_0(t)\)（在时间分点上取常数），将非参数问题化为参数问题，使得 EM 算法的 M 步可对有限维参数执行。
渐近性质：在最小内核中，要证的是 \(p_C\) 的估计 \(\hat{p}_C\) 是否 \(\sqrt{n}\) 相合。本文的证明路线（见第三节）通过经验过程理论控制 sieve 逼近的余项，最终在一般设定下证出回归参数 \(\beta\) 的 \(\sqrt{n}\) 相合性，而 \(\Lambda_0\) 的估计收敛速度为 \(n^{-1/3}\)（与当前状态数据的非参数下界一致）。

三、这篇论文做了什么¶

三句话： ①研究了组检测当前状态数据下比例风险回归模型的半参数估计问题。 ②核心工具是 sieve 最大似然估计（分段常数逼近基线风险）+ 数据增广 EM 算法 + 经验过程理论。 ③主要结论是回归参数 \(\beta\) 的 sieve MLE 达到 \(\sqrt{n}\) 相合与渐近正态，基线累积风险 \(\Lambda_0\) 的估计收敛速度为 \(n^{-1/3}\)，且组检测在同等总检测次数下比个体检测有更小的参数估计方差。

关键设定与假设： - 设定：可观测数据为 \(\{(Y_k, \{C_i, Z_i\}_{i \in G_k})\}_{k=1}^K\)，池大小 \(|G_k|\) 可变但已知，池内个体监测时间 \(C_i\) 可不同。 - 假设 1（独立截断）：\(C_i\) 与 \(T_i\) 独立给定 \(Z_i\)（Current status data 的标准假设，未放宽）。 - 假设 2（完美检测）：池检测无误分类，\(Y_k = S_k\)（组检测文献的常见起点，但实际中常不成立，本文未放宽）。 - 假设 3（Sieve 空间）：\(\Lambda_0(t)\) 用分段常数函数逼近，分点数 \(m_n \to \infty\) 且 \(m_n = o(n^{1/3})\)（控制逼近误差与过拟合的平衡，沿用 Shen (1997) 的条件）。 - 假设 4（池设计）：池的分配 \(G_k\) 是已知的设计矩阵，非随机（或给定 \(Z_i\) 条件下独立）。 - 统计含义：假设 1 保证当前状态数据的可识别性；假设 2 保证池结果与个体状态的逻辑关系；假设 3 是 sieve MLE 渐近性质的技术核心，保证逼近误差不破坏参数分量的 \(\sqrt{n}\) 收敛。

主要结果： - 定理 1（Sieve MLE 的存在性与相合性）：在假设 1-4 下，sieve MLE \((\hat{\beta}, \hat{\Lambda}_0)\) 存在，且 \((\hat{\beta}, \hat{\Lambda}_0)\) 分别相合到真值 \((\beta_0, \Lambda_{00})\)。 - 直觉：分段常数空间随 \(m_n\) 增大逼近真 \(\Lambda_{00}\)，似然函数在参数空间有唯一极大值点（由模型可识别性保证），相合性由 M-估计的一般理论给出。 - 定理 2（参数分量的渐近分布）：\(\hat{\beta}\) 达到 \(\sqrt{n}\) 相合，且渐近正态：\(\sqrt{n}(\hat{\beta} - \beta_0) \to_d N(0, I^{-1})\)，其中 \(I\) 是有效信息矩阵。 - 直觉：虽然 \(\Lambda_0\) 的估计收敛慢 (\(n^{-1/3}\))，但比例风险模型的结构使得 \(\beta\) 的信息不受非参数分量的污染（类似 Huang 1996 在个体检测下的结果），sieve 逼近的余项被经验过程理论控制到 \(o_p(n^{-1/2})\)。 - 必要条件：\(m_n = o(n^{1/3})\)（分点数不能增长太快，否则逼近空间的复杂度破坏经验过程的收敛）。 - 定理 3（非参数分量的收敛速度）：\(\|\hat{\Lambda}_0 - \Lambda_{00}\|_\infty = O_p(n^{-1/3})\)。 - 直觉：当前状态数据只提供单调约束下的非参数信息，收敛速度受限于 \(n^{-1/3}\)（与 Huang 1996 一致），组检测的信息混合不改变这一下界。 - 推论（组检测 vs 个体检测的效率比较）：在总检测次数 \(K\) 相同的条件下（组检测的 \(K\) 小于个体检测的 \(n\)，但每个池提供更多信息），组检测下 \(\hat{\beta}\) 的渐近方差可以小于个体检测——因为组检测在同等成本下允许更大的样本量 \(n\)。

证明路线与技术技巧： - 整体路线： 1. 构造 Sieve 空间：将 \(\Lambda_0(t)\) 逼近为分段常数函数 \(\Lambda_{0,m_n}(t) = \sum_{j=1}^{m_n} \lambda_j I(t_{j-1} < t \leq t_j)\)，参数化为 \((\beta, \lambda_1, \dots, \lambda_{m_n})\)。 2. 写出 Sieve 似然：基于可观测数据 \((Y_k, \{C_i, Z_i\}_{i \in G_k})\)，写出池结果的边际似然 \(L_n(\beta, \Lambda_{0,m_n})\)，涉及池内个体状态的联合概率（多项式组合）。 3. 数据增广与 EM 算法：引入隐变量 \(U_{ki} = I(T_i \leq C_i)\)，将池边际似然拆解为个体条件似然，推导 E 步（计算 \(U_{ki}\) 的条件期望）与 M 步（更新 \(\beta\) 与 \(\lambda_j\)）。 4. 渐近性质证明：用经验过程理论控制 sieve MLE 的余项，分三步： - (a) 证明 sieve 空间的逼近误差 \(\sup_{\Lambda \in \mathcal{S}_{m_n}} \|\Lambda - \Lambda_{00}\| = o(n^{-1/4})\)（由 \(m_n = o(n^{1/3})\) 保证）。 - (b) 证明经验过程在 sieve 空间上的收敛：\(\sup_{(\beta, \Lambda) \in \Theta_{m_n}} |G_n(\beta, \Lambda) - G_n(\beta_0, \Lambda_{00})| = o_p(n^{-1/2})\)（用 bracketing number 与 chaining 技术）。 - (c) 分离参数与非参数分量的收敛：用 profile 似然方法，固定 \(\Lambda\) 优化 \(\beta\)，证明 \(\hat{\beta}\) 的渐近正态性不受 \(\hat{\Lambda}\) 的慢收敛影响。 - 关键跳跃点： - 池似然的多项式组合拆解：池阳性概率 \(P(Y_k=1 | Z_i, C_i, i \in G_k) = 1 - \prod_{i \in G_k} \exp\{-\Lambda_0(C_i) e^{Z_i^T \beta}\}\) 是多个个体生存概率的乘积补，直接优化非凸。数据增广将其拆解为个体层面的 Bernoulli 似然，是 EM 算法可行的关键跳跃。 - 经验过程在组检测似然上的 bracketing：组检测似然函数的变差（variation）比个体检测似然更复杂（因为池大小可变），需要计算 bracketing number 时考虑池大小的最大值，本文用 \(\max |G_k| = O(1)\) 的假设控制了这一复杂度。 - 技术技巧点名： - Sieve MLE（Shen 1997）：用分段常数空间逼近无限维参数，将半参数问题化为参数问题，控制逼近误差与过拟合的平衡。 - 数据增广：引入隐变量 \(U_{ki}\) 拆解池似然，使 EM 算法可行。 - EM 算法：E 步计算 \(U_{ki}\) 的条件期望 \(w_{ki} = P(T_i \leq C_i | Y_k, Z_i, \beta^{(t)}, \Lambda^{(t)})\)，M 步更新 \(\beta\) 与 \(\lambda_j\)（有显式解或 Newton-Raphson）。 - 经验过程理论（van der Vaart & Wellner 1996）：用 bracketing number 与 chaining 控制 sieve 空间上经验过程的收敛，是证明 \(\sqrt{n}\) 相合性的核心工具。 - Profile 似然：固定非参数分量优化参数分量，分离两者的收敛速度，证明参数分量不受非参数分量污染。

真实例子与应用： - 数据：衣原体筛查数据集，来自 Iowa 大学州立卫生实验室。 - 场景：大规模尿液样本筛查衣原体感染，个体只检测一次（当前状态），检测基于池（将多个尿液样本混合后检测）。 - 怎么用上去：将本文的 sieve MLE + EM 算法应用于池检测结果 \((Y_k)\) 与个体协变量 \((Z_i)\)，估计比例风险模型的回归参数 \(\beta\)（协变量如年龄、性别对感染风险的影响）与基线累积风险 \(\Lambda_0(t)\)。 - 结果：估计出年龄与性别对衣原体感染风险的显著影响，基线风险随时间单调上升。 - 说明什么：验证了方法在真实数据上的可行性，展示了组检测如何在成本约束下提供与个体检测可比的回归参数估计（模拟中已展示组检测的方差优势，真实数据进一步确认可行性）。

🔎 结论是否比证明窄： - 本文在定理 2 中严格证明了 \(\hat{\beta}\) 的 \(\sqrt{n}\) 相合与渐近正态，但有效信息矩阵 \(I\) 的显式表达式未给出（只说存在且正定），这使得渐近方差的具体计算依赖数值近似（如 bootstrap），而非理论公式。 - 本文在推论中声称组检测比个体检测有方差优势，但只在模拟中验证，未在定理中严格证明（因为需要比较两个不同数据结构的渐近方差，涉及池设计的具体分配，难以一般化）。 - 假设 \(\max |G_k| = O(1)\)（池大小有界）在证明中用了，但被泛泛 claim 为"适用于一般池设计"——若池大小随 \(n\) 增长（如 \(|G_k| \to \infty\)），bracketing number 的计算会变，证明可能不成立。

四、开放问题（点到为止，扎根具体语句）¶

池检测误分类下的半参数估计：本文假设池检测完美无误差（假设 2），但实际筛查中池检测的敏感度常低于个体检测。要估什么：在池敏感度/特异度未知或需估计时，\(\beta\) 与 \(\Lambda_0\) 的 sieve MLE 是否仍 \(\sqrt{n}\) 相合？扎根点：作者在设定中明确写了"perfect sensitivity and specificity"，但未讨论这一假设的脆弱性或放宽方向。
池大小随 \(n\) 增长的渐近性质：证明中假设 \(\max |G_k| = O(1)\)，若池大小 \(|G_k| \to \infty\)（如最优池大小随感染率变化），bracketing number 与经验过程的收敛是否仍成立？扎根点：定理证明中计算 bracketing number 时用了池大小的有界性。
纵向/多次监测下的组检测估计：当前状态数据只观测一次，若个体被多次监测（纵向数据），池检测结果随时间变化，如何估计动态比例风险模型？扎根点：Petito & Jewell (2016) 与本文均只处理单次监测，纵向组检测是自然的推广方向。
有效信息矩阵的显式表达与效率界：定理 2 只给出 \(\hat{\beta}\) 的渐近正态性，但有效信息矩阵 \(I\) 的显式形式未给出，无法判断 sieve MLE 是否达到半参数效率界。扎根点：结论部分只说"asymptotically normal"，未讨论效率界或与其他估计方法的效率比较。

Maintained by 陈星宇 · Homepage · Source on GitHub

Regression analysis of group-tested current status data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论