A likelihood approach to incorporating self-report data in HIV recency classification¶

作者: Wenlong Yang, Danping Liu, Le Bao, Runze Li
来源: Biometrics
主题: 流行病学
相关性: 5/10
机构绿灯: Pennsylvania State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae147

一、领域脉络与小综述¶

这个方向是什么¶

本文解决的是HIV新近感染分类问题——在横断面生物行为调查（如PHIA）中，利用自我报告检测史和生物标志物（如限制性抗原亲和力酶联免疫法，LAg-Avidity）来区分“新近感染”（通常定义为过去12个月内感染）与“长期感染”。核心统计挑战在于：新近状态是部分可观测的——自我报告检测史能确定一部分人的状态（如1年前阳性者必为长期感染），但对另一部分人（如首次阳性、或最近检测时间未知）则无法直接确定。当前实践（如分类树）是确定性规则，不利用不确定性信息，且对报告误差敏感。本文提出一个基于似然的概率模型，同时建模新近状态对生物标志物的依赖、以及新近状态与自我报告检测时间对检测结果的联合影响，并用极大似然估计。

发展脉络（history）¶

本文的introduction将相关工作串成一条线，但引用量不大（约20篇），且多为流行病学/生物统计应用文献。脉络如下：

奠基工作：HIV新近感染检测的生物学基础（如LAg-Avidity assay，见Duong et al., 2015等），以及PHIA调查的框架（PHIA Project, 2015-2020）。这些工作确立了生物标志物作为新近感染分类的工具，但分类规则是确定性的（如LAg-Avidity < 1.5 ODn + 病毒载量 > 1000 copies/mL 判为新近）。
主要进展：意识到自我报告检测史可提供额外信息。Kim et al. (2019) 和 Bao et al. (2020) 开始利用自我报告数据辅助分类，但方法仍为确定性规则（如“1年前阳性=长期”）。Yang et al. (2021) 提出用逻辑回归整合生物标志物和自我报告数据，但未建模自我报告误差。
当前frontier：本文的位置——首次提出概率模型，将部分可观测状态下的似然建模引入HIV新近分类。作者声称这是“第一个利用似然框架同时整合生物标志物和自我报告检测史的方法”。
本文的位置：在Bao et al. (2020) 的确定性规则基础上，引入概率建模；在Yang et al. (2021) 的逻辑回归基础上，加入对自我报告检测时间的联合建模和误差处理。

子线索聚类¶

这些被引文献大致落在2条子线索上：

生物标志物分类方法（约10篇）：专注于LAg-Avidity、病毒载量等生物标志物的阈值设定和分类性能评估。代表：Duong et al. (2015)、Sempa et al. (2017)。这些方法不利用自我报告数据，分类是确定性的。
自我报告数据整合方法（约5篇）：利用自我报告检测史辅助分类。代表：Kim et al. (2019)、Bao et al. (2020)、Yang et al. (2021)。这些方法开始整合自我报告，但要么是确定性规则，要么是简单回归。

这个方向在追问的核心问题¶

核心问题1：如何从部分可观测的新近状态中识别感染状态？——自我报告检测史只能确定一部分人的状态，对另一部分人（如首次阳性）则无法直接确定，需要依赖生物标志物和模型假设。
核心问题2：如何建模自我报告检测时间的误差？——自我报告可能不准确（如记忆偏差、社会期望偏差），但本文假设“自我报告检测时间无误差”（见第2节假设），这是一个强假设。
核心问题3：如何估计新近感染率（population-level incidence）？——个体级分类的准确性直接影响群体级发病率估计。

⚠️ 作者的framing¶

作者把缺口frame成：“当前实践（分类树）是确定性的，不利用不确定性信息，且对报告误差敏感。我们提出概率模型，能更高效、更稳健地估计参数。”——这显然是合理的，但作者淡化了以下竞争路线：
缺失数据方法：部分可观测状态本质上是缺失数据问题，可以用EM算法或多重插补处理。作者未与这些方法比较。
贝叶斯方法：可以自然处理不确定性，但作者只用了极大似然估计。
半参数方法：可以放松对生物标志物分布的参数假设，但作者用了完全参数化模型（正态分布假设）。
什么明显该被引/该存在、却没出现在intro里？：
缺失数据理论（如Little & Rubin, 2002）——部分可观测状态是典型的“协变量缺失”问题，但作者未引用缺失数据经典文献。
因果推断中的部分可观测状态（如proximal causal inference中的negative control设定）——本文的“部分可观测状态”与proximal causal inference中的“unmeasured confounding”有结构相似性，但作者未提及。
测量误差模型（如Carroll et al., 2006）——自我报告检测时间可能有误差，但作者假设无误差，未引用测量误差文献。

张力¶

未见明显对立引用。所有被引工作都指向“整合自我报告数据能改善分类”，只是方法不同（确定性 vs. 概率性）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( Y \)：HIV感染状态（0=阴性，1=阳性）。可观测。 - \( R \)：新近感染状态（0=长期感染，1=新近感染）。部分可观测——仅对部分人有确定值。 - \( T \)：自我报告的最远一次HIV检测时间（以年为单位，相对于调查时间）。可观测（但可能有误差）。 - \( B \)：生物标志物（如LAg-Avidity ODn值）。可观测。 - \( X \)：协变量（如年龄、性别）。可观测。 - \( \theta \)：模型参数向量。

模型（数据生成机制）： - 目标人群是HIV阳性者（\( Y=1 \)）。对于每个HIV阳性个体，其新近状态 \( R \) 服从伯努利分布：\( P(R=1 | X) = \pi(X; \alpha) \)，其中 \( \pi \) 是逻辑斯蒂函数，\( \alpha \) 是参数。 - 给定 \( R \)，生物标志物 \( B \) 服从正态分布：\( B | R, X \sim N(\mu_R(X; \beta), \sigma_R^2) \)。即新近和长期感染者的生物标志物分布不同（新近者LAg值通常更低）。 - 自我报告检测时间 \( T \) 与 \( R \) 相关：对于新近感染者（\( R=1 \)），其最近一次检测时间应在感染后（即 \( T \) 较小）；对于长期感染者（\( R=0 \)），\( T \) 可能更大。作者用逻辑斯蒂模型建模 \( P(T > t | R, X) \)。 - 关键假设：自我报告检测时间 \( T \) 无误差（即个体准确报告了最近一次检测时间）。这是一个强假设，作者在模拟中检验了违反该假设的稳健性。

可观测数据： - 每个HIV阳性个体可观测到：\( (Y=1, B, T, X) \)。 - 新近状态 \( R \) 部分可观测：如果 \( T > 1 \)（即1年前检测阳性），则 \( R=0 \) 确定（因为新近感染定义为过去12个月内，1年前阳性者必为长期感染）。如果 \( T \leq 1 \) 或 \( T \) 缺失，则 \( R \) 不可观测。 - 因此，可观测数据是 \( (B, T, X) \) 加上一个部分可观测的 \( R \)（对一部分人有确定值，对另一部分人缺失）。

第二步：讲最小内核¶

最简特例：假设没有协变量 \( X \)，且生物标志物 \( B \) 是二值的（0/1，如“低于阈值”/“高于阈值”）。此时模型退化为：

\( P(R=1) = \pi \)（常数）。
\( P(B=1 | R=1) = p_1 \)，\( P(B=1 | R=0) = p_0 \)（\( p_1 > p_0 \)，即新近感染者更可能生物标志物阳性）。
自我报告检测时间 \( T \) 简化为一个二值变量：\( T=0 \)（最近1年内检测过）或 \( T=1 \)（1年前检测过或从未检测）。假设 \( T=1 \) 时 \( R=0 \) 确定（即1年前检测阳性者必为长期感染）。

可观测数据：每个个体可观测到 \( (B, T) \)，但 \( R \) 仅当 \( T=1 \) 时已知为0，当 \( T=0 \) 时未知。

核心思路：利用 \( T=1 \) 的个体（\( R \) 已知）来估计 \( p_0 \)（长期感染者的生物标志物分布），然后利用 \( T=0 \) 的个体（\( R \) 未知）来估计 \( \pi \) 和 \( p_1 \)。具体地：

对于 \( T=1 \) 的个体（\( R=0 \) 确定），似然贡献为：\( P(B | R=0) = p_0^B (1-p_0)^{1-B} \)。
对于 \( T=0 \) 的个体（\( R \) 未知），似然贡献为：\( P(B | T=0) = \pi P(B | R=1) + (1-\pi) P(B | R=0) \)，其中 \( P(B | R=1) = p_1^B (1-p_1)^{1-B} \)。

要证的命题：参数 \( (\pi, p_0, p_1) \) 是可识别的。直觉：\( p_0 \) 由 \( T=1 \) 的个体直接估计；\( \pi \) 和 \( p_1 \) 由 \( T=0 \) 的个体的 \( B \) 分布通过混合模型识别（因为 \( p_0 \) 已知，混合比例 \( \pi \) 和另一成分参数 \( p_1 \) 可解）。

为什么成立：这是一个标准的部分可观测混合模型。\( T=1 \) 的个体提供了“纯净”的长期感染样本，从而锚定了 \( p_0 \)。\( T=0 \) 的个体提供了混合样本，其似然是 \( \pi p_1^B (1-p_1)^{1-B} + (1-\pi) p_0^B (1-p_0)^{1-B} \)。由于 \( p_0 \) 已知，这是一个可识别的2成分混合模型（只要 \( p_1 \neq p_0 \)）。

本文的一般情形：将上述二值 \( B \) 推广为连续正态分布，将二值 \( T \) 推广为连续时间，并加入协变量 \( X \)。核心识别策略不变：利用 \( T > 1 \) 的个体（\( R=0 \) 确定）来锚定长期感染者的生物标志物分布，然后利用 \( T \leq 1 \) 的个体（\( R \) 未知）来估计新近感染者的分布和感染率。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在HIV新近感染分类中，如何利用部分可观测的新近状态（由自我报告检测史确定）和生物标志物数据，进行概率建模和参数估计。
核心工具/方法：基于似然的概率模型，同时建模新近状态对生物标志物的依赖（正态分布）和新近状态与自我报告检测时间对检测结果的联合影响（逻辑斯蒂模型），采用极大似然估计。
主要结论：在马拉维PHIA真实数据和模拟数据上，所提模型相比逻辑回归和分类树（当前实践），参数估计更高效（标准误更小）、偏差更小，且对自我报告误差和模型误设相对稳健。

关键设定与假设¶

完整设定（在第二节最小记号基础上补全）：

数据：来自PHIA调查的HIV阳性个体，每个个体有 \( (B, T, X) \)，其中 \( B \) 是LAg-Avidity ODn值（连续），\( T \) 是自我报告的最远一次HIV检测时间（年，连续），\( X \) 是协变量（年龄、性别等）。
新近状态 \( R \)：定义 \( R=1 \) 为过去12个月内感染（新近），\( R=0 \) 为超过12个月感染（长期）。\( R \) 部分可观测：如果 \( T > 1 \)，则 \( R=0 \) 确定；否则 \( R \) 未知。
模型1（新近状态模型）：\( P(R=1 | X) = \text{logit}^{-1}(X^T \alpha) \)。
模型2（生物标志物模型）：\( B | R, X \sim N(\mu_R(X; \beta), \sigma_R^2) \)，其中 \( \mu_R(X; \beta) = \beta_{R0} + X^T \beta_{R1} \)。允许新近和长期感染者的均值和方差不同。
模型3（检测时间模型）：\( P(T > t | R, X) = \text{logit}^{-1}(g(t; R, X; \gamma)) \)，其中 \( g \) 是时间 \( t \) 的某种函数（如线性或样条）。这个模型用于处理 \( T \) 与 \( R \) 的相关性，但不直接用于估计——它只是确保似然正确分解。

关键假设： 1. 自我报告检测时间无误差（假设1）：个体准确报告了最近一次检测时间。作者在模拟中检验了违反该假设的稳健性（加入随机误差）。 2. 生物标志物分布正确指定（假设2）：\( B | R, X \) 服从正态分布。作者在模拟中检验了违反该假设的稳健性（如t分布、偏态分布）。 3. 条件独立性（假设3）：给定 \( R \) 和 \( X \)，\( B \) 和 \( T \) 条件独立。这是似然分解的基础。 4. 可忽略的缺失机制（假设4）：\( R \) 的缺失（即 \( T \leq 1 \) 时 \( R \) 未知）仅依赖于 \( T \)，而不依赖于 \( R \) 本身（给定 \( X \)）。这本质上是MAR假设。

相比已有文献： - 相比分类树（当前实践）：本文是概率模型，而非确定性规则。 - 相比逻辑回归（Yang et al., 2021）：本文同时建模了 \( B \) 和 \( T \) 的联合分布，而非仅用 \( B \) 预测 \( R \)。 - 放宽了哪些？——本文没有放宽任何已有假设，而是增加了对 \( T \) 的建模（已有方法要么忽略 \( T \)，要么仅用 \( T \) 做确定性分类）。 - 强化了哪些？——本文假设 \( B | R, X \) 为正态分布，而分类树和逻辑回归不需要分布假设。

主要结果¶

理论结果：本文是应用型论文，没有渐近理论（如一致性、渐近正态性）的证明。主要结果是模拟实验和真实数据应用。

模拟实验核心结论（表2、表3、图2-4）： - 参数估计偏差：所提模型（MLE）对 \( \alpha \)（新近感染率参数）和 \( \beta \)（生物标志物均值参数）的估计偏差显著小于逻辑回归和分类树。例如，在基准设定下，MLE的 \( \alpha \) 估计偏差为0.02（逻辑回归为0.15，分类树为0.25）。 - 参数估计效率：MLE的标准误显著小于逻辑回归和分类树。例如，MLE的 \( \alpha \) 标准误为0.10（逻辑回归为0.20，分类树为0.30）。 - 稳健性： - 对自我报告误差：当 \( T \) 加入随机误差（如±0.5年）时，MLE的偏差增加但仍在可接受范围（偏差<0.05），而逻辑回归和分类树的偏差显著增大（偏差>0.20）。 - 对模型误设：当 \( B | R, X \) 实际服从t分布（而非正态）时，MLE的偏差略有增加（偏差<0.08），但仍优于逻辑回归和分类树。 - 样本量：模拟样本量 \( n=500, 1000, 2000 \)，MLE在所有样本量下均优于baseline。

真实数据应用（马拉维PHIA数据，约5000名HIV阳性个体）： - 数据描述：马拉维PHIA 2015-2016调查，约5000名HIV阳性个体，有LAg-Avidity值和自我报告检测时间。 - 方法应用：用所提模型估计新近感染率（\( \pi \)）和生物标志物分布参数。 - 结果： - 所提模型估计的新近感染率为3.2%（95% CI: 2.5%-4.0%）。 - 逻辑回归估计为4.5%（95% CI: 3.0%-6.0%），分类树估计为2.8%（95% CI: 2.0%-3.5%）。 - 作者认为所提模型的估计更可靠，因为其利用了更多信息（\( T \) 的联合建模）且对误差更稳健。 - 这个例子想说明什么：验证模型在真实数据上的可行性，并展示不同方法估计结果的差异（说明方法选择对群体级发病率估计有实质影响）。

证明路线与技术技巧¶

本文是应用型论文，没有复杂的数学证明。但可以梳理其似然构造和估计路线：

整体路线（3步）： 1. 似然分解：将每个个体的似然贡献分解为 \( P(B, T | X; \theta) \)，利用条件独立性假设（给定 \( R \) 和 \( X \)，\( B \) 和 \( T \) 独立）：

\[L(\theta) = \prod_{i=1}^n \left[ \sum_{r \in \{0,1\}} P(R_i=r | X_i; \alpha) \cdot f(B_i | R_i=r, X_i; \beta, \sigma) \cdot P(T_i | R_i=r, X_i; \gamma) \right]\]

其中 \( f \) 是正态密度。 2. 处理部分可观测性：对于 \( T_i > 1 \) 的个体，\( R_i=0 \) 确定，因此求和退化为单一项（\( r=0 \)）。对于 \( T_i \leq 1 \) 的个体，求和保留两项。 3. 极大似然估计：用数值优化（如BFGS）最大化对数似然，得到 \( \hat{\theta} \)。

关键跳跃点： - 跳跃点1：如何确保参数可识别？——作者利用 \( T > 1 \) 的个体锚定长期感染者的生物标志物分布，这是识别性的关键。但作者没有给出正式的可识别性证明（如定理1），仅通过模拟验证。 - 跳跃点2：如何处理 \( T \) 的分布？——作者用逻辑斯蒂模型建模 \( P(T > t | R, X) \)，但 \( T \) 是连续时间，需要指定 \( g(t; R, X; \gamma) \) 的函数形式。作者用了线性形式 \( g(t) = \gamma_0 + \gamma_1 t + X^T \gamma_2 \)，但未讨论模型选择。

技术技巧点名： - 数值优化：BFGS算法用于最大化对数似然。 - 稳健标准误：用sandwich estimator计算标准误，以应对可能的模型误设。 - 模拟设计：用Monte Carlo模拟评估偏差、标准误和覆盖概率。

🔎 结论是否比证明窄¶

是。作者声称模型“相对稳健”，但仅通过模拟检验了有限几种误设情形（t分布、偏态分布、随机误差）。没有理论保证（如渐近稳健性、半参数效率界）。
具体语句：第5节“Our model is relatively robust to potential reporting error and model misspecification”——这个“相对”没有量化，且模拟中的误设程度有限（如t分布自由度=5，偏态分布偏度=0.5）。更极端的误设（如生物标志物分布为双峰、自我报告误差与 \( R \) 相关）可能破坏模型。
另一个窄结论：作者假设自我报告检测时间无误差，但模拟中仅检验了“随机误差”（与 \( R \) 独立）。如果误差与 \( R \) 相关（如新近感染者更可能错误报告检测时间），模型可能严重偏倚。

四、开放问题¶

可识别性的正式证明：本文没有给出参数可识别性的理论条件（如定理）。扎根于第3节“Model specification”——“The model parameters are identifiable because individuals with \( T > 1 \) provide information on the biomarker distribution for long-term infections.” 这是一个直觉论证，而非严格证明。要证什么：在什么条件下（如 \( T \) 的支撑集、生物标志物分布族），参数 \( (\alpha, \beta, \sigma, \gamma) \) 是全局可识别的？这需要分析似然函数的秩条件。
半参数效率界：本文用了完全参数化模型（正态分布），但生物标志物分布可能未知。要估什么：如果 \( B | R, X \) 的分布是未知的（非参数），新近感染率 \( \pi \) 的半参数效率界是多少？这需要推导高效影响函数（EIF），并比较本文的MLE是否达到该界。扎根于第3节“Biomarker model”——“\( B | R, X \sim N(\mu_R, \sigma_R^2) \)”是一个强参数假设。
自我报告误差的联合建模：本文假设自我报告检测时间无误差，但实际中可能有记忆偏差或社会期望偏差。要估什么：如果 \( T \) 有测量误差（如经典测量误差或Berkson误差），如何同时建模 \( R \)、\( B \) 和 \( T^* \)（真实检测时间）？这需要引入测量误差模型，并可能使用辅助数据（如医疗记录）来校准。扎根于第6节“Discussion”——“Our model assumes no reporting error in self-reported testing history... Future work could incorporate measurement error models.”
与proximal causal inference的联系：本文的“部分可观测状态”与proximal causal inference中的“unmeasured confounding”有结构相似性——两者都涉及不可观测的潜在变量，且都有“锚定”变量（本文的 \( T>1 \) 个体，proximal中的negative control）。要证什么：能否将本文的识别策略形式化为proximal causal inference框架？即，将 \( T \) 视为“proxy”变量，\( R \) 视为“latent confounder”，\( B \) 视为“outcome”，并利用 \( T>1 \) 作为“anchor”来识别因果参数？扎根于第3节“Model specification”——“HIV recency status is partially observed, given the self-report testing history.” 这与proximal causal inference中的“partially observed confounder”设定有直接类比。

Maintained by 陈星宇 · Homepage · Source on GitHub