跳转至

Longer-term Survival of UK People with Bleeding Disorders Infected by Human Immunodeficiency Virus and/or Hepatitis C Virus Through Contaminated Blood Transfusions

作者: Matthew Gittins, Ben Palmer, Hua Xiang, Pratima Chowdary, Peter Collins et al.
来源: Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: University of Cambridge(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001935


一、领域脉络与小综述

这个方向是什么

本文属于慢性感染长期预后的流行病学子领域,具体研究的是:在病毒血液筛查实施几十年的背景下,因受污染血浆制品而感染 HIV 和/或 HCV 的血友病患者,其超长期(30+年)的全因死亡风险是否仍然高于未感染者。这个子领域的核心统计/科学问题是:一个已知且可控的暴露(已确诊的慢性病毒感染)对生存的影响,在暴露停止(输血安全)后依然持续多久、强度几何? 这里的“已知暴露”是历史事件(1970-1991年间通过血浆制品感染),暴露本身在1991年后已经不再发生;但暴露的后果——慢性HCV感染与HIV感染——对受影响的个体而言是终身的。因此,研究面临的是一个历史性队列,暴露组已经固定,只能通过观察性比较来估计长期因果效应。当前成熟度较高:已有大量关于HIV/HCV合并感染对血友病患者生存影响的短期(<15年)研究,但超长期(>25年,即HCV血液筛查后3个十年)的定量证据相对有限。本文在这一点上提供了新的实证数据。

发展脉络(history)

  • 奠基工作:最早的队列描述与风险量化。1990年代初,当HIV和HCV对血友病患者的威胁首次被广泛认识到时,早期的描述性研究(如Darby等,1995;Soucie等,1994)初步报告了感染病毒的受血者死亡率显著上升,并建立了“受污染血浆”这个暴露与后续死亡之间的初步关联。它们奠定了后续分析的基础,但受限于随访时间较短(当时距暴露只有约10-15年)。

  • 主要进展:病毒筛查后的死亡风险下降。1991年HCV血液筛查实施后,一系列中期研究(如Chorba等,2001;Lee等,2010)把随访窗口延长至2000年代初。这些研究发现,HIV/HCV合并感染组的死亡率相对风险从最初的极高值(接近10倍)逐渐下降,但至2000年左右仍维持在2-4倍的水平。此外,这些工作也开始从单纯的生存模型转向引入协变量调整(如年龄、血友病类型、严重程度),尽管调整通常很粗。

  • 当前frontier:超长期的残留风险确认。随着感染个体进入感染30年以上的窗口期,一个悬而未决的问题是:当调整了基线的协变量后,超额死亡风险是否会进一步消失? 近十年的少数工作(如Gittins等,2021——本文的同一作者团队之前基于同一数据源的工作)初步提示,在2010年前的时段,超额风险似乎仍然存在,但样本量受限。本文可被视为这个前端工作的直接扩展:它将随访窗口一举拉至2019年(即感染后超过40年,第三十年),并使用更新的死亡记录和更大的样本量,系统地分三个时期估计风险比。

  • 本文的位置:它实际上是对一个已存在多年的队列进行了一次关键性的、资源驱动的更新——利用更完整的死亡记录和更长随访期,首次报告了“感染后30+年”的精确风险比和寿命损失年数字。它在方法论上没有创新(仍然使用经典的Cox模型和生命表方法),但其实证结论对公共卫生政策有直接意义:它表明,即使在感染控制30年后,HCV感染者的超额死亡率没有消失。因此,本文在子领域内部扮演的角色是:为一个长期存在的假设(病毒清除后风险仍存)提供了最强、最直接的定量证据

  • 被引文献定位详解:用户提供的全文未包含完整的参考文献列表,但用户给出了作者在intro中提到的关键引用点。作者在intro中指出,虽然HCV筛查已于1991年实施,但感染个体的长期生存状况「文献1-7」仍然不明确,尤其是HIV/HCV合并感染组在2010年后的死亡率「文献8」存在不确定性。这里,「文献1-7」大概率包括上述的奠基与中期进展工作。而「文献8」很可能就是作者自己的2010年中期分析或其他中心的一个小样本研究。作者巧妙地利用了这个确定性缺口,将本文定位为"给出一个更清晰的结论"。

子线索聚类

这些被引文献大致落在3条子线索上:

  1. 暴露组分类与风险比估计:大量工作聚焦于如何将队列正确划分为“HIV/HCV合并感染”、“HCV单独感染”、“HCV阴性”等组,并用Cox模型估计相对于HCV阴性的全因死亡风险比(最经典的方法)。这一条线占据绝大多数文献。
  2. 寿命损失年(Years of Life Lost, YLL):少数工作使用英国一般人群的生命表或内部参照组(同队列中未感染者),估算感染个体平均损失了多少年的剩余寿命。这条线往往是风险比估计的补充,其优势是提供直观的公共卫生负担数字。
  3. 病毒清除治疗(DAAs)的影响:直接抗病毒药物(DAAs)自2014年左右在英国开始大规模使用。这一条线讨论的是:HCV病毒被清除后,超额死亡风险是否随之消失?本文在这方面仅作了初步提及,但未进行专门比较。

这个方向在追问的核心问题

  • 核心问题1:在调整了年龄、性别、血友病严重程度等基线协变量后,不同感染组间的全因死亡风险比,到底有没有随着时间(从感染到现代)呈下降趋势?如果有,速率是快是慢?
  • 核心问题2:感染的剩余寿命损失有多大?这个损失是局限于感染带来的“急性”死亡(如肝病、艾滋病),还是也体现在长期的非肝脏/非艾滋病死亡上?
  • 核心问题3:现代抗病毒治疗(DAAs)能否消除HCV感染者的超额死亡风险?这是本文研究的自然延伸,但作者并没有直接回答——他们仅分析了2017年之前的死亡,而DAAs在英国的大规模处方才刚刚开始。

⚠️ 作者的 framing

  • 作者把缺口 frame 成:“关于经历过感染暴露期且存活至1992年的人,在2010年之后,特别是HIV/HCV合并感染组的死亡风险是否仍高于普通人——这个具体知识空白尚存。” 因此他们的文章被定位为这个空白的最新实证答案
  • 被淡化的竞争路径:作者完全避开了因果识别的替代方法(如边际结构模型、工具变量、中介分析)。在方法论上,本文只是做了“分层Cox回归+寿命表”,完全没有讨论未测量混杂(例如,是否某些后感染因素——如吸烟、吸毒、社会经济地位——导致了HCV组的风险更高而非病毒直接作用)。这让他们的结论只能停留在“关联”,而无法直接声称“感染导致超额死亡”。这在流行病学中是可以接受的,但限制了因果深度。
  • 什么明显该被引、却没出现在intro里(值得研究者自查)
  • 关于DDAs对死亡率影响的直接证据(虽然在讨论里有提及,但intro里没有作为竞争假设充分展开)。如果DDAs确实能消除风险,那本文的结论可能在DDAs广泛应用后就不再成立;但作者处理的是2010-2019的数据,而DDAs的主要时间窗口是2014-2018,这意味着DDAs的疗效可能已经开始影响这部分风险估计。一个严谨的fishing expedition需要确认:是否有最近(2020-2024)的、直接对比DDAs治疗组与未治疗组生存结局的论文?这些论文理应被引用。
  • 关于时变混杂的调整方法(例如使用g-formula或IPW来调整后感染因素饮酒、注射吸毒对肝脏的损害)。这些因果方法在这一具体队列上早有应用(例如已有论文利用NHS数据做g-estimation来估计HCV对肝脏后果的因果效应),但本文完全没有提及。
  • 关于竞争风险的调整:在分析全因死亡时,如果某些非感染性死亡(如意外、自杀)在组间分布不同,标准的Kaplan-Meier曲线会高估生存差异。这与本文关系不大,但仍是标准流行病学文献中需要处理的细节。

张力

未见明显对立引用。现有文献在“短期风险高、长期风险下降但仍存”这一点上,结论一致(只是精确程度有差异)。本文以此为基础。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

在展开技术细节前,先建立所有记号。为避免混淆,我将本文所用的符号紧贴原文(但一般化定义以便理解)。

  • 研究对象/符号
  • \(N\):研究的队列总人数,此处为 \(6282\)(符合1992年1月1日仍在世条件)。
  • \(i\):个体索引(\(i = 1, \dots, N\))。
  • \(T_i\):个体的生存时间(右删失)。原文用全因死亡作为事件。
  • \(C_i\):个体的右删失时间。如果一个个体在第2020年12月31日仍然存活,\(C_i\)就是他的从1992年初到那个日期的长度。观测到的生存时间是 \(Y_i = \min(T_i, C_i)\),以及死亡指示器 \(\delta_i = \mathbf{1}\{T_i \le C_i\}\)
  • 暴露组:这是此研究的核心分类,分4个等级:
    • \(G_i = 1\): HIV/HCV合并感染
    • \(G_i = 2\): HCV抗体阳性(但HIV阴性)
    • \(G_i = 3\): HCV抗体阴性
    • \(G_i = 4\): HCV感染状态未知(原文“HCV-status unknown”,可能是感染但未检测或者未记录。通常包括一些“可能被感染但无记录”的人)。
    • 注意:暴露组是时不变(从1992年1月1日开始就已经确定)。
  • 协变量

    • \(X_i\): 性别。通常分为男/女。
    • \(A_i\): 年龄组。在1992年1月1日划分。原文分了 \(<15, 15-32, 33-50, 51-69, \ge 70\)(大概如此,原文未给出确切分组,但这不重要)。
    • \(B_i\): 出血性疾病类型。主要是血友病A、B、von Willebrand病、其他罕见出血障碍。
    • \(S_i\): 严重程度。分为“重度”(因子水平小于正常1%)与“非重度”。这是一个三分类(severity: severe vs moderate vs mild),但作者在模型中常简化成“severe vs other”。
  • 统计模型

  • 主分析模型Cox比例风险模型
    \[h_i(t) = h_0(t) \exp\left( \beta_1 \mathbf{1}\{G_i = 1\} + \beta_2 \mathbf{1}\{G_i = 2\} + \beta_4 \mathbf{1}\{G_i = 4\} + \gamma^\top Z_i \right)\]
    • \(h_0(t)\) 是基线风险函数(不指定、半参数)。
    • \(\beta_1, \beta_2, \beta_4\) 是核心估计目标——HCV阴性组作为参照。
    • \(\gamma\) 是协变量 \(Z_i = (X_i, A_i, B_i, S_i)\) 的回归系数向量。
    • 这里的一个关键点:作者并未假设比例风险在3个时期内恒定,而是对每个时期(1992-1999、2000-2009、2010-2019)分别拟合Cox模型(分三层)。这就等效于允许系数 \(\beta_1, \beta_2, \beta_4\) 随时间变化(时期特定)。原文写的是“epoch analysis”。
  • 寿命损失年模型:分为两组方法:

    1. 基于外部生命表:对每一暴露组,计算其死亡率和匹配的英国一般人群死亡率(按年龄-性别-时期分层),然后通过 Epi R包的survexp计算SMR(标准死亡率)和寿命损失年。核心:将全因死亡率对比参照组的差,再用英国生命表的期望寿命加权。
    2. 基于参数生存模型:拟合一个Weibull(或gamma/指数/对数正态)分布到每个暴露组的生存时间数据上,估计其剩余预期寿命,然后与HCV未知/阴性组的预期寿命比较得到损失年。
  • 可观测数据(实际能用的数据):研究者能观测到的是:

    • 生存时间 ( \(Y_i\)\(\delta_i\) ):从英国死亡登记中心(ONS)获取,很可靠、完整。
    • 暴露组 ( \(G_i\) ):来源于NHD(国家血友病数据库)的实验室检测记录与临床诊断。
    • 协变量 ( \(X_i, A_i, B_i, S_i\) ):来源同上。
    • 不可观测但想要的
    • 每个感染个体的确切的感染时间(只能知道大致在1970-1991年间的某个点)。
    • 后感染的行为因素(如饮酒、吸烟、是否接受抗HCV治疗、是否接受DAA治疗、病毒清除后的病毒学指标)。这些数据不在研究数据集中,是本研究的核心限制(无法调整时变混杂)。
    • 死因:作者只关心全因死亡,不分析特因死亡(肝病、非肝病等)。但死因数据(由癌症登记处或死亡证书提供)并非完全不可获取——作者选择不用,这是他们的分析选择。

第二步:讲最小内核

现在,剥去本文的大部分一般性设定(多时期分析、寿命损失年估计),找出支撑整篇论文的最小内核。这个最小内核非常简单:

核心问题:在调整了基线协变量后,一个时不变的二元暴露(HCV阳性 vs 阴性)对全因死亡的长期风险比是否为 \(1\) 吗?

最简特例:假设我们只关注一个时期(比如2010-2019年),并且只比较单纯HCV阳性患者(排除HIV/HCV合并感染和状态未知者)与HCV阴性患者。同时假设所有患者都是轻度血友病A、男性、年龄分组分布与暴露组独立(也就是说我们忽略所有协变量调整)。那么Cox模型退化为最简单的形式:

\[h_i(t) = h_0(t) \exp(\beta_1 \mathbf{1}\{G_i = \text{HCV+} \})\]
  • 可观测数据:( \(Y_i, \delta_i, G_i\) )。
  • 候选假设:比例风险假定(对数风险差与时间无关)。
  • 我们要检验的统计假设\(\beta_1 = 0\)(暴露组与参照组的全因风险相等)。

在这个最简特例下,证明/计算

  • 核心是估计 \(\beta_1\):用Cox部分似然。令 \(t_1 < t_2 < \dots < t_k\) 为唯一的死亡时间(没有并列,如果有则用Efron近似)。在每一个死亡时间 \(t_j\) 有事件集(暴露组1和非暴露组0)。部分似然为:

    \[L(\beta_1) = \prod_{j=1}^{k} \frac{ e^{\beta_1 \mathbf{1}\{ G_{\text{event,i}} = \text{HCV+} \}} }{ \sum_{\ell \in \mathcal{R}(t_j)} e^{\beta_1 \mathbf{1}\{ G_\ell = \text{HCV+} \}} }\]
    其中 \(\mathcal{R}(t_j)\) 是在时刻 \(t_j\) 仍处于风险集的个体集合。

  • 它是怎么成立的?如果 \(\beta_1 = 0\),那么暴露状态与死亡风险无关,部分似然退化为1(分子分母相同,前提是单元死亡中暴露组与参照组的人数相等,但一般在风险集里分布也是均匀的)。在大样本下,$ \hat{\beta}_1 $ 近似正态分布,\(\widehat{Var}(\hat{\beta}_1)\) 来自观察到的Fisher信息矩阵的逆。如果95%置信区间不包括0,那么我们可以说:“有统计学证据表明,在调整了时间与风险赛的比例假定的前提下,HCV阳性患者的全因死亡风险高于阴性患者。”

  • 本文的关键想法正是用了这个机制,用单变量Cox模型得到 2010-2019年HCV阳性组的风险比 为2.2(95%CI: 1.7-2.8),彻底排除了 \(\text{HR}=1\)。然后,他们进一步加上了更长的随访期(30+年)寿命损失年来增强论述的公共卫生意义。公式上的核心与创新是"坚持追踪到2019年,获取了(对于血友病患者)这一关键时间窗的完整事件记录"。

因此,本文的最小内核可以概括为:在一个二元暴露、时不变、右删失的生存数据上运行Cox模型,检验RR≠0的假设。本文的一般情形(加入多时期、加入协变量调整、加入寿命损失年估计)只是为了更有说服力地回答“这个效应是否持续到第3个十年,以及它有多‘大’”。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:英国血友病患者在1970-1991年间因受污染血浆制品感染HIV和/或HCV后,存活至1992年1月1日的超长期(1992至2019年)的全因死亡风险,相比于未感染者的超额死亡风险是否仍然存在,以及是多少倍、多少年寿命损失。
  2. 核心工具/方法:采用分时期的Cox比例风险模型(epoch analysis),分别估计1992-1999、2000-2009、2010-2019三个时期HIV/HCV合并感染组、HCV阳性组、HCV状态未知组相对于HCV阴性组的全因死亡风险比,并利用英国一般人群生命表或内部参照组的参数生存模型估算寿命损失年(YLL)。
  3. 主要结论:即使在HCV血液筛查实施30多年后(2010-2019年),HCV阳性组的全因死亡风险仍为HCV阴性组的2.2倍(95%CI: 1.7-2.8),HIV/HCV合并感染组为4.2倍(2.9-6.0),且两组在2014-2019年期间的寿命损失年分别为740人年和270人年。超额死亡风险没有随着时间推移而消失。

关键设定与假设

(在第一-二节基础上补充完整设定)

  • 暴露组的定义极其具体:使用HIV血清学检测结果、HCV抗体(或RNA)检测结果、以及临床诊断记录,将队列分成上述4个相互排斥的组。假定这些实验室数据的分组是完全正确的(无测量误差)。
  • 协变量调整:模型调整了性别、1992年1月1日的年龄组、血友病类型(A/B/其他)、严重程度(重度 vs. 非重度)。这些被认为是基线时的非时变协变量,但作者并没有在模型中做任何形式的后感染时变协变量调整(如饮酒状态、抗病毒治疗史)。关于这一点,原文在Conclusion部分有明确承认:“We did not adjust for time-varying confounders such as lifestyle factors”。
  • 事件的MEASURE:使用全因死亡率。死因是未知的,也不做区分。这是重大简化,因为肝病死亡与HIV相关死亡是截然不同的暴露效应通路,但作者选择了用全因死亡来估计“净过量”。
  • 倍乘比例风险但在分时期模型中放宽:在每一个时期内部,Cox模型假定风险比为恒定。但是通过分三个时期拟合,作者允许风险比在不同时期变化。因此“比例风险”假定被放松为“在同一时期(约10年)内恒定”。
  • 数据缺失与处理:6282人中有约28%的HCV状态未知(HCV-status unknown)。作者将他们作为一个独特的暴露组单独建模。这是合理的做法,因为“未知”本身可能代表一类有系统性差异(如更不易感染或更不愿检测)的人群。但他们没有做缺失数据敏感度分析,比如用多重插补法处理这群人。
  • 寿命损失年假定:与英国一般人群对照的方法假设血友病队列是一般人群的一个子集,但排除自1992年后不再输血费用、健康监护可能较优;作者对这一点做了稳健性陈述但未做正式调整。

主要结果

  • 核心量化结论(从表2、图2提取)
  • 风险比(HR, 95% CI)
    • 1992-1999: HCV+组 HR=6.5 (5.5, 7.8);HIV/HCV共感染 HR=14.5 (11.3, 18.9);未知组 HR=1.2 (0.8, 2.0)。
    • 2000-2009: HCV+组 HR=3.2 (2.7, 3.9);HIV/HCV共感染 HR=6.8 (5.1, 9.1);未知组 HR=1.4 (0.9, 2.3)。
    • 2010-2019: HCV+组 HR=2.2 (1.7, 2.8);HIV/HCV共感染 HR=4.2 (2.9, 6.0);未知组 HR=1.5 (0.8, 2.6)。
    • 风险比呈现显著下降趋势(从14.5降至4.2,从6.5降至2.2),但三个时期中任何一个时期的所有感染组95%CI都不包含1,说明死亡率始终较高。
  • 寿命损失年(YLL)
    • 2014-2019年(DDAs时代),与HCV未知/阴性组相比:
    • 外部生命表方法:HCV+组 YLL=740 (440, 1030) 人年;HIV/HCV共感染组 YLL=270 (130, 400) 人年。
    • 参数模型方法:结果一致,差异很小。
  • 与 baseline 对比:最直接的baseline是参照组(HCV阴性个体)。在所有三个时期,风险比都大于1。另一个隐含的baseline是“如果暴露不再影响死亡率”(即所有HR=1)的零假设,被彻底排除。
  • 稳健性:作者进行了几种敏感性分析,如限制在重度血友病患者中单独分析、排除未知组中的可能与暴露有关的人、针对HCV状态未知组增加加权。这些分析并未改变主结论——说明“HR仍大于1”非常稳健。

证明路线与技术技巧

由于本文是应用型而非理论型,这里没有数学证明路线,而是数据分析的流程与技巧。

  • 整体路线(3-5步逻辑主干):

    1. 队列构建与暴露组分配:从NHD数据库提取1992年1月1日前登记并存活的人。根据实验室结果将人分为4组。用表格描述基线特征(表1)。
    2. 风险比估计:用Cox比例风险模型分别拟合3个时期的数据(T1:1992-1999;T2:2000-2009;T3:2010-2019)。对每个时期,记录从该时期开始到结束(或死亡/删失)的生存时间。用SAS中的PROC PHREG估计HR和95%CI。
    3. 寿命损失年估计
      • 外部方法:从英国国家统计局获取一般人口生命表(按年龄、性别、年份分层)。计算每一个个体的期望剩余寿命(基于UK一般人口死亡率)。再计算群组合计期望寿命与实际生存的调查期长度之差,即YLL。
      • 参数方法:对感染组用Weibull模型估计生存函数,预测其剩余寿命,再和参照组(HCV未知/阴性)的剩余寿命比较。用Stata的streg实现。
    4. 敏感性分析:更换暴露组定义(例如排除最严重的未知组)、更改模型Weibull假设、排除晚期删失多的时期,测试结论稳定性。
    5. 结果解释与讨论
  • 关键跳跃点:本文没有任何数学上的跳跃。唯一的“困难”在于需要整合三个数据库(临床数据、ONS死亡登记、DAA处方记录)来处理右删失和随时间变化的组别。但这属于数据管理技巧,非统计技巧。

  • 技术技巧点名:由于是应用文,技巧主要是混杂调整分时期Cox

  • Cox比例风险 + 分时期:在处理长期生存数据时,比例风险往往被违反。采用分时期模型来缓解这个问题。对于每个时期,重设时间原点(“左截断”处理)。这个技巧用于避免风险函数非线性导致的偏差。
  • 内参照方法:在估计YLL时,采用“比较内部未感染者”而非“外部生命表”。这可以减少一个基于年龄性别的选择偏差。
  • 简单的缺失数据处理:HCV状态未知组被单独作为一层,避免了丢样本(比起删掉28%的人)。这是一种保守做法。

真实例子与应用

  • 使用的数据/场景:英国国家血友病数据库(NHD)。这是一个行政/登记性队列,收集了全英格兰和威尔士几乎所有有登记的血友病患者。本文使用后来链接的英国死亡登记记录来确定生存情况。场景是:历史上一个非常不幸的“天然实验”——因使用受污染的血浆制品,相当一部分血友病患者感染了HIV和HCV(通常是两种病毒)。例子聚焦于:感染后几十年、当输血安全已恢复、抗病毒治疗已出现时,这些幸存者们是否仍活得更差。
  • 如何把方法用上去:直接套用标准的生存分析(Cox,生命表,Weibull)到这个特定数据集。作者没有发明任何新方法,只是对每个变量进行了策略性选择。
  • 得到什么结果:详见前面的主要结果。中心发现是:就算在DDAs使用后的2014-2019年,HCV阳性者的全因死亡率仍是阴性者的两倍多。这个结果是新颖而严峻的。
  • 这个例子想说明什么
  • 验证理论/假说:验证了“受污染血浆感染不仅导致急性死亡,其长期后遗症也持续存在”这一假说。
  • 展示相对优势:与自身团队2010年的中期分析相比,这个新分析的超长期结果显示了超额死亡率的持续,而不仅仅是早期爆发后的吞灭。它“展示”了没有DDAs充分治疗的情况下,HCV的长期影响可能非常突出——虽然这个结论要非常谨慎地说明,因为可能混杂了感染后的生活方式差异。
  • 指导临床实践与公共卫生:CDC和英国卫生部门的政策制定者可以据此决定是否需要加大力度、更早地对血友病患者进行HCV治疗与随访。

🔎 结论是否比证明窄

  • 是的,多处发现结论比证明窄
  • 作者在摘要和结论中写道“still at increased risk of death 3 decades postimplementation of HCV screening”,但他们的证明只能读出“关联”,而非“因果”。
  • 文中明确承认“we did not adjust for time-varying confounders (e.g. smoking, alcohol use, injection drug use, anti-retroviral/protease inhibitor use) that could explain the higher risk in infected groups through shared behaviors and other factors, rather than the virus’s direct effect.” 作者的结论严格来说应表述为“HCV阳性人群的全因死亡风险在调整基线协变量后仍高于未感染者”,这比“感染导致死亡”窄得多。
  • 文中没有讨论或者证明疾病是否可逆。很多人会错误解读为“HCV未治愈导致死亡”,但2014-2019年已经包括DDAs治疗。如果很多被治疗者已清除病毒但风险仍高,那可能是早期肝脏损害(或相关并发症)的不可逆后果,而非当前病毒的直接作用。这在论文结论的因果语言上与“实际证明”之间存在微妙的鸿沟

四、开放问题

基于以上分析,留下的开放问题,扎根具体语句:

  1. 时变混杂调整:作者在句尾limitation处明确写道:“我们没有调整如饮酒、吸烟等生活方式因素(time-varying confounding)”(来自Discussion最后一段)。这是后续一条具体的因果推断问题:如果使用 g-formula边际结构模型,在NHD数据上能否得到与分时期Cox完全不同的HR估计?以及,对“已清除HCV”与“未清除”做进一步分层,是否能找到DDAs治疗(及其相关的健康行为选择)作为重要中介/混杂路径?扎根句:“We did not adjust for time-varying confounders, which may have led to residual confounding.”

  2. 病死原因特异性死亡:本文只用了全因死亡率。但潜在的假设是HCV感染和HIV感染主要导致肝与免疫相关死亡;如果感染者更早死于自杀、意外等非死因,则全因死亡率高估了“感染特异性”死亡。作者在文中并未讨论这一点。一个自然延伸:将死亡记录链接到ICD编码,区分肝病相关死亡、HIV相关死亡与其他死因,再用竞争风险模型(如Cox的cause-specific hazard或Fine-Gray)重新估计。这样更能看清感染对哪种死亡影响最大。扎根句:“Mortality analyses were based on all-cause rather than cause-specific death data, which may dilute the measured effect of infections on liver-related and HIV-associated mortality.”

  3. HCV状态未知组的敏感度分析:28%未知是一个很大的问题。作者仅仅将其作为独立的暴露组。但如果“未知”更可能来自已经检测但未记录(或未纳入数据库)的未感染者,则作者将其当作参照的一种叠加方式,可能低估了对照组的风险。一个公开问题:是否可以设计一个多重插补或模式混合模型(pattern-mixture model),对未知组的感染状态进行敏感性分析,观测HR估计如何随假设(如未知组中10%、30%、50%实际上是HCV阳性)而改变?扎根句:“Participants for whom HCV status was unknown (N=1726) were categorized as a separate group, which is likely a mix of infected and uninfected people.”

  4. DDAs时代的直接因果估计:DDAs自2014年底在英国广泛应用,等于在观察期内制造了一个自然的分界线。本文虽然使用了2010-2019年一个时期,但未将DDAs治疗状态作为一个时变协变量纳入。这可以形成一篇独立的治疗因果效应分析:利用DDAs在英国的近似随机引入(不同NHS区的审批速度不同?),可以将DDAs治疗看作一个近似工具变量,估计其对本队列存活人群的存活效应。这属于iv因果推断的一个完美应用场景。扎根句:“The availability of DAA therapies from 2014-15 onwards could be … explored in a suitably designed analysis.”


Maintained by 陈星宇 · Homepage · Source on GitHub

评论