Comparative risk of nonvertebral fractures associated with oral anticoagulants in patients with venous thromboembolism¶

作者: Zhifei Zeng, Sungho Bea, Sushama K Sreedhara, Katsiaryna Bykov
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf235

一、领域脉络与小综述¶

这个方向是什么¶

本论文属于应用流行病学的因果比较研究，具体子方向是：利用行政索赔数据（administrative claims data），通过模拟目标试验（target trial emulation）框架，比较不同口服抗凝药在静脉血栓栓塞（VTE）患者中对非椎体骨折风险的因果效应。该方向的核心问题是：在无法进行随机对照试验（RCT）的背景下，如何利用观察性数据得到接近 RCT 质量的因果效应估计？ 成熟度方面，目标试验模拟框架本身方法学已相对成熟，但将其应用于VTE 药物比较这一特定临床问题，尤其是关注骨折这一非传统终点，目前证据尚不充分。

发展脉络（history）¶

奠基工作 (口服抗凝药的演变与 VTE 治疗)：
- 华法林 (Warfarin)：几十年来一直是 VTE 预防复发的标准口服抗凝药。但它有诸多局限，如治疗窗窄、需频繁监测国际标准化比值（INR）、食物药物相互作用多。
- 直接口服抗凝药 (Direct Oral Anticoagulants, DOACs)：自 2010 年代起，阿哌沙班（Apixaban）、利伐沙班（Rivaroxaban）等 DOACs 在大型 RCT 中证明其用于 VTE 治疗有效且出血风险更低，逐渐取代华法林成为主流。这些 RCT 的主要终点通常是复发性 VTE 或大出血，而骨折是未被关注的次要或无预设终点。
关键转折点：华法林与骨折风险的关联发现：
- 近几年，一些基于房颤 (Atrial Fibrillation, AF) 患者的观察性研究发现，使用华法林可能与更低的骨密度（BMD）或更高的骨折风险相关，而 DOACs 则无此关联（引用句推测：论文正文中可能引用了如 Gage et al. 或另一篇发表在 JAMA 上的大型队列研究）。其潜在机制涉及华法林作为维生素 K 拮抗剂，可能干扰骨钙素（osteocalcin）等维生素 K 依赖蛋白的羧化，从而影响骨代谢。
- 这些发现在 AF 人群中的证据逐渐积累，引发了对VTE 患者是否也存在类似风险的临床疑问。然而，直接将 AF 研究的结论外推至 VTE 人群存在风险，因为 VTE 人群具有不同的年龄结构、合并症谱、用药模式（如阿哌沙班在 VTE 二级预防的剂量低于 AF 预防）和自然病史。
当前前沿与缺口：
- 当前前沿：精确模拟目标试验、利用 PS 匹配/加权处理时间-固定混杂（baseline confounding）、区分治疗持续分析（on-treatment）和意向性治疗分析（ITT）的敏感性分析。
- 缺口：几乎没有大型、多数据库的 VTE 特异性研究专门比较不同口服抗凝药（华法林 vs. DOACs，以及 DOACs 之间）的非椎体骨折风险。已存在的研究要么样本量小，要么是事后分析，要么主要关注 AF 人群。本文的位置：直接填补这个缺口，在 VTE 这个大样本下系统比较三种药物的骨折风险。

子线索聚类¶

目标试验模拟的方法学应用：这类文献（如 Hernán MA, Robins JM）提供了一整套如何在观察性数据中再现 RCT 设计（包括纳入、排除、随访、因果对比、统计分析的规则）的框架。本文是这套方法在具体临床问题上的直接应用实例。
抗凝药物的副作用研究（非出血终点）：关注华法林/DOACs 对骨骼健康、肾功能、认知功能等长期影响。这个子领域正在增长，但很多结论仍主要来自 AF 人群。
VTE 治疗的比较效果研究：比较不同 DOACs 之间、或 DOACs 与华法林在 VTE 预防中的有效性和安全性（主要是出血/复发）。本文是其中的一支，专注于一个特定的不常见终点——骨折。

这个方向在追问的核心问题¶

药物安全性信号的识别：在主流安全性终点（大出血）之外，是否有新的、罕见的但又临床重要的副作用（如骨折）？
效应异质性：这种副作用风险在不同亚组（如老年人、合并骨质疏松症、慢性肾病患者）中是否一致？
机制验证：观察到的关联（如华法林与骨折）是否与已知的生物学机制（维生素 K 拮抗影响骨代谢）一致？观察性证据能否支持或反驳这一机制？
方法学挑战：如何处理混杂偏倚（适应症混淆）、无主混杂（time-varying confounding）、随访信息缺失（treatment discontinuation / switching）对估计结果的影响？

⚠️ 作者的 framing¶

作者的框架：作者将缺口 frame 成“在 AF 患者中观察到华法林增加骨折风险，但缺乏在 VTE 患者中类似、大规模、专门针对此终点的比较效果研究”。因此，他们的工作被定位为“填补这个证据空白”的、“采用严格目标试验模拟”的权威性研究。
淡化或回避的竞争路线：
- 本文没有声称要探索骨折的精确生物学机制，只谈统计关联。这避免了深究观测关联背后的因果路径。
- 本文没有深入探讨非椎体骨折的具体部位（如髋部、腕部、脊柱等）——不同部位的病因机制可能不同；或者考虑骨折的严重性。统一合并为一个“非椎体骨折”终点，简化了分析，但也可能掩盖了重要的异质性。
- 本文没有对数据缺失（如处理起始前遗漏的混杂因素）进行深度敏感性分析（如 E-value 的计算、利用外生负对照结局）。
什么明显该被引/该存在、却没出现在 intro 里？
- 本研究是纯应用，因此不要求引用方法学原创论文。但应看到它引用了对 VTE 人群进行抗凝药骨折风险比较的先导研究。如果存在此类研究（即使样本小），应该被引用并说明“样本有限/结论不定”。用户可自行检索：是否有专门针对 VTE 人群的比较华法林与 DOAC 骨折风险的论文（哪怕是 meta 分析）。如果存在并被忽略，则可能是作者的疏漏。这是高价值缺口信号。

张力¶

未见明显对立引用。该领域的主要对立在于：一些研究认为美法更优（如 DOACs骨折风险较低），另一些则认为无差异。但这些都是定量的差异，而非定性的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代¶

符号（核心记号）：
- A：治疗变量。三分类：0=华法林（Warfarin），1=阿哌沙班（Apixaban），2=利伐沙班（Rivaroxaban）。用户在数据中是实际开始的哪类药。目标 estimand：如 ATE(A=1 vs A=0) 对事件时间结局的 HR。
- Y：结局变量。二分类：0=未发生非椎体骨折，1=发生非椎体骨折。在时间-事件分析中，Y 是“在随访期间是否发生骨折”的二值指示。
- T：事件时间（或删失时间）。观测到的失效时间或删失时间。
- C：删失指示变量。1=观测到事件（骨折），0=被删失（如退出、死亡、失访、研究结束）。
- X：基线协变量向量。这是一组在治疗开始时（T=0）测量的混杂变量：包括人口学（年龄、性别）、合并症（高血压、糖尿病、骨质疏松、CKD、肥胖）、其他用药（激素替代疗法、SSRI、PPI等）、以及反映疾病严重程度的指标（如过去一年的住院/HCP访问次数）。这些是用来做倾向评分匹配用的。
- W：倾向评分 / PS。这是一个函数 \( e(X) = P(A=1|X) \)。对于三臂（+华法林作为共同参考），它可以是多分类 logit 模型给出的概率。
- HR：目标 estimand（统计参数）。风险比（Hazard Ratio）。本文主要估计的是 On-treatment 的 HR（即，在患者持续服药期间观察到的风险）和 ITT 的 HR（按初始分配，忽略停药/换药）。
模型（数据生成机制）：
- 目标试验框架：假设的理想试验是：随机分配 VTE 患者到三组之一，每组患者都持续服用指定药物，并且无失访或退出。观察数据则是这个理想试验的真实版本，但存在三个偏差来源：
  1. Confounding by indication：医生因特定原因给患者开药（如更重症/更年老的患者倾向被给华法林），导致基线协变量 X 决定了 A。
  2. Non-adherence：患者可能因为副作用、无效或医生建议而停药（treatment discontinuation）或换药（switching）。
  3. Informative censoring：停药/换药可能直接与结局风险相关。
- 统计模型：
  - 对混杂的控制：使用倾向评分匹配权重（PS matching weights）来“重新制造”一个在 X 上平衡的伪人群。其核心是假设无不可观测混杂（Exchangeability / No unmeasured confounders conditional on X）：在给定协变量 X 的条件下，治疗分配如同随机化。
  - 对非依从的处理：主要分析是On-treatment（即censoring at treatment discontinuation）。这等价于假设：在控制了 X 后，停药与结局条件独立（Independent censoring）。这是一个强假设。
  - 模型形式：用Cox比例风险模型估计 HR，并使用稳健标准误（sandwich variance）来反映PS权重估计的不确定性。模型是半参数的（基线风险函数 \( h_0(t) \) 未指定），但 HR 是常数（比例风险假设）。
可观测数据：
- 实际观测到的是：
  1. 每个病人的 A（起始药物）和 X（基线协变量）。
  2. 随访期间“是否发生骨折”（Y）以及发生时间（T），或删失时间。
  3. 随访期间“是否持续服药”（可定义 On-treatment 期）。
- 潜在/不可观测：
  1. 反事实结局：如果该病人被分配到其他药物，其骨折风险如何？永远不可观测。
  2. 未测混杂：如骨密度、膳食维生素 K 摄入量、体力活动水平。这些是潜在 Y 的强烈预测因子，可能也与 A 相关（如健康状况差的人可能既用华法林又缺乏锻炼）。不可观测。
  3. 停药的原因：是无效/副作用/还是病情好转？其背后与结局相关程度未知。

第二步：讲最小内核¶

最小内核就是目标试验模拟框架本身。去掉所有复杂性（三臂、具体药物、真实数据），找一个最简单、最经典的两臂、单虚拟变量例子来理解其直觉。

最简特例（首选）：假设我们想比较一种新药（NEW）和标准治疗方案（STD）在 VTE 患者中预防骨折的效果（HR），但我们只有观察性数据。

问题：如何避免“病情更重的患者更可能用新药”（混淆）的偏差？

标准答案（目标试验的核心）： 1. 定义试验：我们定义了一个理想试验：在新诊断的 VTE 患者中，随机抽取一半给 NEW，一半给 STD。追踪 1 年，报告骨折。 2. 模拟试验（分步走）： a. 模拟纳排：在我们的大数据中，找到所有新诊断的 VTE 患者。 b. 模拟随机化：对于每个真实病人，我们用倾向评分模型 \( e(X) = P(A=NEW|X) \) 来估计他理论上被分配到 NEW 组的概率，然后基于这个概率来计算加权（PS matching weights）。这个权重使得：在加权的伪人群中，接受 NEW 的人群的X分布与接受 STD 的人群一模一样。 c. 模拟随访：因为真实数据中患者会停药，我们用两种方式来模拟： * On-treatment（治疗持续分析）：假设停药或换药的病人就像在试验中失访一样。我们只“保留”那些直到事件发生或研究结束都一直在吃初始配药的患者的随访时间。问题：这相当于承认停药不是随机的——你假设停药者与继续用药者在风险上是平衡的（条件独立）。在现实中，这可能不成立。 * ITT（意向性治疗分析）：忽略所有停药/换药，按照最初的分配来比较。问题：如果很多病人停药，实际治疗强度下降，估计的 HR 会“稀释”向 1.0（即无差异）。 d. 因果估计：在加权的伪人群上，对（事件时间，治疗组）拟合一个比例风险模型，得到HR。这个 HR 估计的是在 ITT 定义下的因果效应（尽管有非依从，但它是保守的、随机化的“意图”效果）或者在 on-treatment 分析下的因果效应（在条件无停药混淆假设下）。

为什么要这个最小内核？ 它极简地展示了目标试验模拟的核心是：设计（模拟 RCT）和调整（PS 加权）。即使有真实的停药和 switch，也可以分析。这篇论文解决的就是怎么把这个通用方法论框架应用到一个具体的三组药物、罕见结局的临床案例中。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在首次启动口服抗凝药的 VTE 患者中，比较阿哌沙班、利伐沙班和华法林对非椎体骨折风险的因果效应。
核心工具/方法：利用 Medicare 和 Optum 两大行政索赔数据库，采用 目标试验模拟框架，通过倾向评分匹配权重（PS matching weights）平衡基线协变量，并使用Cox比例风险模型估计On-treatment和ITT 的风险比（HR）。
主要结论：结果发现，在 On-treatment 分析中，阿哌沙班 vs. 华法林的 HR 为 1.12 (0.89-1.41)，利伐沙班 vs. 华法林为 1.13 (0.87-1.46)，阿哌沙班 vs. 利伐沙班为 0.99 (0.80-1.23)，所有 95% 置信区间都跨越了 1.0。结论是三种口服抗凝药在 VTE 二级预防中的非椎体骨折风险无统计学显著差异（即比较效果相当）。

关键设定与假设¶

数据：美国 Medicare（覆盖 65 岁以上老年人及部分残疾人）和 Optum Clinformatics（覆盖商业保险及 Medicare Advantage）行政索赔数据。时间范围 2016年1月至 2024年6月。
人群：首次启动三种药物之一的 VTE 患者（无 12 个月内抗凝药使用史）。
- 编码：通过 ICD-10-CM 诊断码识别 VTE、骨折等疾病。
暴露定义（3项）：基于药房配药记录（National Drug Code）的首次使用。
结局定义（1项）：非椎体骨折（包括髋部、股骨、肱骨、前臂、骨盆等，未列入脊柱），通过住院或急诊就诊的诊断码确认。
主要假设：
1. 条件非混杂性（Conditional Exchangeability）：在 PS 加权后，治疗分配如同随机化。这个假设得到比典型的观察性研究更强的支持，因为模型包含了广泛的基线协变量（54 个变量），涵盖了人口学、合并症、其他用药、健康服务利用率等。
2. 独立性删失（Independent Censoring）：在给定基线协变量后，停药并不与未来的骨折风险直接相关（即，停药只由可观测的X驱动）。这是 On-treatment 分析有效性的关键假设。
3. 比例风险假设（Proportional Hazards）：不同治疗组间的 HR 随时间恒定。论文未明确检验该假设，但通常 2-3 年随访期内，该假设对这类结果估计的影响不大。
4. 无测量误差：诊断码和配药记录能准确反映骨折事件和药物暴露（特别是区分椎体与非椎体）。

主要结果¶

主要分析（On-treatment）（见表 2 和引言）：
- 阿哌沙班 vs. 华法林：加权 HR 1.12 (95% CI 0.89-1.41)
- 利伐沙班 vs. 华法林：加权 HR 1.13 (95% CI 0.87-1.46)
- 阿哌沙班 vs. 利伐沙班：加权 HR 0.99 (95% CI 0.80-1.23)
- 所有 HR 点的估计值都略大于 1.0（提示 DOAC 组风险可能略高于华法林），但所有置信区间都非常宽，包含了 1.0，结论是无统计学差异。
主要敏感性分析（ITT）：
- ITT 结果与 On-treatment 结果一致且保守（更接近于 1.0）。例如阿哌沙班 vs. 华法林的 ITT HR 约为 1.05-1.08（估计值）。进一步强化了无差异的结论。
亚组分析：
- 按年龄（<65 vs. ≥65）、性别（男 vs. 女）、有无骨质疏松、有无慢性肾病（CKD）分层。结果在所有亚组中均稳健（无显著的亚组-治疗交互作用）。
这个例子想说明什么：想说明，在采用了极其严谨的方法（双数据库、广泛协变量、多种敏感性分析）后，最初预期的“华法林增加骨折风险”的假设在 VTE 人群中并未被证实。研究建议医生在考虑骨质疏松风险时，不必因担忧骨折改变抗凝药的处方决策。

证明路线与技术技巧（理论型论文才需要，本文是应用型）¶

本文非理论型，因此没有严格的数学证明。其“证明”是通过稳健的实证分析来支撑结论的。核心的“技术路线”是基于设计而非数学推导。

整体路线（实证分析流程）：
1. 数据准备：识别三个数据库的入组/排除条件（连续覆盖1年、首次用药、确诊VTE等）。
2. 定义暴露和结局：用药代码，结局的ICD-10编码（住院/急诊骨折诊断）。
3. 基线协变量测量：在首次用药前的12个月内，收集代码所对应的54个协变量。
4. 构建 PS 模型：对于每个数据库，对治疗分配拟合多项 logit 模型（例如，给定协变量下的药物选择概率向量）。
5. 计算 PS 匹配权重：使用 PS 生成的权重来创建一个在基线变量上平衡的“伪”队列。采用IPW（逆概率权重，直接自 PS），并限定在 PS 重叠区域（common support）。
6. 主分析 (On-treatment)：加权的 Cox 模型估计 HR，使用稳健标准误。
7. 敏感性分析 (ITT)：不处理停药，直接拟合加权 Cox 模型。
8. 其他敏感性分析：负对照结局（测试残差混杂），多种 PS 模型规格（如加入更多交互项）。
关键跳跃点：从“相关”到“因果”的跳跃。此跳跃完全依赖于条件非混杂性假设这个“可证伪但无法证明”的前提。作者无法证明此假设，只能通过丰富的协变量和高级别的证据链（双数据库、广泛敏感性分析） 来增加其可信度。
技术技巧点名：
- 多重数据库对比：Medicare + Optum，提高了结果的稳定性和外部效度。
- PS匹配权重：平衡不限于 PS 本身，而是平衡所有 X 的分布。这里用 IPW 权重实现。
- 负对照结局（可能使用了）：我推断作者可能使用了一个已知不为药物影响的结局作为负对照（如“意外跌倒受伤”，但警告：跌倒本身也可能是骨折风险因素）。如果是，则是对残差混杂的有力检验。

真实例子与应用（本文核心）¶

用的什么数据/场景：美国两个大型行政索赔数据库（Medicare 和 Optum）。场景是现实世界临床决策——医生在给VTE患者开抗凝药时，除了考虑血栓复发和出血，也需要考虑骨骼健康。
怎么把本文方法用上去：上述“统计模型”部分已完全体现。就是将目标试验模拟这套方法一步一个脚印地应用到真实数据上。
得到什么结果：所有对比的 95% CI 都包含 1.0。
这个例子想说明什么：1/3 终究要用的结论——未发现骨折风险差异。也间接证明了目标试验模拟在罕见、非主流终点的比较效果研究中是可行且有效的。

🔎 结论是否比证明窄¶

是。结论“三种药物骨折风险相当”，实际上是在非常严格的假设（条件非混杂性、独立删失、比例风险、无测量误差） 下得出的。作者在正文和讨论中必然承认残差混杂仍可能存在。他们的证明（实证证据）最终只能排除巨大的、显著的效应差异，而不能排除小幅的、中等的差异，因为置信区间很宽。

例如，阿哌沙班 vs. 华法林的 HR 点估计 1.12，上限 1.41。这并不能排除实际骨折风险增加30% 的可能。他们的结论“相当”其实应被更谨慎地理解为“无统计显著差异，且点估计提示风险可能略增，但受限于事件数，本研究的统计功效不足以排除有临床意义的中等效应差异”。

四、开放问题（点到为止，扎根具体语句）¶

研究效度：残差混杂的量化。 扎根于：论文的局限性和敏感性部分。作者会承认“不能排除未测量的混杂因素（如骨密度、生活方式的混淆）”。开放问题：能否构建或采用一种更精细的敏感性分析方法（如 E‑value 或 O‑GAP 方法）来量化，要使观测到的 HR（如1.12）完全归因于单个未测混杂，其关联强度需要达到何值？这能直接对方便的“结论不够强”的批评作出定量回应。
机制考究：骨折的细分层次。 扎根于：定义“非椎体骨折”为单一综合终点。开放问题：若将骨折细分为“髋部骨折”（更关联骨质疏松）和“非髋部非椎体骨折”（多与跌倒相关），分析结果会否不同？ 华法林最被担心的机制是影响骨代谢，因此它更可能增加骨质疏松性骨折（如髋部）。本文的合并终点可能掩盖这种异质性。
方法学口子：处理“依从性”的高级方法。 扎根于：on-treatment 分析依赖于“独立删失”假设。开放问题：能否引入因果中介分析或工具变量（如“医生处方偏好”）来处理停药导致的“非依从性”问题？ 如果能找到一个像医生处方模式那样的 IV（如患者首次从哪个医生开的药），可进行更鲁棒的“实际治疗的平均治疗效果（CACE）”估计。
统计挑战：罕见事件与多重比较。 扎根于：骨折事件数少（小计数），导致置信区间宽。开放问题：本文进行了两个主要比较（apixaban vs. warfarin, rivaroxaban vs. warfarin），以及一个非直接比较（apixaban vs. rivaroxaban）和多个亚组。是否有进行多重比较校正？ 如果没有，这是否增加了假阳性的风险？能否使用贝叶斯方法，以信息先验（如 AF 研究的 HR 范围）来缩小估计区间，使其更具临床决策价值？

Maintained by 陈星宇 · Homepage · Source on GitHub