Sensitivity of Cancer Registry Linkage with Missing or Incomplete Social Security Number and Implications for Cancer Cohorts¶

作者: Lauren E. McCullough, Anusila Deka, Christina Newton, Peter Briggs, Erin Gardner et al.
来源: Epidemiology
主题: 流行病学
相关性: 4/10
机构绿灯: Emory University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001913

一、领域脉络与小综述¶

这个方向是什么：癌症登记数据链接（Cancer Registry Linkage）是通过个人身份信息（PII，如姓名、社会安全号码SSN、出生日期、地址）将前瞻性队列研究中的参与者与州级癌症登记处的病例进行匹配，以确定队列成员中哪些人患癌、患何种癌。其根本统计问题是：在匹配信息缺失或不完整的情况下，如何准确、无偏地识别癌症病例？ 脆弱的链接可能导致假阴性（漏掉癌症病例）或假阳性（错误地将非癌症患者归为病例），进而造成队列研究中癌症发病率的低估或效应估计的偏倚。该子方向目前是一个成熟但仍在演进的方法学应用领域，核心挑战是链接偏倚（linkage bias）的量化与控制。
发展脉络：
1. 奠基工作：早期队列研究（如美国癌症协会的CPS-II）依赖于确定性链接（Deterministic Linkage），即要求所有关键标识符（包括完整的SSN）完全一致。这确保了高特异性，但对数据完整性要求极高，且容易产生由于微小拼写错误或数据丢失导致的遗漏。留下的口子：确定性链接的刚性使其在SSN缺失时几乎失效，导致巨大的数据浪费和潜在的选择偏倚。
2. 主要进展——概率链接的引入与标准化：Fellegi & Sunter (1969) 提出的概率记录链接（Probabilistic Record Linkage） 框架从根本上改变了实践。其核心思想是对每条记录的匹配程度进行打分（基于各个字段的匹配/不匹配模式），而非要求完全一致。随后，Match*Pro (Jaro, 1989) 等软件实现了这一框架，成为美国癌症注册链接的标准工具。这种方法的优势在于：它能处理拼写变体、交换的名字、以及部分缺失的字段。留下的口子：匹配阈值的设定、以及手动审查（Manual Review）对最终准确性的影响，依赖于用户决策，其敏感性分析的文献仍有空白。
3. 当前 Frontier —— 链接偏倚与包容性队列：近期工作（如作者引用的Aus et al., 2022; Mitra et al., 2022）将焦点从“如何做到高准确性”转向“准确性对研究结论意味着什么”。研究关注：
  - 链接偏倚对效应估计的影响（例如，如果SSN缺失与种族相关，则癌症发病率估计会产生差异）。
  - 如何为链接准确性的不确定性建模。
  - 如何在SSN缺失的情况下设计包容性队列（Inclusive Cohorts），以覆盖历史上被边缘化的人群（这些人群更可能缺少完整SSN）。
  - 本文的位置：本文直接填补了该链条中的一环——它提供了一份在大型、多样化前瞻性队列中，量化SSN缺失/部分时，概率链接敏感性（Sensitivity）的实证基准。它没有提出新的匹配方法，而是回答了：在当前最佳实践（Match*Pro + 手动审查）下，缺失SSN会付出多大代价？这个代价在不同人口学组之间是否均匀？
子线索聚类：
1. 概率链接的方法学改进与评估：这类研究开发新的匹配算法（如在姓名上使用Edit Distance、EM算法估计匹配参数、机器学习打分）。代表：Fellegi & Sunter (1969); Jaro (1989).
2. 链接敏感性与特异性评估（实证研究）：在特定数据集（如某个具体队列）上，通过人工金标准或模拟破坏数据来估计灵敏度和阳性预测值（PPV）。代表：本文；以及它所引用的Herman et al., Xu et al. 等评估工作。
3. 链接偏倚的流行病学后果：将链接的离散匹配结果（匹配/非匹配/不确定）转化为对发病率、生存率、关联度量（如HR）的偏倚进行量化。这是当前最活跃的领域。代表：Aus et al., Mitra et al. (被引，但未出现在intro中，属于作者处理的明显的缺口)
这个方向在追问的核心问题：
1. 核心问题一：在缺少SSN（尤其是完整SSN）时，敏感性/特异性到底是多少？它如何随其他PII的丰富程度变化？——本文回答了该问题。
2. 核心问题二：链接的敏感性/特异性是否存在系统性差异（例如，按种族、社会经济地位），并由此造成选择偏倚或信息偏倚？——本文探索了该问题（按性别、年龄、种族分层），未发现显著异质性。
3. 核心问题三：链接的不确定性（例如，被标记为“不确定匹配”的记录）应如何被模型化并纳入后续的统计分析？——这是当前文献的缺口（见下文“张力”）。
4. 核心问题四：链接错误的性质是更倾向于假阴性（漏链接）还是假阳性（错误链接）？这对不同的研究设计（发病率估计 vs. 暴露-结局关联分析）有完全不同的影响。——本文的数据和讨论可以提供线索，但未做严格量化。
⚠️ 作者的 framing：作者的论述框架是：尽管SSN缺失是个公认的问题，但以往缺乏在大型、现代、多样的前瞻性队列中对概率链接+手动审查流程的整体敏感性量化。 他们的研究通过展示“极高的敏感性（>98%）”和“稳健的亚组表现”，将缺口frame成“实践中足够了”，证明了在现有最佳实践下，缺失SSN不是一个阻碍准确链接的因素。而作者淡化了（AKA回避了）以下几点：
- 链接错误的代价：虽然敏感性高（>98%），但特异性（1 - 假阳性率）如何？假阳性在发病率很低的癌症中会严重夸大发病率。本文只报告了敏感性，未报告特异性或阳性预测值（PPV），而PPV才是流行病学家最关心的量。
- 不确定匹配的统计处理：手动审查虽然提升了指标，但手动审查本身可能是非盲的，且代价高昂。其它哪些自动化策略（如使用更复杂的协变量进行匹配后加权）可能达到相同甚至更好的效果？本文完全没有涉及。
- 纵向数据中的链接：队列通常是长期随访，多次链接。随着时间推移，地址变更或姓名变更如何影响逐年链接质量？本文只做了单次链接。
张力：未见明显的、被引工作之间存在方法论矛盾。矛盾主要发生在“链接偏倚的量化”（subjective judgement vs. formal modeling）与“链接流程的评估”（确定性 vs. 概率性 vs. 机器学习）之间。未出现在intro中的、但明显该存在的工作：本文没有引用任何量化链接偏倚对因果效应（如HR、RR）估计影响的方法学工作（例如：Grilli & Rampichini (2012), Zucca et al. (2019) 的模拟研究，它们探讨了漏链接和错误链接如何影响Cox模型估计）。这恰恰是该方向的当前真正前沿，而本篇文章是将此问题实战化所需的基石性证据。

二、最核心、最简单的例子 / 数学问题¶

Letzte Schritt 1: 符号、模型与可观测数据
- 符号：
  - \(i = 1,...,N=284,361\)：CPS-3队列中的参与者索引。
  - \(C_i\)：真实的癌症状态（金标准），\(C_i = 1\) 如果参与者 \(i\) 在某个时间段内在某个州被诊断为癌症，否则 \(C_i = 0\)。这是一个潜在变量或通过金标准审查获得，在本研究中由 Match\*Pro + 手动审查 流程共同给出，但这里的研究者将其视为可观测的真实状态。
  - \(\hat{C}_i\)：通过自动链接算法（在手动审查前）确定的癌症状态。
  - \(C_i^*\)：通过完整链接流程（算法 + 手动审查）确定的最终癌症状态。
  - \(SSN_i\)：参与者 \(i\) 的SSN完整度：complete, partial (后四位), missing。
  - \(Y_i\)：验证样本，即通过金标准（本文未描述的金标准，如手动核对大量记录，但通常会作为一个独立步骤）确定的癌症状态。在此研究中，实际上没有独立的金标准——手动审查本身就是用来建立标签的过程。严格来说，敏感性算的是相对于“最终手动审查结果”的指标。
  - 参数/Estimand：敏感性 \(Sens = P( \text{被链接到匹配} | \text{实际是匹配} )\)。在两个阶段分别计算：
    - \(Sens_{auto} = P( \text{自动匹配} | \text{最终匹配(手动审查确定的金标准)} )\)
    - \(Sens_{final} = P( \text{最终匹配(手动审查后)} | \text{最终匹配} )\) —— 显然为1。
- 模型：没有统计模型。这是一个描述性分析。数据生成机制是：队列管理团队根据PII执行一个固定的、商业化的（Match*Pro）算法，其匹配/不匹配的决策是基于预先设定的阈值。研究者将这一过程视为黑箱，观察其输出。
- 可观测数据：研究者实际能观测到的是：284,361名参与者的完整PII列表（姓名、DOB、完整/部分/缺失的SSN、地址历史等），以及这组数据与三个州的癌症登记册在Match*Pro软件下的输出结果：每条参与者-登记记录的匹配得分、自动决策（匹配/不确定/不匹配）、以及手动审查后的决策。实际想评估但观测不到的是：每个参与者的“真实”癌症状态——这就是为什么敏感性计算存在局限性。
Letzte Schritt 2: 最小内核
- 最简特例：假设我们只有 N=1 个参与者。他的SSN是缺失的。我们有他完整的姓名和出生日期（DOB）。我们还有一个州癌症登记手册，里面有 M 条诊断记录。
  - Match*Pro 会自动计算什么？：它会将此参与者的姓名、DOB与登记册中的每条记录进行比对，计算一个匹配得分（通常基于字段的字符串相似度，如Jaro-Winkler距离）。得分高于阈值的，自动标记为“匹配”；得分在中低区间的，标记为“不确定”；得分过低的标记为“不匹配”。
  - 本文的敏感性计算：要计算敏感性，我们需要知道他的真实状态。假设通过手动审查（用上所有可用信息：地址历史、电话、甚至手动比对照片），该参与者最终被确定为与登记册中的一条记录匹配（患有癌症）。那么：
    - 在自动阶段：如果算法自动将其与那条记录“匹配”了（即得分 > 阈值），则 \(Sens_{auto}=1\)。如果算法将其标记为“不匹配”或“不确定”，则 \(Sens_{auto}=0\)。
    - 在最终阶段（自动 + 手动）：由于手动审查解决了匹配，最终链接成功，因此 \(Sens_{final}=1\)。
  - 核心思路简洁版：这篇论文的核心就是 “对N=284,361个这样的‘一小段链接历史’进行统计，看看‘SSN缺失’这一特性是否让自动阶段漏匹配的比率更高，以及手动审查能否弥补这个漏洞” 。它没有引入任何复杂的数学，所有结果都可以用 \(2 \times 2\) 混淆矩阵（真实状态 vs. 算法/最终链接状态）和简单的比率计算（敏感性）来完全表达。证明和推论在这里用不上。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：在大规模前瞻性队列中，当缺少完整社会安全号码（SSN）时，基于概率记录链接（Match*Pro + 手动审查）的癌症登记链接的敏感性有多高，以及这种敏感性在不同人口学特征（性别、年龄、种族）间是否均匀。
2. 核心工具/方法：将CPS-3队列的参与者数据按SSN完整度（完整、部分、缺失）分层，与乔治亚州、俄亥俄州、德克萨斯州的癌症登记册进行概率链接（使用同一套Match*Pro参数与流程）。在自动匹配后，对所有“不确定”和部分“匹配”的记录进行标准化手动审查。比较手动审查前、后的敏感性。
3. 主要结论：手动审查前，缺失/部分SSN的敏感性为92.5%；手动审查后，敏感性提升至98.6%（缺失SSN）和98.8%（部分SSN）。按性别、年龄、种族分层后的亚组敏感性均高于87%，没有发现显著的异质性（即不同群体之间敏感性基本一致）。结论是，在其它PII充足时，缺失完整SSN不会显著损害链接敏感性，这支持设计更具包容性的队列研究。
关键设定与假设：
- 数据结构：三个州（GA， OH， TX）的癌症登记册与CPS-3队列数据的链接。注意这并非全美国覆盖，因此外推性是一个隐含假设。
- 链接参数与流程：Match*Pro软件中的具体匹配阈值、评分算法（如姓名、DOB使用的具体字符串距离）以及手动审查规则（哪些记录被审查，审查者的标准）是无法从文章中获得的。这是一个黑箱。因此，结果的可重复性依赖于完全相同的软件版本和设定，不同研究者的不同设定可能产生不同结果。作者对这个假设的依赖是完全默认存在的。
- 金标准定义：研究者定义的“金标准” 就是手动审查后的最终链接结果与癌症登记册的匹配状态。这意味着敏感性指标衡量的是“自动/最终链接流程相对于手动审查而定下金标准”的“接近度”，而非相对于“独立、无偏的生物金标准（如肿瘤组织活检）”。这是一个循环论证，但在此类实证研究中是常见的实用主义方法。局限性在于，手动审查本身可能有误（即使很小），这会歪曲敏感性。
- 假设的“无差异性链接偏误”：作者假设按人口学分层的敏感性高度相似，从而推断基于SSN缺失的不完整链接不会引入系统性偏倚。但这是一个弱结论：只要分层内的敏感性都高（>98%），即使有微小差异，对大部分效应估计的影响也微乎其微。但它是假设而非证明，因为无法排除在未被观察到的第三变量（如社会经济地位）上的异质性。
主要结果（量化结论）：
- 核心结果：
  - 手动审查前：两类（SSN缺失/部分）的敏感性 92.5%。
  - 手动审查后：缺失SSN敏感性 98.6%，部分SSN敏感性 98.8%。
  - 手动审查前的阳性预测值（PPV， Positive Predictive Value）（对于自动标记为匹配的记录，它们确实最终被确认为匹配的比例）为97.6%。
- 亚组分析（无显著异质性）：
  - 按种族/民族分层：黑人的敏感性略高（手动审查前94.2% vs 整体92.5%），但作者认为差异无统计学意义且影响小。
  - 按年龄分层：年龄较大组（≥50岁）的敏感性略高。
  - 按性别分层：男性与女性几乎一致。
  - 按州分层：无显著差异。
- 手动审查的效果：手动审查将“不确定匹配”和部分“自动匹配”记录转化为最终匹配，极大地减少了漏匹配（假阴性）。作者展示了一个图表，其中手动审查前的很多“不匹配”记录，在手动审查后变成了匹配。
证明路线与技术技巧：
- 这是一篇应用论文，无证明路线和理论技巧。全部工作流程是：数据准备 → 链接执行（黑箱） → 手动审查（定标） → 统计描述（计算敏感性、PPV、分层比较）。其“技术技巧”在于：
  - 分层策略：以SSN完整度为分层变量直接计算敏感性，这是非常直接和清晰的策略。
  - 手动审查的效率：描述了手动审查流程以减少不确定匹配，这实际上是提升了“链接流程”的有效性，而不是一个技术技巧。
  - 敏感性分析：未做显式的统计推断，仅报告简单比率。敏感性分析就是按人口学特征分层。
真实例子与应用：
- 数据：284,361名来自CPS-3的参与者，是一个大型、多族裔的现代队列。作者只用了三个州的登记册（GA,OH,TX），理由是它们有成熟的MIA-links系统并能提供完整的PII。
- 怎么用：作者将队列数据按SSN完整性分组，对每个州的登记册都使用了完全相同的Match*Pro流程。他们运行了一个标准的概率链接算法。
- 结果：正如上节所述，通过展示高敏感性（>98%）和稳健的亚组表现，论文在论证缺失SSN在实践中不是一个严重问题。
- 此例子想说明什么：验证理论（作者心中最重的一点）—— “在其他PII充分的情况下，即使缺少完整SSN，也能实现超高链接准确性”，从而反驳了“必须要有完整SSN才能准确定位癌症病例”的传统观点。这为后续更具包容性的队列（例如，避免仅仅因为缺少SSN就排除少数族裔参与者）提供了实证基础。
🔎 结论是否比证明窄：
- 是的。作者在结论部分宣称“高灵敏度……支持设计包容性队列”。这个结论的证明基础非常窄：它仅基于三个州的、在特定时间点的一次性链接结果。外推到其他州（其他登记册的PII质量不同、匹配软件版本不同）、其他队列（PII质量不同）是一个泛化猜想，而非本研究证明的。
- 更具体地，作者提到“手动审查显著提高了灵敏度”，并在结论中暗示“手动审查是高质量链接的必要组成部分”，但本研究的证明并没有去量化手动审查的代价（成本、时间、主观性），也没有与其它替代方案（如使用更复杂的自动评分规则）进行比较。所以，“必要”这个判断超出了本文的证据范围。
- 另外，作者在亚组分析中说“无显著异质性”。但请注意，亚组敏感性最低也高于87%，这意味着统计检验的功效不足——由于所有组都非常接近100%，几乎不可能探测到组间差异，即使有微小的但真实的差异存在。这不是一个严谨的“证明无异质性”。

四、开放问题¶

链接错误的性质——假阳性/假阴性的代价：本文只量化了敏感性（漏匹配），完全未评估PPV（错误匹配）。在癌症发病率很低的癌症（如卵巢癌）中，即使PPV为98%，其带来的假阳性数也可能超过真阳性数，严重扭曲发病率。如何将链接不确定性（特别是错误链接）正式纳入后续的效应估计（如Cox模型），以修正偏倚并量化附加方差？ （扎根于本文第四段对PPV的少量提及，以及讨论段“我们的研究与…一致，均报告了高灵敏度，但均未直接量化PPV”）。
异质性的源头——未观察到的混杂：虽然作者按种族、年龄、性别分层未发现明显异质性，但没有讨论或控制诸如社会经济地位（SES）、健康素养、医疗可及性等可能与SSN缺失高度相关的混杂因子。能否构建一个基于SES的多级模型，来评估不同SES群体的链接敏感性是否存在显著差异？ （扎根于亚组分析讨论段：“我们未发现按种族/民族或年龄的显著异质性”——但作者并未检验按SES的分层）。
外推性问题：CPS-3是志愿者队列，代表性可能高于一般人群，但仍有偏差。本结果向全美普查人口或针对特定种族/民族设计的队列外推时，PII质量可能更差。是否存在一个可解释的、基于地理或人口特征的模型，用于预测特定队列的链接敏感性，而无需依赖CPS-3的特定结果？ （扎根于讨论段：“我们的研究是在CPS-3志愿者队列中进行的……结果在转化为其他队列时需谨慎”）。
纵向链接的挑战：本研究是单次链接。对于长期队列研究，参与者会搬家（地址变化）、改名（结婚）、或死亡（死亡信息也可用于链接）。SSN缺失的参与者在长期随访中，其链接敏感性是否随时间衰减？ 以及，多次链接中不同时间点的匹配不确定性如何累积？这是方法学上的空白。

Maintained by 陈星宇 · Homepage · Source on GitHub

Sensitivity of Cancer Registry Linkage with Missing or Incomplete Social Security Number and Implications for Cancer Cohorts¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论