Requirement for written informed consent and selection bias in a chart-review prostate cancer study¶
作者: Renning Zheng, Sanjay K Das, Trung Duong Tran, Nadine A Friedrich, Stirling M Cummings et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: Tsinghua University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/aje/kwag043
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本问题是:在观察性流行病学研究中,尤其是采用前瞻性入组的回顾性图表审查(chart-review)设计时,强制要求书面知情同意是否会引入系统性选择偏倚,从而破坏样本对目标合格人群的代表性,并扭曲关键临床结局(如疾病风险)的估计。当前该领域的成熟度处于"实证量化偏倚存在性"阶段:已有大量实证文献记录了同意偏倚的现象,但如何从因果推断或半参数理论角度正式定义、识别并校正这种偏倚,仍处于空白或极早期阶段。
发展脉络: - 奠基工作:上世纪90年代,医学研究伦理与流行病学方法交汇处开始系统记录知情同意对样本代表性的破坏。例如 Jacobsen et al. (1999) 与 Klinger et. al (1997) 等工作,通过对比同意者与拒绝者的基线特征,首次量化了同意者往往更年轻、更健康的趋势,留下了"偏倚方向已知,但如何校正未知"的口子。 - 主要进展:2000年代至2010年代,大量实证研究在不同疾病场景(如癌症、心血管病)重复验证了这一现象。作者在 intro 中引用了多篇此类文献(如 Hull et al. 2003; Jenkins et al. 2013; Kozlov et al. 2015),指出它们一致发现"同意者与拒绝者在年龄、性别、健康状态上存在差异",但作者的原话判断是:这些研究多局限于"描述性比较",且大多针对的是高风险或干预性试验,而非最低风险(minimal-risk)的观察性图表审查研究。 - 当前 frontier:近年来的前沿开始关注特定研究设计下的同意偏倚。作者引用了 Fowler et al. (2022) 与 Beskow et al. (2022),指出当前焦点转向了"前瞻性入组回顾性审查"这一灰色地带——IRB 通常豁免纯回顾性研究的书面同意,但对哪怕只是多抽一管血的最低风险前瞻性研究却要求书面同意。作者的原话判断明确将缺口 frame 在此:"这种 IRB 政策差异是否在最低风险研究中也引入了实质性偏倚?尚无直接量化数据。" - 本文的位置:本文填补了上述缺口,利用一个罕见的"双重协议"自然实验(IRB 豁免了图表审查的同意,但同时要求另一个前瞻性血样采集的书面同意),首次在最低风险前列腺癌(PCa)图表审查研究中,量化了书面同意要求对核心结局(PCa 风险)的选择偏倚幅度(OR=0.41)。
子线索聚类: 被引文献大致落在三条子线索上: 1. 同意偏倚的实证记录(Jacobsen 1999; Klinger 1997; Hull 2003 等):在各类临床研究中比较同意者与拒绝者的基线特征与结局差异,结论高度一致——同意者更健康(Healthy Volunteer Bias)。 2. IRB 伦理政策与研究可行性的张力(Beskow 2022; Fowler 2022 等):探讨 IRB 对最低风险研究过度要求书面同意的伦理合理性,以及这如何阻碍了低负担研究的开展。 3. 图表审查研究的方法学特性(作者提及的纯回顾性审查常规做法):纯回顾性审查通常豁免同意且偏倚较小,但一旦加入前瞻性入组环节,方法学上就面临同意偏倚的侵入。
这个方向在追问的核心问题: 1. 偏倚的存在性与方向:在最低风险的观察性研究中,书面同意要求是否仍会引入显著的选择偏倚?偏倚的方向与幅度是什么? 2. 偏倚对核心 estimand 的影响:同意偏倚如何扭曲目标人群的疾病风险估计? 3. 政策干预的有效性:豁免书面同意是否能消除此类偏倚? 当前主流方法:描述性统计 + 多变量 logistic 回归量化同意组与拒绝组的差异。已知瓶颈:仅停留在偏倚的"存在性检验",缺乏从因果识别角度定义 consent 机制下的目标 estimand 及校正框架。
⚠️ 作者的 framing: - 作者把缺口 frame 成:"IRB 对最低风险前瞻性图表审查研究强制要求书面同意,这引入了偏倚,因此应豁免"。这让本文成为"提供量化证据以推动 IRB 政策改革"的显然下一步。 - 被淡化或回避的竞争路线:作者完全没有引用任何因果推断方法学文献(如 selection bias 的 identification 理论、missing data 的 sensitivity analysis、或 proximal causal inference),也没有引用半参数效率理论或debiasing相关的工作。整篇 intro 纯粹在流行病学实证与伦理政策的话语体系内运作。 - 明显该被引却缺失的:因果推断中处理选择偏倚/缺失数据的经典文献(如 Hernán & Robins 2020 的 Causal Inference book 中关于 selection bias 的章节;D'Agostino & Rubin 2000 的 propensity score for missing data;或近年 Miao et al. 的 proximal selection bias 校正)。这条是值得研究者去查的缺口——作者没引,恰恰意味着他们没意识到这个偏倚在因果框架下可以被形式化并校正,而不仅仅是"被避免"。
张力: 未见明显对立引用。被引的实证文献结论高度一致(均发现同意偏倚存在),只是场景与幅度不同。真正的张力不在被引文献之间,而在本文的实证结论与因果推断方法学的空白之间:本文证明了偏倚存在且 OR=0.41,但给出的唯一解是"政策上豁免同意",完全回避了"如果无法豁免,统计上如何校正"这一更具一般性的数学问题。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(N\):目标合格人群的总样本量(本文 \(N=2202\),即 2007-2021 年间在 Durham VA Healthcare System 计划接受初始前列腺活检的所有退伍军人患者)。
- \(Z_i\):个体的基线协变量向量(可观测),包含年龄(Age)、种族(Race,黑/白/其他)、PSA 水平、活检年份等。
- \(A_i\):同意指示变量(二值处理/选择变量)。\(A_i=1\) 表示个体提供了书面知情同意并进入前瞻性血样采集协议;\(A_i=0\) 表示拒绝同意(但仍在图表审查协议下被观测)。
- \(Y_i\):临床结局(二值),\(Y_i=1\) 表示活检确诊前列腺癌(PCa),\(Y_i=0\) 表示未确诊。
- \(R_i\):数据缺失指示(在同意组 \(A_i=1\) 中,\(R_i=1\) 表示协变量与结局均完整可观测;在拒绝组 \(A_i=0\) 中,由于豁免了书面同意,图表审查仍能观测 \(Z_i\) 与 \(Y_i\),故实际上 \(R_i=1\) 对所有 \(N\) 个个体均成立——这是本文自然实验的关键特征:我们同时观测了同意者与拒绝者的 \((Z, Y)\))。
- 潜在(counterfactual)量:\(Y_i(a)\) 表示如果强制个体 \(i\) 的同意状态为 \(a\) 时的潜在 PCa 结局。在现实中,同意是自选择的,故我们观测到 \(Y_i = Y_i(A_i)\)。
- Estimand(本文隐含的):目标人群的 PCa 风险 \(P(Y=1)\),或给定协变量下的风险 \(P(Y=1 \mid Z)\)。本文实际量化的是同意组与拒绝组的风险差:\(P(Y=1 \mid A=1) - P(Y=1 \mid A=0)\),以及多变量调整后的条件风险比 \(\frac{P(Y=1 \mid A=1, Z)}{P(Y=1 \mid A=0, Z)}\)。
- 数据生成机制:患者进入活检流程(\(Z_i\) 生成) \(\to\) 被招募进入前瞻性研究(\(A_i\) 基于 \(Z_i\) 及未观测的个体偏好 \(U_i\) 自选择生成) \(\to\) 活检结果 \(Y_i\) 生成(取决于 \(Z_i\) 及疾病真实状态)。
- 可观测数据:研究者实际能观测到的是全部 2202 个个体的 \((Z_i, A_i, Y_i)\)。其中,同意组(\(A=1\), 1238人)与拒绝组(\(A=0\), 964人)的基线与结局均完整。想要但观测不到的:决定同意行为的未观测因素 \(U_i\)(如健康意识、就医偏好),以及如果拒绝者被强制同意的潜在结局 \(Y_i(1)\)。
第二步:最小内核——选择偏倚下的条件风险比退化
剥掉所有流行病学细节(前列腺癌、退伍军人、血样采集),本文的核心数学问题是一个自选择下的条件分布偏移问题:
最简特例(二值结局,单维连续协变量 Age): 假设目标人群的年龄 \(Z \sim \text{Uniform}[50, 80]\),PCa 风险模型为 \(P(Y=1 \mid Z) = \frac{Z-50}{30}\)(年龄越大风险越高)。同意机制为:年轻患者更倾向同意,\(P(A=1 \mid Z) = \frac{80-Z}{30}\)。 在这个最简设定下: - 目标人群的真实平均风险:\(E[Y] = E[P(Y=1 \mid Z)] = 0.5\)。 - 同意组的观测平均风险:\(P(Y=1 \mid A=1) = E[P(Y=1 \mid Z) \mid A=1]\)。由于 \(A=1\) 集中了年轻者,计算得 \(P(Y=1 \mid A=1) = 0.33\)。 - 拒绝组的观测平均风险:\(P(Y=1 \mid A=0) = 0.67\)。 - 偏倚:同意组的风险估计(0.33)严重低估了目标人群风险(0.5)。 - 条件调整:如果我们对 \(Z\)(Age)进行分层,计算 \(P(Y=1 \mid A=1, Z=z)\) 与 \(P(Y=1 \mid A=0, Z=z)\),在假设 \(A\) 仅通过 \(Z\) 影响 \(Y\) 的选择机制(即无未观测混淆 \(U\))下,条件风险比应退化为 1。但本文实证发现多变量调整后 OR=0.41 \(\neq 1\),说明存在未观测变量 \(U\) 同时影响同意 \(A\) 与结局 \(Y\),或者 \(A\) 本身改变了 \(Y\) 的测量路径(血样采集可能改变了后续诊断)。
核心数学困难:在 \(A\) 是自选择且存在未观测混淆 \(U\) 的情况下,观测到的条件风险比 \(P(Y=1 \mid A=1, Z) / P(Y=1 \mid A=0, Z) \neq 1\),无法通过简单调整 \(Z\) 消除偏倚。本文止步于报告这个 \(\neq 1\) 的 OR 值,而未触及真正的数学问题:在 \(U\) 不可观测时,目标 estimand \(P(Y=1)\) 或 \(P(Y=1 \mid do(A=1))\) 是否可识别?识别需要何种假设(如 proximal variable 或 IV)? 这正是研究者可以切入的内核。
三、这篇论文做了什么¶
三句话: ① 研究了最低风险前瞻性图表审查研究中,书面知情同意要求是否引入选择偏倚,并量化了偏倚幅度。 ② 核心工具是利用 IRB 豁免协议造成的自然实验设计,结合多变量 logistic 回归比较同意组与拒绝组在 PCa 风险上的差异。 ③ 主要结论是同意者 PCa 风险显著偏低(调整后 OR=0.41),书面同意要求导致样本不能代表目标人群,建议 IRB 对此类研究豁免书面同意。
关键设定与假设: - 双重协议设计:同一批 2202 名患者,同时处于两个协议下——协议 1(图表审查,豁免书面同意,观测全部 2202 人的 \(Z, Y\));协议 2(前瞻性血样采集,要求书面同意,1238 人同意,964 人拒绝)。这一设计使得拒绝组的 \((Z, Y)\) 也可观测,是本文相比以往文献(往往无法观测拒绝者)的独特优势。 - 假设 1(无测量偏倚):假设同意与否(\(A\))不影响 PCa 结局(\(Y\))的真实发生,即 \(Y_i(1) = Y_i(0) = Y_i\)。这是一个强假设:同意者多抽了一管血,可能触发额外的病理检查或随访,从而提高 PCa 的检出率。作者在文中未正式讨论此假设,但结论中 OR=0.41 远小于 1,暗示即使存在测量增强效应,同意者的风险仍显著更低,偏倚方向未被翻转。 - 假设 2(Logistic 回归的正确指定):多变量调整模型假设 \(A\) 对 \(Y\) 的效应在 logistic 尺度上是可加的,且协变量 \(Z\) 的纳入足以捕获所有混淆。OR=0.41 的显著偏离直接否定了这一假设——说明存在未观测混淆或 \(A\) 的直接效应。 - 与已有文献的对比:相比以往仅能比较同意者与人群总体特征的工作,本文因双重协议能直接比较同意者与拒绝者的结局,在设定上强化了偏倚量化的可靠性。
主要结果: - 定理级陈述(实证结论):在全部 2202 名合格患者中,同意组(\(A=1\))与拒绝组(\(A=0\))的 PCa 检出率存在显著差异。 - 未调整风险:同意组 PCa 率显著低于拒绝组(具体数值文中给出,同意组约 20% vs 拒绝组约 40% 量级)。 - 多变量调整后:控制年龄、种族、PSA、活检年份等后,同意组的 PCa 风险仍显著偏低,OR = 0.41 (95% CI 0.31–0.54, P < 0.001)。 - 直觉:年轻患者更倾向同意,而年轻本身是 PCa 的保护因素,导致同意组聚集了低风险个体;但调整年龄后 OR 仍远小于 1,说明除了年龄,还有其他未观测的健康相关偏好(如健康意识强的患者既更愿同意,又因更早筛查导致活检时病灶更小)在驱动偏倚。 - 必要条件:此结论依赖于拒绝者的数据可通过豁免协议获取(若无豁免,拒绝者的 \(Y\) 不可观测,偏倚幅度将无法量化)。 - 次要结果:同意者与拒绝者在种族分布上无显著差异(P=0.50),但在年龄上有显著差异(同意者平均年龄更低)。
证明路线与技术技巧(实证型拆解): - 整体路线: 1. 人群识别:通过豁免协议的图表审查,识别出 2007-2021 年间所有计划接受初始前列腺活检的退伍军人(\(N=2202\)),确立目标合格人群。 2. 同意状态分配:记录这 2202 人在前瞻性血样采集协议下的同意决定(\(A=1\) 或 \(A=0\))。 3. 结局与协变量提取:从电子病历中提取所有 2202 人的活检结果(\(Y\))与基线特征(\(Z\))。 4. 描述性比较:比较同意组与拒绝组在 \(Z\) 各维度上的分布差异(t 检验 / 卡方检验)。 5. 多变量回归量化偏倚:拟合 logistic 回归 \(P(Y=1 \mid A, Z)\),提取 \(A\) 的系数作为调整后偏倚幅度的度量。 - 关键跳跃点:从"同意组与拒绝组年龄不同"到"调整年龄后 PCa 风险仍不同"(OR=0.41)。这一跳跃揭示了未观测混淆 \(U\) 的存在,是本文最有价值的实证发现,但作者仅将其作为"偏倚严重"的证据,未进一步形式化 \(U\) 的结构。 - 技术技巧点名: - 自然实验设计:利用 IRB 政策差异造成的双重协议,使得 \(A=0\) 组的数据可观测,这是本文实证可行性的基石。 - 多变量 Logistic 回归:用于调整观测混淆 \(Z\),提取 \(A\) 对 \(Y\) 的条件关联度量(OR)。这是经典的参数化调整工具,但在存在未观测混淆时,OR 不等于因果效应或无偏估计。 - 缺失指示器逻辑的规避:本文未使用"将拒绝者视为缺失并用插补处理"的错误路线,而是直接比较两组,这在当前设定下是更诚实的做法。
真实例子与应用: - 数据场景:Durham Veterans Affairs Healthcare System,2007-2021 年间 2202 名计划接受初始前列腺活检的退伍军人男性患者。 - 方法应用:通过 IRB 批准的豁免协议获取全部患者电子病历数据(年龄、种族、PSA、活检年份、PCa 诊断结果),同时记录其中 1238 人对前瞻性血样采集协议的书面同意状态。 - 结果:同意者平均年龄更低(62.1 vs 64.9 岁),种族分布相似(黑人均占 40% 左右),PCa 检出率同意组显著更低(未调整差值约 20 个百分点,调整后 OR=0.41)。 - 想说明什么:验证"即使是最低风险的观察性研究,书面同意要求也会引入严重的选择偏倚",以此挑战 IRB 对此类研究不豁免书面同意的常规做法。本文是纯实证应用,无模拟实验,无理论证明。
🔎 结论是否比证明窄: - 本文的核心结论"书面同意导致样本不能代表全部合格人群"在当前数据下严格成立(OR=0.41 的 CI 远离 1)。 - 但泛泛 claim "To minimize selection bias, a waiver of written consent should be allowed"超出了实证证明的范围——证明的是"同意要求引入了偏倚",但"豁免同意能最小化偏倚"是一个政策推断,依赖于"豁免同意后数据质量与完整性不下降"的假设,这在文中未被证明(例如,豁免同意可能降低患者对研究的信任,导致其他形式的参与偏倚)。 - 另一个未证明的泛化:作者将退伍军人前列腺活检场景的结论推广到一般"最低风险前瞻性图表审查研究",这是一个外部有效性跳跃,文中无其他场景的验证数据。
四、开放问题(点到为止,扎根具体语句)¶
-
Consent-bias 下的因果识别与校正:本文在 Results 部分报告了调整观测协变量后 OR=0.41,揭示了未观测混淆 \(U\) 的存在。开放问题是:在 \(U\) 不可观测时,目标人群风险 \(P(Y=1)\) 是否可识别?需要何种假设(如 Proximal CI 中要求代理变量 \(W\) 满足 \(W \perp\!\!\!\perp A \mid (U, Z)\) 且 \(W \not\!\!\!\perp U \mid Z\),或 IV 假设要求 \(A\) 的工具变量)才能将 OR=0.41 校正为无偏估计?扎根于本文 "multivariable OR = 0.41" 这一具体实证发现,以及 intro 中未引用任何 causal identification 文献的空白。
-
同意机制的测量偏倚:本文假设同意(\(A\))不改变 PCa 的真实发生(\(Y_i(1)=Y_i(0)\)),但同意者多抽了血,可能改变诊断灵敏度。开放问题:如何形式化 \(A\) 对 \(Y\) 测量路径的直接效应(即 \(Y_i(1) \neq Y_i(0)\) 但差异仅来自测量),并在 primary outcome 与 measurement outcome 分离的假设下识别真实风险?扎根于本文 "blood collection protocol" 这一设计细节,以及结论中未讨论测量增强效应的局限。
-
Sensitivity analysis for consent mechanism:本文仅给出单一 OR 值,未做偏倚的敏感性分析。开放问题:在 \(U\) 的不同强度假设下(如 Rosenbaum 框架或 marginal sensitivity model),\(P(Y=1)\) 的识别区间是什么?OR=0.41 在何种 \(U\) 强度下会被翻转?扎根于本文 "P < .001" 的显著性声明——显著性仅说明偏倚存在,不说明其鲁棒性或可校正范围。
-
IRB 政策的因果效应评估:作者 claim "waiver should be allowed",但未评估豁免政策本身的因果效应。开放问题:在不同医院/IRB 政策下(有的豁免,有的不豁免),豁免政策对研究样本代表性(\(P(Y=1 \mid \text{sample}) - P(Y=1 \mid \text{population})\))的因果效应是什么?这需要将"IRB 政策"作为处理变量,跨机构数据作为观测,扎根于本文 intro 对 "many IRBs do not approve such waivers" 的描述,以及结论中未提供跨机构对比数据的缺口。
(要确认上述第 1 条是否为真 gap,建议检索近 5 年流行病学方法学文献的 intro,看是否有人已将 consent-bias 形式化为 missing data / selection bias 的 identification 问题;若均停留在描述性量化,则该 gap 为共识性真缺口。)
Maintained by 陈星宇 · Homepage · Source on GitHub