Evidence triangulation in dementia research¶
讲者: Maria Glymour
讨论人: George Davey Smith
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-02-27
主题: 因果推断
视频: https://youtu.be/JPqpHxck0DA
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
子方向:证据三角测量(Evidence Triangulation)在因果推断中的应用——以痴呆症流行病学为例。
该方向的追问:在观察性研究中,单一识别策略(如协变量控制)往往因未测量混杂而脆弱。如何系统性地整合多个来自不同偏倚来源的估计,使它们共同指向同一因果结论,从而增强推断可信度?奠基工作包括:
- Lawlor et al. (2016) (《International Journal of Epidemiology》)——正式提出“evidence triangulation”概念:通过整合结果来自不同方法(每种方法有不同且假定无关的关键偏倚来源)来加强因果推断。
- Mathur & Swanson (2023) (《Current Epidemiology Reports》)——更形式化地定义:两种估计量应用于同一数据和问题,当且仅当两种方法的因果假设都满足时,期望一致;比较那些基于实质知识只有在无偏时才一致的估计量。
- 历史渊源:讨论者George Davey Smith指出,该思想可追溯到Bradford Hill的“一致性”标准(多个不同情境下重复得到相同结果,比同一设计下的重复更能排除恒定误差)。
报告站在何处:报告不是开发新统计方法或推导渐近理论,而是作为流行病学应用者,展示如何在一类特别“棘手”的结局(痴呆症)中实践三角测量。讲者着重强调:痴呆研究的特殊性(慢病程、多重病理、早期认知混淆、诊断偏倚)导致单一观察性研究极易不可靠,因此三角测量尤其必要。她通过四个团队工作实例(教育→痴呆、BMI→痴呆、癌症→痴呆、抗Amyloid药物→认知)展示了“互补证据来源”的几种策略,并讨论讨论者进一步补充了正交偏倚的量化(如LDL胆固醇的RCT与孟德尔随机化比较)。
当前Frontier:三角测量正从“直觉隐喻”向更系统的框架发展(如Mathur & Swanson;预注册;偏倚量化模拟;meta回归)。本报告是应用推动,而非理论前沿。
二、最小内核 / 一个最简例子:教育对痴呆风险的影响¶
符号与模型:
- 可观测数据:\((X, Y, Z, C)\),其中
- \(X\) = 教育年限(暴露)
- \(Y\) = 痴呆发病(结局,二值或时间)
- \(Z\) = 工具变量(如Mandatory schooling law产生的出生队列<或>某年份的哑变量,或遗传风险评分)
- \(C\) = 可观测混杂(如性别、年龄、父母SES;但早期IQ = \(U\) 通常不可观测)
- 潜在不可观测量:\(U\) = 早期认知能力(childhood IQ),它同时影响\(X\)(教育获取)和\(Y\)(痴呆风险),导致观察性关联无法通过\(C\)完全控制。
- 估目标(Estimand)\(\theta\):教育每增加一年对痴呆风险的对数OR或风险差(通常定义为某个因果参数)。
最简特例(d=1,二值工具):
考虑一个最简单的政策工具\(Z\):某州强制离校年龄从14岁提高到16岁,生效于某年份。则出生在该年份之后的人(\(Z=1\))比之前的人(\(Z=0\))平均多接受约2年教育(假设)。此时:
-
协变量控制估计:控制\(C\)后回归\(Y\) on \(X\),得到\(\hat{\theta}_{\text{conf}}\)。但它可能因未控制\(U\)(childhood IQ)而有偏(通常是负偏,即高IQ→更多教育+更低痴呆风险,低估保护效应或高估风险?实际更可能是高IQ者教育多且痴呆少,所以未调整时关联被夸大?需要看实质)。重要的是,社会上认为教育确实保护,但怀疑混杂方向。
-
IV估计(两阶段最小二乘):
- 第一阶段:\(X = \gamma_0 + \gamma_1 Z + \delta' C + \epsilon\),\(\gamma_1\)估计政策对教育的影响。
- 第二阶段:\(Y = \beta_0 + \beta_1 \hat{X} + \delta' C + \eta\),\(\beta_1\)是IV估计的因果效应。
-
IV假定:\(Z\)与\(U\)无关(政策外生性),\(Z\)只通过\(X\)影响\(Y\)(排他性),且与\(C\)无关(通常政策与早期IQ无关,故偏倚来源与协变量控制完全不同)。
-
三角测量思想:如果两个估计(协变量控制、IV)都指向同一方向(教育有保护效应),且数值差异在合理偏倚范围内(如IV估计往往更大,可能因测量误差或局部平均处理效应),则可极大增强因果推断的信心,因为两个方法的偏倚来源(未测混杂 vs 工具弱/排他性违反)不太可能同时恰巧产生相同方向的结果。
讲者提示:在该工作中([约0:21:35]),协变量控制、遗传IV、政策IV均得到教育降低痴呆风险的一致结论;政策IV的效应量“大得不太合理”,可能揭示教育不仅通过年限起作用(如课堂内学习测试技巧、社会网络等),但这个不一致本身也值得深究([0:24:00]附近讨论)。
三、报告主体:讲者讲了什么¶
[0:04]–[0:06] 引言与痴呆背景:
- 讲者Maria Glymour(波士顿大学流行病学系主任)。她强调痴呆诊断的三要素:认知低于正常水平、从本人过去衰退、导致功能丧失。痴呆类似“残疾”,由多种病理(阿尔茨海默、脑血管等)叠加导致。
- 挑战:病程长(数十年)、多种病理协同、诊断时间受就医可及性影响、早期IQ(childhood cognitive skills)是几乎所有风险因素的强力未测混杂([0:06:02]附近,讲者展示:几乎所有已知风险因素都与童年认知高度相关)。现有数据极少有童年期前瞻测量。
[0:07]–[0:09] 证据三角测量概念:
- 定义引用Lawlor(2016)和Mathur & Swanson(2023)。核心:不同方法有不同且假定无关的偏倚来源,若结果一致则加强因果推断。
- 提到Bradford Hill的“一致性”标准,强调“不同方式得出相似结果”比“同一方式重复”更有力。
- 讲者批评传统“证据金字塔”(RCT最高)的简化,指出现代因果框架(DAG、IV、前门准则)允许更精细的偏倚讨论。
[0:10]–[0:14] 三角测量的类型与当前局限:
- 三大识别策略:后门准则(协变量控制)、工具变量、前门准则(后两者少用)。痴呆领域几乎全用协变量控制。
- 举例:Lancet的痴呆风险因素综述(Livingston等)大多基于协变量控制,缺乏IV证据;酒精与痴呆的观察研究显示适度饮酒有益,但人们因担心误导公众而“忽略”结果,这恰恰说明方法信心不足([0:14:41])。
[0:15]–[0:21] 第一个例子:教育→痴呆(经典三角测量) [约0:21:35-0:25:00]
- 问题:教育是否降低痴呆风险?大量观察研究显示强关联(meta RR~0.4每增量?原文"around .4"可能指RR=0.4?实际常见每增1年OR~0.9,参考)。
- Tun Win(现U Maryland)处理:使用Health and Retirement Study (HRS)三种方法:
- 协变量控制(无早期IQ数据)
- 遗传IV(polygenic score for education)
- 政策IV(美国各州强制教育法变化)
- 结果:所有方法均显示保护效应,但政策IV估计值“非常大”,可能混杂了教育带来的社会收益(不仅是认知测试能力),也可能是LATE效应。后续研究纳入早期IQ的队列仍支持保护效应。
- 讨论点([0:24:00]):教育可能只提高测试成绩(differential test-taking skills),而非真正延缓功能衰退——需进一步三角测量。
[0:25]–[0:34] 第二个例子:BMI与阿尔茨海默病——反向因果的年龄窗口 [约0:25:50-0:33:41]
- 问题:中年肥胖增加痴呆风险,但临床发现阿尔茨海默病患者在诊断前已有体重减轻。何时痴呆相关的体重改变开始发生?这影响对“中年BMI”作为风险因素的因果推断(可能是反向因果)。
- 方法:利用UK Biobank(约40万人),用AD的遗传风险评分(GRS,含APOE ε4和许多小效应SNP)作为工具(注意:此处IV不是用于对BMI的因果效应,而是用于检测“疾病提前影响BMI的时间点”)。模型:BMI ~ age + age² + GRS + GRS×f(age)(允许斜率差异),找到GRS与BMI显著交互的年龄转折点。
- 结果:约在46-50岁,高AD风险者BMI下降加快(与低风险者分离)([0:30:29]图)。类似模式在多项认知测试中出现(晚期40s到中期50s开始加速下降)。
- 推论:如果该结果成立,则目前多数AD研究从65岁开始已错过预防窗口,且中年风险因素关联可能被前临床疾病混淆。
- 注意事项:UK Biobank为横截面数据(年龄轨迹是不同人不同年龄),需选择性偏倚([0:31:13]);混杂如多效性(GRS实际影响体重?但讲者认为不充分)。
[0:35]–[0:43] 第三个例子:癌症与痴呆的“反向保护” [约0:35:50-0:41:30]
- 问题:癌症幸存者痴呆发病率低于一般人群。可能的解释:生存偏倚(癌症致死先于痴呆诊断)、诊断偏倚(癌症患者接受医疗更多、更可能被诊断痴呆?实际上癌症患者确诊痴呆机会更多,导致癌症显得“保护”——但观察结果却是癌症“保护”,所以方向?原文说“癌症status maybe influence AD diagnosis”使癌症看起来更保护?[0:38:40]提到“upward bias making cancer look less protective”即诊断偏倚使保护效应被低估,生存偏倚使保护被高估。需细读。
- 团队方法:
- Meta回归(Monica Ospina Romero):按研究特征分组(混杂脆弱性、诊断偏倚脆弱性、生存偏倚脆弱性),排除某类脆弱组再合并。发现生存偏倚使保护效应被高估,诊断偏倚使保护被低估([0:38:30-0:39:05])。
- 负对照:用配偶认知轨迹作为随癌症状态的变化(配偶不应受保护),几乎无关联。
- 偏倚量化模拟(Elizabeth Rose Mayeda):经典的竞争风险仿真不足以产生观察到的保护幅度,但癌症诊断前已有未诊断痴呆而被癌症“夺走观察窗口”(即存活偏倚)可能产生大偏倚。
- 诊断偏倚直接量化(Jingwan Wong):任何医疗接触都显著增加痴呆诊断概率,因此癌症患者因频繁就医更可能被诊断(这会使癌症看起来增加痴呆风险?实际上该效应方向是使癌症与痴呆正相关,而观察到的却是负相关,所以该偏倚不足以解释保护;不确定)。
- 结论:尽管生物学上可能(细胞增长 vs 细胞死亡),但当前证据受数据库偏倚污染严重,难以做出可信因果推断。
[0:43]–[0:47] 第四个例子:抗Amyloid药物对认知的作用——IV分析结合RCT数据 [约0:41:33-0:47:25]
- 问题:Amyloid-β(Aβ)清除药物临床试验结果异质,药效幅度与认知获益的关系不明。问:每清除一份Aβ,认知改善多少?
- 方法:利用随机分组(不同剂量、不同药物)作为Aβ清除的工具变量。数据为聚合层面(各臂均值),因而使用“meta-IV”思想:各臂的Aβ清除率与认知变化率的线性回归(加权),工具为随机化分配。
- 原始分析(Sarah Ackley, BMJ 2023):发现Aβ清除对认知效果很小(接近零,置信区间宽)。
- 后更新:新四轮试验(包括lecanemab等)加入后,用贝叶斯更新,发现无论先验如何(悲观/乐观),后验均指向“很小但正效果”([0:45:22]图)。结论:当前数据不支持Aβ清除在短中期(~1-2年)带来有意义的认知获益,但无法排除长期或更早干预可能。
- 局限:数据聚合、异质性(Aβ种类)、无个体数据。未来若有个体数据可做更标准IV。
[0:48]–[0:49] 挑战与总结 [0:48:00-end]
- 三角测量理想难以完美:不同估计量的estimand可能不同(暴露定义、结果定义、时间尺度),“不同estimand就不能比较”的反对太强——讲者认为应设法转换到共同度量。
- 预注册三角测量(讨论者提出)可减少p-hacking。
- 结语:我们需要更大的“发现我们错了”的渴望,以及更好计算工具。
四、对应论文与开放问题¶
(a)本场报告对应的论文/工作¶
- 教育-痴呆:可能对应 Tun Win, et al. (2018?) 或其他 HRS 教育IV论文。具体标题未知(讲者未提供arXiv/DOI)。
- BMI-痴呆年龄转折点:Willa Brenowitz, Scott Zimmerman, Peter B., Min Choi 等团队。未指定期刊。
- 癌症-痴呆三角测量:Monica Ospina Romero, Lindsay Kobayashi, Jingwan Wong, Elizabeth Rose Mayeda, Eleanor Hayes-Larson 等系列论文。讲者提及“BMJ tutorial”(对于IV分析)但可能是指Sarah Ackley的Aβ药物论文。
- Aβ药物IV分析:Sarah Ackley, BMJ 2023(以及贝叶斯更新,可能为medRxiv或后续)。
- 讨论者引用:Neil Davies 关于教育政策IV vs MR的最新论文(Int J Epidemiol, 2023?)、Lawlor 2016、Mathur & Swanson 2023 等。
注意:以上为根据转写推断,具体标题需查“Maria Glymour”组发表。
(b)报告中开放问题(每条附时间点)¶
- 如何将不同estimand统一比较? (约[0:48:00])——“These are not the same estimand full stop”的反驳。需要发展可转换不同因果参数的标准方法,例如通过生物标记或模型假设将政策IV的LATE转换为ATE或ITT。
- 暴露定义/结果的异质性([0:48:24])“几乎无约束”地改变暴露定义(如教育年限 vs 教育质量;BMI测量频率等),使得跨研究合并极其困难。
- 痴呆诊断本身的偏倚([0:48:40])——认知变化 vs 痴呆发病两种结局混杂了完全不同偏倚,难以整合。
- 预注册的挑战([1:00:38] George提出)——如何在设计时就预注册将用于三角测量的多种方法和分析计划,避免选择报告最佳结果。
- 复杂的多重偏倚“正交性”检验——仅靠实质判断“偏倚无关”不够,需要更形式化检验(例如通过负对照或敏感性分析量化),但尚无通用工具。
- 个体水平数据的开放([0:47:25])——制药公司若共享抗Amyloid药物个体数据,可以使IV分析更精确并减少聚合偏倚。
- 痴呆的早期过程难以观察([0:34:05]问答)——讲者建议忽略“痴呆发病”作为结局,改用长期认知轨迹进行因果推断,但该策略需要更长随访和更好控制学习效应/测量误差。
以上问题均不判断可行性与匹配用户兵器库,仅作罗列。
Maintained by 陈星宇 · Homepage · Source on GitHub