Evidence triangulation in dementia research¶

讲者: Maria Glymour
讨论人: George Davey Smith
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-02-27
主题: 因果推断
视频: https://youtu.be/JPqpHxck0DA

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：证据三角测量（Evidence Triangulation）在因果推断中的应用——以痴呆症流行病学为例。

该方向的追问：在观察性研究中，单一识别策略（如协变量控制）往往因未测量混杂而脆弱。如何系统性地整合多个来自不同偏倚来源的估计，使它们共同指向同一因果结论，从而增强推断可信度？奠基工作包括：

Lawlor et al. (2016) （《International Journal of Epidemiology》）——正式提出“evidence triangulation”概念：通过整合结果来自不同方法（每种方法有不同且假定无关的关键偏倚来源）来加强因果推断。
Mathur & Swanson (2023) （《Current Epidemiology Reports》）——更形式化地定义：两种估计量应用于同一数据和问题，当且仅当两种方法的因果假设都满足时，期望一致；比较那些基于实质知识只有在无偏时才一致的估计量。
历史渊源：讨论者George Davey Smith指出，该思想可追溯到Bradford Hill的“一致性”标准（多个不同情境下重复得到相同结果，比同一设计下的重复更能排除恒定误差）。

报告站在何处：报告不是开发新统计方法或推导渐近理论，而是作为流行病学应用者，展示如何在一类特别“棘手”的结局（痴呆症）中实践三角测量。讲者着重强调：痴呆研究的特殊性（慢病程、多重病理、早期认知混淆、诊断偏倚）导致单一观察性研究极易不可靠，因此三角测量尤其必要。她通过四个团队工作实例（教育→痴呆、BMI→痴呆、癌症→痴呆、抗Amyloid药物→认知）展示了“互补证据来源”的几种策略，并讨论讨论者进一步补充了正交偏倚的量化（如LDL胆固醇的RCT与孟德尔随机化比较）。

当前Frontier：三角测量正从“直觉隐喻”向更系统的框架发展（如Mathur & Swanson；预注册；偏倚量化模拟；meta回归）。本报告是应用推动，而非理论前沿。

二、最小内核 / 一个最简例子：教育对痴呆风险的影响¶

符号与模型：

可观测数据：\((X, Y, Z, C)\)，其中
\(X\) = 教育年限（暴露）
\(Y\) = 痴呆发病（结局，二值或时间）
\(Z\) = 工具变量（如Mandatory schooling law产生的出生队列<或>某年份的哑变量，或遗传风险评分）
\(C\) = 可观测混杂（如性别、年龄、父母SES；但早期IQ = \(U\) 通常不可观测）
潜在不可观测量：\(U\) = 早期认知能力（childhood IQ），它同时影响\(X\)（教育获取）和\(Y\)（痴呆风险），导致观察性关联无法通过\(C\)完全控制。
估目标（Estimand）\(\theta\)：教育每增加一年对痴呆风险的对数OR或风险差（通常定义为某个因果参数）。

最简特例（d=1，二值工具）：

考虑一个最简单的政策工具\(Z\)：某州强制离校年龄从14岁提高到16岁，生效于某年份。则出生在该年份之后的人（\(Z=1\)）比之前的人（\(Z=0\)）平均多接受约2年教育（假设）。此时：

协变量控制估计：控制\(C\)后回归\(Y\) on \(X\)，得到\(\hat{\theta}_{\text{conf}}\)。但它可能因未控制\(U\)（childhood IQ）而有偏（通常是负偏，即高IQ→更多教育+更低痴呆风险，低估保护效应或高估风险？实际更可能是高IQ者教育多且痴呆少，所以未调整时关联被夸大？需要看实质）。重要的是，社会上认为教育确实保护，但怀疑混杂方向。
IV估计（两阶段最小二乘）：
第一阶段：\(X = \gamma_0 + \gamma_1 Z + \delta' C + \epsilon\)，\(\gamma_1\)估计政策对教育的影响。
第二阶段：\(Y = \beta_0 + \beta_1 \hat{X} + \delta' C + \eta\)，\(\beta_1\)是IV估计的因果效应。
IV假定：\(Z\)与\(U\)无关（政策外生性），\(Z\)只通过\(X\)影响\(Y\)（排他性），且与\(C\)无关（通常政策与早期IQ无关，故偏倚来源与协变量控制完全不同）。
三角测量思想：如果两个估计（协变量控制、IV）都指向同一方向（教育有保护效应），且数值差异在合理偏倚范围内（如IV估计往往更大，可能因测量误差或局部平均处理效应），则可极大增强因果推断的信心，因为两个方法的偏倚来源（未测混杂 vs 工具弱/排他性违反）不太可能同时恰巧产生相同方向的结果。

讲者提示：在该工作中（[约0:21:35]），协变量控制、遗传IV、政策IV均得到教育降低痴呆风险的一致结论；政策IV的效应量“大得不太合理”，可能揭示教育不仅通过年限起作用（如课堂内学习测试技巧、社会网络等），但这个不一致本身也值得深究（[0:24:00]附近讨论）。

三、报告主体：讲者讲了什么¶

[0:04]–[0:06] 引言与痴呆背景：

讲者Maria Glymour（波士顿大学流行病学系主任）。她强调痴呆诊断的三要素：认知低于正常水平、从本人过去衰退、导致功能丧失。痴呆类似“残疾”，由多种病理（阿尔茨海默、脑血管等）叠加导致。
挑战：病程长（数十年）、多种病理协同、诊断时间受就医可及性影响、早期IQ（childhood cognitive skills）是几乎所有风险因素的强力未测混杂（[0:06:02]附近，讲者展示：几乎所有已知风险因素都与童年认知高度相关）。现有数据极少有童年期前瞻测量。

[0:07]–[0:09] 证据三角测量概念：

定义引用Lawlor（2016）和Mathur & Swanson（2023）。核心：不同方法有不同且假定无关的偏倚来源，若结果一致则加强因果推断。
提到Bradford Hill的“一致性”标准，强调“不同方式得出相似结果”比“同一方式重复”更有力。
讲者批评传统“证据金字塔”（RCT最高）的简化，指出现代因果框架（DAG、IV、前门准则）允许更精细的偏倚讨论。

[0:10]–[0:14] 三角测量的类型与当前局限：

三大识别策略：后门准则（协变量控制）、工具变量、前门准则（后两者少用）。痴呆领域几乎全用协变量控制。
举例：Lancet的痴呆风险因素综述（Livingston等）大多基于协变量控制，缺乏IV证据；酒精与痴呆的观察研究显示适度饮酒有益，但人们因担心误导公众而“忽略”结果，这恰恰说明方法信心不足（[0:14:41]）。

[0:15]–[0:21] 第一个例子：教育→痴呆（经典三角测量） [约0:21:35-0:25:00]

问题：教育是否降低痴呆风险？大量观察研究显示强关联（meta RR~0.4每增量？原文"around .4"可能指RR=0.4？实际常见每增1年OR~0.9，参考）。
Tun Win（现U Maryland）处理：使用Health and Retirement Study (HRS)三种方法：
协变量控制（无早期IQ数据）
遗传IV（polygenic score for education）
政策IV（美国各州强制教育法变化）
结果：所有方法均显示保护效应，但政策IV估计值“非常大”，可能混杂了教育带来的社会收益（不仅是认知测试能力），也可能是LATE效应。后续研究纳入早期IQ的队列仍支持保护效应。
讨论点（[0:24:00]）：教育可能只提高测试成绩（differential test-taking skills），而非真正延缓功能衰退——需进一步三角测量。

[0:25]–[0:34] 第二个例子：BMI与阿尔茨海默病——反向因果的年龄窗口 [约0:25:50-0:33:41]

问题：中年肥胖增加痴呆风险，但临床发现阿尔茨海默病患者在诊断前已有体重减轻。何时痴呆相关的体重改变开始发生？这影响对“中年BMI”作为风险因素的因果推断（可能是反向因果）。
方法：利用UK Biobank（约40万人），用AD的遗传风险评分（GRS，含APOE ε4和许多小效应SNP）作为工具（注意：此处IV不是用于对BMI的因果效应，而是用于检测“疾病提前影响BMI的时间点”）。模型：BMI ~ age + age² + GRS + GRS×f(age)（允许斜率差异），找到GRS与BMI显著交互的年龄转折点。
结果：约在46-50岁，高AD风险者BMI下降加快（与低风险者分离）（[0:30:29]图）。类似模式在多项认知测试中出现（晚期40s到中期50s开始加速下降）。
推论：如果该结果成立，则目前多数AD研究从65岁开始已错过预防窗口，且中年风险因素关联可能被前临床疾病混淆。
注意事项：UK Biobank为横截面数据（年龄轨迹是不同人不同年龄），需选择性偏倚（[0:31:13]）；混杂如多效性（GRS实际影响体重？但讲者认为不充分）。

[0:35]–[0:43] 第三个例子：癌症与痴呆的“反向保护” [约0:35:50-0:41:30]

问题：癌症幸存者痴呆发病率低于一般人群。可能的解释：生存偏倚（癌症致死先于痴呆诊断）、诊断偏倚（癌症患者接受医疗更多、更可能被诊断痴呆？实际上癌症患者确诊痴呆机会更多，导致癌症显得“保护”——但观察结果却是癌症“保护”，所以方向？原文说“癌症status maybe influence AD diagnosis”使癌症看起来更保护？[0:38:40]提到“upward bias making cancer look less protective”即诊断偏倚使保护效应被低估，生存偏倚使保护被高估。需细读。
团队方法：
Meta回归（Monica Ospina Romero）：按研究特征分组（混杂脆弱性、诊断偏倚脆弱性、生存偏倚脆弱性），排除某类脆弱组再合并。发现生存偏倚使保护效应被高估，诊断偏倚使保护被低估（[0:38:30-0:39:05]）。
负对照：用配偶认知轨迹作为随癌症状态的变化（配偶不应受保护），几乎无关联。
偏倚量化模拟（Elizabeth Rose Mayeda）：经典的竞争风险仿真不足以产生观察到的保护幅度，但癌症诊断前已有未诊断痴呆而被癌症“夺走观察窗口”（即存活偏倚）可能产生大偏倚。
诊断偏倚直接量化（Jingwan Wong）：任何医疗接触都显著增加痴呆诊断概率，因此癌症患者因频繁就医更可能被诊断（这会使癌症看起来增加痴呆风险？实际上该效应方向是使癌症与痴呆正相关，而观察到的却是负相关，所以该偏倚不足以解释保护；不确定）。
结论：尽管生物学上可能（细胞增长 vs 细胞死亡），但当前证据受数据库偏倚污染严重，难以做出可信因果推断。

[0:43]–[0:47] 第四个例子：抗Amyloid药物对认知的作用——IV分析结合RCT数据 [约0:41:33-0:47:25]

问题：Amyloid-β（Aβ）清除药物临床试验结果异质，药效幅度与认知获益的关系不明。问：每清除一份Aβ，认知改善多少？
方法：利用随机分组（不同剂量、不同药物）作为Aβ清除的工具变量。数据为聚合层面（各臂均值），因而使用“meta-IV”思想：各臂的Aβ清除率与认知变化率的线性回归（加权），工具为随机化分配。
原始分析（Sarah Ackley, BMJ 2023）：发现Aβ清除对认知效果很小（接近零，置信区间宽）。
后更新：新四轮试验（包括lecanemab等）加入后，用贝叶斯更新，发现无论先验如何（悲观/乐观），后验均指向“很小但正效果”（[0:45:22]图）。结论：当前数据不支持Aβ清除在短中期（~1-2年）带来有意义的认知获益，但无法排除长期或更早干预可能。
局限：数据聚合、异质性（Aβ种类）、无个体数据。未来若有个体数据可做更标准IV。

[0:48]–[0:49] 挑战与总结 [0:48:00-end]

三角测量理想难以完美：不同估计量的estimand可能不同（暴露定义、结果定义、时间尺度），“不同estimand就不能比较”的反对太强——讲者认为应设法转换到共同度量。
预注册三角测量（讨论者提出）可减少p-hacking。
结语：我们需要更大的“发现我们错了”的渴望，以及更好计算工具。

四、对应论文与开放问题¶

（a）本场报告对应的论文/工作¶

教育-痴呆：可能对应 Tun Win, et al. (2018?) 或其他 HRS 教育IV论文。具体标题未知（讲者未提供arXiv/DOI）。
BMI-痴呆年龄转折点：Willa Brenowitz, Scott Zimmerman, Peter B., Min Choi 等团队。未指定期刊。
癌症-痴呆三角测量：Monica Ospina Romero, Lindsay Kobayashi, Jingwan Wong, Elizabeth Rose Mayeda, Eleanor Hayes-Larson 等系列论文。讲者提及“BMJ tutorial”（对于IV分析）但可能是指Sarah Ackley的Aβ药物论文。
Aβ药物IV分析：Sarah Ackley, BMJ 2023（以及贝叶斯更新，可能为medRxiv或后续）。
讨论者引用：Neil Davies 关于教育政策IV vs MR的最新论文（Int J Epidemiol, 2023?）、Lawlor 2016、Mathur & Swanson 2023 等。

注意：以上为根据转写推断，具体标题需查“Maria Glymour”组发表。

（b）报告中开放问题（每条附时间点）¶

如何将不同estimand统一比较？ （约[0:48:00]）——“These are not the same estimand full stop”的反驳。需要发展可转换不同因果参数的标准方法，例如通过生物标记或模型假设将政策IV的LATE转换为ATE或ITT。
暴露定义/结果的异质性（[0:48:24]）“几乎无约束”地改变暴露定义（如教育年限 vs 教育质量；BMI测量频率等），使得跨研究合并极其困难。
痴呆诊断本身的偏倚（[0:48:40]）——认知变化 vs 痴呆发病两种结局混杂了完全不同偏倚，难以整合。
预注册的挑战（[1:00:38] George提出）——如何在设计时就预注册将用于三角测量的多种方法和分析计划，避免选择报告最佳结果。
复杂的多重偏倚“正交性”检验——仅靠实质判断“偏倚无关”不够，需要更形式化检验（例如通过负对照或敏感性分析量化），但尚无通用工具。
个体水平数据的开放（[0:47:25]）——制药公司若共享抗Amyloid药物个体数据，可以使IV分析更精确并减少聚合偏倚。
痴呆的早期过程难以观察（[0:34:05]问答）——讲者建议忽略“痴呆发病”作为结局，改用长期认知轨迹进行因果推断，但该策略需要更长随访和更好控制学习效应/测量误差。

以上问题均不判断可行性与匹配用户兵器库，仅作罗列。

Maintained by 陈星宇 · Homepage · Source on GitHub