跳转至

Predictability, stability, and causality with a case study to find genetic drivers of a heart disease

讲者: Bin Yu
讨论人: Jas Sekhon
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-05-31
主题: 因果推断
视频: https://youtu.be/4e2EFrOUGfE · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告的核心是一条始于 2013 年、延续至今的「寻找可靠(veridical)数据科学」的工作线,由 Bin Yu(UC Berkeley, Statistics & EECS)领导。这条线试图回答一个根本问题:

当我们用数据做科学发现——尤其是因果发现——时,结论对"全链条上的人为决策"(问题定义、数据清理、模型选择、超参数……)有多敏感?我们能否系统化地评估并记录这种敏感性,从而提升结论的可信度与可复现性?

这条线的主要构成:

  • 奠基: Yu (2013) 提出 稳定性(stability)作为统计结果可复现的最低要求——结论应对数据与模型的"合理扰动"不敏感。这个原则在古典统计学中已有隐式体现(CLT 的交换性、随机矩阵的列交换等),Yu 把它显式地推广到整个数据科学生命周期(DSLC)。
  • 框架化: Yu & Kumbier (PNAS, 2020) 明确提出 PCS 框架——Predictability(预测性,作为与现实对接的"现实检查")、Computability(可计算性,含数据启发式模拟)、Stability(稳定性,作为最小要求)。该框架强调文档化(documentation)所有人类判断与扰动方案。
  • 方法论产出:发现高阶布尔型交互作用(这在基因组学中常见:多个转录因子达到足够结合水平才能启动转录),Yu 组提出 iterative Random Forests (iRF)(Basu, Kumbier, Brown & Yu, 2018)。核心想法:在随机森林中加入稳定性——软维度缩减(up-weight 重要特征)、随机交互树(RIT)收集路径共现、外循环 bagging 评估稳定性。后续理论工作(Behr, Wang, Li, accepted PNAS)在 LSS 模型(线性组合布尔函数)下证明了 iRF 的理论版本 LSSFind 的一致性。
  • 因果推断上的定位: 报告明确将自己定位为"实验推荐系统",而非传统观察性研究的因果推断(后者依赖无混杂、工具变量等假设)。PCS 用预测 + 稳定性生成带稳定性排名的基因/基因-基因交互建议,然后通过敲低实验(knock-down experiments)验证因果效果。讨论者 Jas Sekhon 指出,这回应了经济学中的"whimsical fragility"问题(Leamer, 1983)——整个数据科学管道中的无数决策,比简单的识别假设更值得关注。
  • 应用: 搜寻肥厚型心肌病(HCM)的遗传驱动因子(与 Stanford Ashley 实验室合作)。

对研究者的连接点: - 高阶交互发现(iRF) → 高阶 U-统计量 / 张量网: iRF 寻找的是高阶布尔交互(如 order-4 交互),其稳定性的评估在概念上接近计算高阶 U-统计量的稳定性。研究人员熟悉树宽/张量收缩的复杂度表征,这可能为 iRF 的稳定性评分提供更系统的计算框架。 - PCS 框架下的"稳定性"→ 半参数效率理论 + DML: 在因果推断中,Neyman 正交性(稳定性的一种变体)是 DML 的理论核心。Yu 的稳定性更宽泛(管道所有步骤),但这种连接意味着:研究者的 DML / HOIF 工具箱可直接用于在 PCS 中量化"管道扰动"下的推断稳定性。


二、最小内核 / 一个最简例子

符号与模型(抽象版): - 可观测数据:\( \{X_i, Y_i\}_{i=1}^n \),其中 \( X_i \) 是特征(如 SNP),\( Y_i \) 是响应(如左心室质量 LVM)。 - 潜在困难:真实响应是连续变量,有大量噪声;信号极弱 (55% 分类准确率);特征维度极高 (p ≈ 15M)。 - 目标:发现一组稳定的、具有预测性的布尔交互作用(如 "Gene A 与 Gene B 同时高表达" 是 HCM 的风险信号),并用实验验证其因果角色。

最简特例(d=1, 独立特征, 二值响应):

假设我们有一个超级简化的版本: - 特征只有 10 个二值 SNP(每个 SNP:0=不携带突变,1=携带)。 - 真实机制:只有同时出现 SNP3=1 且 SNP7=1 时,疾病风险高(order-2 布尔交互)。 - 响应已二值化(top 20% vs bottom 20% LVM)。

iRF 的核心思想在这一特例中变成:

  1. 训练随机森林:森林试图用"路径"(如"SNP3 > 0.5 → SNP7 > 0.5")来分割响应。
  2. 收集路径共现:对每个树,检查每一对 SNP 是否出现在同一条从根到叶的路径上。如果是,就计数一次。
  3. 加权 + 稳定性:不是均匀抽特征,而是用 MDI(Mean Decrease in Impurity)给重要 SNP 更高权重;反复 bootstrap,只保留在多次运行中都频繁共现的 SNP 对。
  4. 输出:最终输出一个稳定性得分排名高的 SNP 交互(如 (SNP3, SNP7)),然后送去实验验证。

为什么这个特例能抓住核心思想: - 预测性(P):随机森林在此数据上有 55% 准确率,证明有微弱信号(否则直觉=纯猜测)。 - 稳定性(S):如果不做加权和 bagging,单次树发现的交互(如同一条路径上的 SNP 组合)会严重不稳定;iRF 通过多次抽样和加权让真正交互(SNP3, SNP7)的共现频率稳定高于随机组合。 - 可计算性(C):随机森林的复杂度与原问题相同(加了一点点 bagging 开销),对万亿维 SNP 数据可行。


三、报告主体:讲者讲了什么

(时间戳以转写稿中的标注为准,括号内容为补充/校正。)

[0:00-0:03] 开场与背景 - 报告定位:一条从 2013 年“Stability”论文开始、到当前 HCM 项目收尾的 10 年工作线。 - 合作者:Ashley 实验室(Stanford)、CZ Biohub;主要贡献者 M. Behr(现 Regensburg 教授)、K. Kumbier(UCSF)、T. Tang(伯克利博士生)、Q. Wang(博后)、O. Ronen 和 A. Kenney(实验分析)。

[0:03-0:11] PCS 框架与稳定性原则 - PCS = Predictability + Computability + Stability。讲者强调这是一个概念性框架,用于对数据科学全生命周期进行批判性思考和质量控制。 - 稳定性解释为"合理扰动不显著改变结论",并指出它在古典统计理论中的无处不在(CLT 的交换性、集中不等式、随机矩阵理论)。 - 讲者将稳定性链接到因果推断的核心假设:SUTVA、无混杂下的条件交换性、敏感性分析。 - 因果推断分层:从 Hooke 定律式的机械因果(最强)到平均处理效应、亚组效应、个体化效应(最弱)。PCS 工作在"推荐系统"层面:给出带稳定性排名的候选基因/交互,通过敲低实验验证。

[0:11-0:24] 数据科学生命周期(DSLC)中的稳定性 - 关键洞见:结论的稳定性不仅来自统计不确定性(方差),还来自管道中每个步骤的人类判断——问题定义、数据清理(两个不同组的清理版本可导致结论反转)、EDA 可视化(颜色、图类型)、特征工程、算法选择、超参数调优。 - 例子:Reinhart & Rogoff (2010) 的"高债务/GDP 比导致低增长"结论被 Herndon, Ash & Pollin (2014) 推翻——原因正是数据选择与编码错误。这是 DSLC 中数据清理阶段的扰动导致结论不稳定的经典案例。 - HCM 案例中的数据扰动:MRI 图像分辨率(高 vs 低分辨率导致细胞大小估计偏差)就是一种数据扰动。 - 扰动路径:推荐在每个步骤做至少两条路径(两个等价合理的版本),然后在文档中记录合理性与稳定性度量。不是统计显著性检验,而是上下文相关的重要性判断(对病人是否会带来实质不同)。

[0:24-0:38] HCM 具体问题设计 - 初始尝试用 UK Biobank 中的 HCM 临床标签,但无信号(推测原因是假阴性太多:只有被正式诊断的患者才被记录,很多未诊断的 HCM 患者被标为正常)。 - 改为使用MRI 提取的左心室质量(LVM)连续变量(由 Ashley 实验室 Weston 做),但面临"无噪声基准"困境——不知道预测误差的上界(多少算好)。 - 创新:二值化——取 top 20% 和 bottom 20%,构成平衡二分类问题。这样 50% 准确率就是基线;实际 RF 只达到 55%,信号极弱但真实。(稳定性检查:也试了 15% 和 25% 阈值。) - 数据:UK Biobank,~30K white British 样本(有 MRI),p ≈ 15M imputed SNPs。 - 维度缩减:先用 BOLT-LMM 和线性回归各跑一个 GWAS,取 top 1000 SNPs 的并集。

[0:38-0:47] iRF 方法 - 动机:生物交互是高阶的(order-4)、阈值型的(只需达到一定丰度就触发表达),且往往是布尔型(变体存在/不存在)。传统多项式交互(线性 + 二次 + 低阶)不适合。 - 现有随机森林的交互发现:如果两个 SNP 在一条树路径上,可能指示交互——但极不稳定(单棵树噪声大)。 - iRF 的改进: 1. 软维度缩减:用 MDI 做重要性加权替代均匀抽样 — 增加重要特征的选中概率,降低无关特征。 2. 随机交互树(RIT):显式收集路径上的 SNP 共现次数(不仅是来自同一路径,还计算它们的位置关系)。 3. 外循环 bagging:对多个 bootstrap 副本运行 RIT,只保留在多次运行中稳定出现的交互。 - 验证:在果蝇增强子预测问题中,80% 的成对交互被后续文献验证(独立验证)。后续 LSSFind 理论工作(submitted PNAS)在 LSS 模型下证明了布尔交互发现的一致性。

[0:47-1:02] HCM 后续:实验验证与软件 - 基因排名:Top 3 基因:TTN (已知)、IGF1R (已知)、CCDC141 (新候选,邻近 TTN)。 - 敲低实验设计: - 用 iPS 诱导的心肌细胞,通过 siRNA 敲低目标基因。 - 用微流控细胞分选机(Chandra 设计)按大小分离细胞(大细胞是 HCM 表型的标志)。 - 图像分割流水线由 Qianru Wang 开发,与手动标注对比检验(stress-testing)。 - 发现的挑战:重复测量(同一细胞多次出现形成假性"大细胞")、细胞碎片、底部出口的检测遗漏。通过加入固体度/圆度度量等预处理步骤解决。 - 实验结果:敲低 CCDC141 + IGF1R 后,HCM 细胞系整体细胞大小显著下降(QQ-plot 显示不只是大细胞变小,小细胞也变小)。 - PCS 软件包: - Veridical Flow (Python):封装 PCS 稳定性分析——数据扰动 + 模型扰动 + 性能度量,与 Ray & MLflow 集成。 - simChef (R):用于模拟的系统化工具包(数据启发式扰动、模型误设定、自动化文档)。 - 最后:讲者强调"PCS 不是最终答案,而是一种尝试",呼吁社区主动改变研究实践。


四、对应论文与开放问题

对应论文(均为一般推断,无 arXiv 链接时)

主题 论文 备注
PCS 框架 Yu & Kumbier (2020) PNAS 正式框架论文
稳定性概念 Yu (2013) "Stability" 基础论文
iRF (方法) Basu, Kumbier, Brown & Yu (2018) PNAS 核心方法论文
iRF 理论 (LSSFind) Behr, Wang, Li & Yu (accepted PNAS) 理论版本
HCM iRF 管道 转写中提到的论文(未给出标题),可能是 Tang, Wang et al. 据信正在撰写中
veridical-flow Duncan, Singh, Agarwal, Kapoor & Yu JOSS 已接收
simChef Behr, Tang, Duncan, Elliott, Kumbier & Yu 开发中
PCS 教材 Yu & Barter, 与 MIT Press 有合同 将免费在线发布

开放问题(本文所列扎根于转写,标出原文依据):

  1. 稳定性分析的自动化与可视化:卫生领域研究者(如 Dr. Kornblith)已表示兴趣,但 PCS 对非专业人士来说文档负担仍很重。转写 [0:28-0:32] 提到 "PCS documentation...model should have nothing to do with reality"—实际执行中能否部分自动化?研究者可以用 veridical-flowRay 后端自动生成扰动路径,但对于因果推断中的结构假设扰动(如不同 DAG 假设)尚未支持。

  2. iRF 的理论基础:[0:35-0:37] 提到 "LSS model... we can find the Boolean interaction under conditions",但「特征独立」这一假设在基因组学中显然不成立(有连锁不平衡)。能否在不独立条件下证明 iRF 的一致性?滑动窗口/正则化回归方法能否提升?

  3. iRF 与高阶 U-统计量的理论连接:iRF 的稳定性评分(DWP:Depth-Weighted Prevalence)本质上是在估计变量共现的二阶(或更高阶)统计量。这与研究者的高阶 U-统计量 / 树宽 / 收缩技术的连接》

  4. 具体问题:能否用张量网络框架(einsum)精确计算 iRF 中 "两个 SNPS 在路径中共现" 的期望值——不是靠模拟,而是通过组合计数 + 张量收缩的复杂度分析?
  5. 推演:每条树路径对应一个叶数(depth-k),SNP 的共现等价于它们的布尔值同时为 1 在路径上;这可以理解为布尔函数的指示函数的乘积求和,与高阶 U-统计量的核结构完全一致。研究者熟悉的高阶 U-统计量的树宽复杂度(如通过 einsum 收缩计算的过程)可以直接迁移到 iRF 的稳定性评估中。

  6. iRF 的理论LSSFind 与真实效率的差距:理论版本 LSSFind 只用了 DWP 的简单阈值;而 iRF 在真实数据上使用了加权 bootstrapping。两者的实际差别有多大?能否找到一种不显著增加计算成本的加权策略来提高发现率?

  7. 跨领域应用检验:HCM 案例只用了 UK Biobank(主要是白人)。报告 [0:45] 提到"need to work with local data (Bay Area) more diverse"。稳定性分析中的"扰动"应该包括人群异质性(例如归纳到其他种族时结果是否稳定?)但这本质上是迁移学习问题,[0:45-6] 讲到 "transfer learning is a special case of stability"——但如何具体量化(度量、扰动定义、稳定性指标)在本次报告中未深入。

  8. 统计计算权衡的对接(对研究者最相关的开放问题)

  9. iRF 的稳定性评估在外循环中需要多次 bootstrap,每次训练一个随机森林。在 p=15M 规模下,这本身已接近计算极限。这表明存在一个计算-精度-发现率的权衡:我们能否通过"只计算一部分稳定交互"(类似 low-degree polynomial 的方法)来加速?或者,能否用半参数效率界来分析"发现布尔交互的最优计算复杂度"?
  10. 研究者熟悉低度多项式屏障;iRF 外循环中的 bagging 可以理解为一个多项式时间算法(多项式在 n, T, d 上),其稳定评估的精度随 bootstrap 次数增长。是否可以用低度多项式框架来刻画:在给定计算预算下(固定数量的树、有限的 bootstrap 重复),交互发现的信号强度阈值?这与研究者的统计-计算权衡工具箱是天然对接的。

  11. 稳定性和 PCS 文档的激励问题(讨论者 Jas Sekhon 提出):PCS 增加了研究者工作量,但当前学术激励机制奖励的是论文数量 → 不兼容。这个问题在本次报告中作为结尾讨论,未给出技术答案——但可以作为一个“给定激励系统下的方法论设计问题”:能否设计一种最小 PCS 模板,让研究者用极少时间完成,而不降低实用性?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论