Predictability, stability, and causality with a case study to find genetic drivers of a heart disease¶

讲者: Bin Yu
讨论人: Jas Sekhon
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-05-31
主题: 因果推断
视频: https://youtu.be/4e2EFrOUGfE · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的核心是一条始于 2013 年、延续至今的「寻找可靠（veridical）数据科学」的工作线，由 Bin Yu（UC Berkeley, Statistics & EECS）领导。这条线试图回答一个根本问题：

当我们用数据做科学发现——尤其是因果发现——时，结论对"全链条上的人为决策"（问题定义、数据清理、模型选择、超参数……）有多敏感？我们能否系统化地评估并记录这种敏感性，从而提升结论的可信度与可复现性？

这条线的主要构成：

奠基： Yu (2013) 提出 稳定性（stability）作为统计结果可复现的最低要求——结论应对数据与模型的"合理扰动"不敏感。这个原则在古典统计学中已有隐式体现（CLT 的交换性、随机矩阵的列交换等），Yu 把它显式地推广到整个数据科学生命周期（DSLC）。
框架化： Yu & Kumbier (PNAS, 2020) 明确提出 PCS 框架——Predictability（预测性，作为与现实对接的"现实检查"）、Computability（可计算性，含数据启发式模拟）、Stability（稳定性，作为最小要求）。该框架强调文档化（documentation）所有人类判断与扰动方案。
方法论产出： 为发现高阶布尔型交互作用（这在基因组学中常见：多个转录因子达到足够结合水平才能启动转录），Yu 组提出 iterative Random Forests (iRF)（Basu, Kumbier, Brown & Yu, 2018）。核心想法：在随机森林中加入稳定性——软维度缩减（up-weight 重要特征）、随机交互树（RIT）收集路径共现、外循环 bagging 评估稳定性。后续理论工作（Behr, Wang, Li, accepted PNAS）在 LSS 模型（线性组合布尔函数）下证明了 iRF 的理论版本 LSSFind 的一致性。
因果推断上的定位： 报告明确将自己定位为"实验推荐系统"，而非传统观察性研究的因果推断（后者依赖无混杂、工具变量等假设）。PCS 用预测 + 稳定性生成带稳定性排名的基因/基因-基因交互建议，然后通过敲低实验（knock-down experiments）验证因果效果。讨论者 Jas Sekhon 指出，这回应了经济学中的"whimsical fragility"问题（Leamer, 1983）——整个数据科学管道中的无数决策，比简单的识别假设更值得关注。
应用： 搜寻肥厚型心肌病（HCM）的遗传驱动因子（与 Stanford Ashley 实验室合作）。

对研究者的连接点： - 高阶交互发现(iRF) → 高阶 U-统计量 / 张量网： iRF 寻找的是高阶布尔交互（如 order-4 交互），其稳定性的评估在概念上接近计算高阶 U-统计量的稳定性。研究人员熟悉树宽/张量收缩的复杂度表征，这可能为 iRF 的稳定性评分提供更系统的计算框架。 - PCS 框架下的"稳定性"→ 半参数效率理论 + DML： 在因果推断中，Neyman 正交性（稳定性的一种变体）是 DML 的理论核心。Yu 的稳定性更宽泛（管道所有步骤），但这种连接意味着：研究者的 DML / HOIF 工具箱可直接用于在 PCS 中量化"管道扰动"下的推断稳定性。

二、最小内核 / 一个最简例子¶

符号与模型（抽象版）： - 可观测数据：\( \{X_i, Y_i\}_{i=1}^n \)，其中 \( X_i \) 是特征（如 SNP），\( Y_i \) 是响应（如左心室质量 LVM）。 - 潜在困难：真实响应是连续变量，有大量噪声；信号极弱 (55% 分类准确率)；特征维度极高 (p ≈ 15M)。 - 目标：发现一组稳定的、具有预测性的布尔交互作用（如 "Gene A 与 Gene B 同时高表达" 是 HCM 的风险信号），并用实验验证其因果角色。

最简特例（d=1, 独立特征, 二值响应）：

假设我们有一个超级简化的版本： - 特征只有 10 个二值 SNP（每个 SNP：0=不携带突变，1=携带）。 - 真实机制：只有同时出现 SNP3=1 且 SNP7=1 时，疾病风险高（order-2 布尔交互）。 - 响应已二值化（top 20% vs bottom 20% LVM）。

iRF 的核心思想在这一特例中变成：

训练随机森林：森林试图用"路径"（如"SNP3 > 0.5 → SNP7 > 0.5"）来分割响应。
收集路径共现：对每个树，检查每一对 SNP 是否出现在同一条从根到叶的路径上。如果是，就计数一次。
加权 + 稳定性：不是均匀抽特征，而是用 MDI（Mean Decrease in Impurity）给重要 SNP 更高权重；反复 bootstrap，只保留在多次运行中都频繁共现的 SNP 对。
输出：最终输出一个稳定性得分排名高的 SNP 交互（如 (SNP3, SNP7)），然后送去实验验证。

为什么这个特例能抓住核心思想： - 预测性（P）：随机森林在此数据上有 55% 准确率，证明有微弱信号（否则直觉=纯猜测）。 - 稳定性（S）：如果不做加权和 bagging，单次树发现的交互（如同一条路径上的 SNP 组合）会严重不稳定；iRF 通过多次抽样和加权让真正交互（SNP3, SNP7）的共现频率稳定高于随机组合。 - 可计算性（C）：随机森林的复杂度与原问题相同（加了一点点 bagging 开销），对万亿维 SNP 数据可行。

三、报告主体：讲者讲了什么¶

（时间戳以转写稿中的标注为准，括号内容为补充/校正。）

[0:00-0:03] 开场与背景 - 报告定位：一条从 2013 年“Stability”论文开始、到当前 HCM 项目收尾的 10 年工作线。 - 合作者：Ashley 实验室（Stanford）、CZ Biohub；主要贡献者 M. Behr（现 Regensburg 教授）、K. Kumbier（UCSF）、T. Tang（伯克利博士生）、Q. Wang（博后）、O. Ronen 和 A. Kenney（实验分析）。

[0:03-0:11] PCS 框架与稳定性原则 - PCS = Predictability + Computability + Stability。讲者强调这是一个概念性框架，用于对数据科学全生命周期进行批判性思考和质量控制。 - 稳定性解释为"合理扰动不显著改变结论"，并指出它在古典统计理论中的无处不在（CLT 的交换性、集中不等式、随机矩阵理论）。 - 讲者将稳定性链接到因果推断的核心假设：SUTVA、无混杂下的条件交换性、敏感性分析。 - 因果推断分层：从 Hooke 定律式的机械因果（最强）到平均处理效应、亚组效应、个体化效应（最弱）。PCS 工作在"推荐系统"层面：给出带稳定性排名的候选基因/交互，通过敲低实验验证。

[0:11-0:24] 数据科学生命周期（DSLC）中的稳定性 - 关键洞见：结论的稳定性不仅来自统计不确定性（方差），还来自管道中每个步骤的人类判断——问题定义、数据清理（两个不同组的清理版本可导致结论反转）、EDA 可视化（颜色、图类型）、特征工程、算法选择、超参数调优。 - 例子：Reinhart & Rogoff (2010) 的"高债务/GDP 比导致低增长"结论被 Herndon, Ash & Pollin (2014) 推翻——原因正是数据选择与编码错误。这是 DSLC 中数据清理阶段的扰动导致结论不稳定的经典案例。 - HCM 案例中的数据扰动：MRI 图像分辨率（高 vs 低分辨率导致细胞大小估计偏差）就是一种数据扰动。 - 扰动路径：推荐在每个步骤做至少两条路径（两个等价合理的版本），然后在文档中记录合理性与稳定性度量。不是统计显著性检验，而是上下文相关的重要性判断（对病人是否会带来实质不同）。

[0:24-0:38] HCM 具体问题设计 - 初始尝试用 UK Biobank 中的 HCM 临床标签，但无信号（推测原因是假阴性太多：只有被正式诊断的患者才被记录，很多未诊断的 HCM 患者被标为正常）。 - 改为使用MRI 提取的左心室质量（LVM）连续变量（由 Ashley 实验室 Weston 做），但面临"无噪声基准"困境——不知道预测误差的上界（多少算好）。 - 创新：二值化——取 top 20% 和 bottom 20%，构成平衡二分类问题。这样 50% 准确率就是基线；实际 RF 只达到 55%，信号极弱但真实。（稳定性检查：也试了 15% 和 25% 阈值。） - 数据：UK Biobank，~30K white British 样本（有 MRI），p ≈ 15M imputed SNPs。 - 维度缩减：先用 BOLT-LMM 和线性回归各跑一个 GWAS，取 top 1000 SNPs 的并集。

[0:38-0:47] iRF 方法 - 动机：生物交互是高阶的（order-4）、阈值型的（只需达到一定丰度就触发表达），且往往是布尔型（变体存在/不存在）。传统多项式交互（线性 + 二次 + 低阶）不适合。 - 现有随机森林的交互发现：如果两个 SNP 在一条树路径上，可能指示交互——但极不稳定（单棵树噪声大）。 - iRF 的改进： 1. 软维度缩减：用 MDI 做重要性加权替代均匀抽样 — 增加重要特征的选中概率，降低无关特征。 2. 随机交互树（RIT）：显式收集路径上的 SNP 共现次数（不仅是来自同一路径，还计算它们的位置关系）。 3. 外循环 bagging：对多个 bootstrap 副本运行 RIT，只保留在多次运行中稳定出现的交互。 - 验证：在果蝇增强子预测问题中，80% 的成对交互被后续文献验证（独立验证）。后续 LSSFind 理论工作（submitted PNAS）在 LSS 模型下证明了布尔交互发现的一致性。

[0:47-1:02] HCM 后续：实验验证与软件 - 基因排名：Top 3 基因：TTN （已知）、IGF1R （已知）、CCDC141 （新候选，邻近 TTN）。 - 敲低实验设计： - 用 iPS 诱导的心肌细胞，通过 siRNA 敲低目标基因。 - 用微流控细胞分选机（Chandra 设计）按大小分离细胞（大细胞是 HCM 表型的标志）。 - 图像分割流水线由 Qianru Wang 开发，与手动标注对比检验（stress-testing）。 - 发现的挑战：重复测量（同一细胞多次出现形成假性"大细胞"）、细胞碎片、底部出口的检测遗漏。通过加入固体度/圆度度量等预处理步骤解决。 - 实验结果：敲低 CCDC141 + IGF1R 后，HCM 细胞系整体细胞大小显著下降（QQ-plot 显示不只是大细胞变小，小细胞也变小）。 - PCS 软件包： - Veridical Flow (Python)：封装 PCS 稳定性分析——数据扰动 + 模型扰动 + 性能度量，与 Ray & MLflow 集成。 - simChef (R)：用于模拟的系统化工具包（数据启发式扰动、模型误设定、自动化文档）。 - 最后：讲者强调"PCS 不是最终答案，而是一种尝试"，呼吁社区主动改变研究实践。

四、对应论文与开放问题¶

对应论文（均为一般推断，无 arXiv 链接时）：

主题	论文	备注
PCS 框架	Yu & Kumbier (2020) PNAS	正式框架论文
稳定性概念	Yu (2013) "Stability"	基础论文
iRF (方法)	Basu, Kumbier, Brown & Yu (2018) PNAS	核心方法论文
iRF 理论 (LSSFind)	Behr, Wang, Li & Yu (accepted PNAS)	理论版本
HCM iRF 管道	转写中提到的论文（未给出标题），可能是 Tang, Wang et al.	据信正在撰写中
veridical-flow	Duncan, Singh, Agarwal, Kapoor & Yu	JOSS 已接收
simChef	Behr, Tang, Duncan, Elliott, Kumbier & Yu	开发中
PCS 教材	Yu & Barter, 与 MIT Press 有合同	将免费在线发布

开放问题（本文所列扎根于转写，标出原文依据）：

稳定性分析的自动化与可视化：卫生领域研究者（如 Dr. Kornblith）已表示兴趣，但 PCS 对非专业人士来说文档负担仍很重。转写 [0:28-0:32] 提到 "PCS documentation...model should have nothing to do with reality"—实际执行中能否部分自动化？研究者可以用 veridical-flow 的 Ray 后端自动生成扰动路径，但对于因果推断中的结构假设扰动（如不同 DAG 假设）尚未支持。
iRF 的理论基础：[0:35-0:37] 提到 "LSS model... we can find the Boolean interaction under conditions"，但「特征独立」这一假设在基因组学中显然不成立（有连锁不平衡）。能否在不独立条件下证明 iRF 的一致性？滑动窗口/正则化回归方法能否提升？
iRF 与高阶 U-统计量的理论连接：iRF 的稳定性评分（DWP：Depth-Weighted Prevalence）本质上是在估计变量共现的二阶（或更高阶）统计量。这与研究者的高阶 U-统计量 / 树宽 / 收缩技术的连接》
具体问题：能否用张量网络框架（einsum）精确计算 iRF 中 "两个 SNPS 在路径中共现" 的期望值——不是靠模拟，而是通过组合计数 + 张量收缩的复杂度分析？
推演：每条树路径对应一个叶数（depth-k），SNP 的共现等价于它们的布尔值同时为 1 在路径上；这可以理解为布尔函数的指示函数的乘积求和，与高阶 U-统计量的核结构完全一致。研究者熟悉的高阶 U-统计量的树宽复杂度（如通过 einsum 收缩计算的过程）可以直接迁移到 iRF 的稳定性评估中。
iRF 的理论LSSFind 与真实效率的差距：理论版本 LSSFind 只用了 DWP 的简单阈值；而 iRF 在真实数据上使用了加权 bootstrapping。两者的实际差别有多大？能否找到一种不显著增加计算成本的加权策略来提高发现率？
跨领域应用检验：HCM 案例只用了 UK Biobank（主要是白人）。报告 [0:45] 提到"need to work with local data (Bay Area) more diverse"。稳定性分析中的"扰动"应该包括人群异质性（例如归纳到其他种族时结果是否稳定？）但这本质上是迁移学习问题，[0:45-6] 讲到 "transfer learning is a special case of stability"——但如何具体量化（度量、扰动定义、稳定性指标）在本次报告中未深入。
统计计算权衡的对接（对研究者最相关的开放问题）：
iRF 的稳定性评估在外循环中需要多次 bootstrap，每次训练一个随机森林。在 p=15M 规模下，这本身已接近计算极限。这表明存在一个计算-精度-发现率的权衡：我们能否通过"只计算一部分稳定交互"（类似 low-degree polynomial 的方法）来加速？或者，能否用半参数效率界来分析"发现布尔交互的最优计算复杂度"？
研究者熟悉低度多项式屏障；iRF 外循环中的 bagging 可以理解为一个多项式时间算法（多项式在 n, T, d 上），其稳定评估的精度随 bootstrap 次数增长。是否可以用低度多项式框架来刻画：在给定计算预算下（固定数量的树、有限的 bootstrap 重复），交互发现的信号强度阈值？这与研究者的统计-计算权衡工具箱是天然对接的。
稳定性和 PCS 文档的激励问题（讨论者 Jas Sekhon 提出）：PCS 增加了研究者工作量，但当前学术激励机制奖励的是论文数量 → 不兼容。这个问题在本次报告中作为结尾讨论，未给出技术答案——但可以作为一个“给定激励系统下的方法论设计问题”：能否设计一种最小 PCS 模板，让研究者用极少时间完成，而不降低实用性？

Maintained by 陈星宇 · Homepage · Source on GitHub

Predictability, stability, and causality with a case study to find genetic drivers of a heart disease¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论