Introducing the specificity score: a measure of causality beyond P value¶

讲者: Wang Miao
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-06-04
主题: 因果推断
视频: https://youtu.be/gyxzf09JYzU

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

整体追问：在多处理（\(K\) 个）、多结局（\(P\) 个）的观察性研究中，存在一个（或多个）未观测的混杂 \(U\)，导致回归系数 \(\gamma\)（Y 对 X 的回归）是真实因果效应 \(\beta\) 与混杂偏误 \(\delta\alpha\) 的混合。经典的识别策略需要外部辅助变量（工具变量、负对照）或额外结构假设（如低维因子模型）。但这些方法通常要求研究者提前知道哪些变量是有效的 IV / 负对照，或者假设所有的处理→结局效应均通过少数潜在因子传递。

本报告位置：它提出了一个介于“完全不知道任何负对照”与“知道确切负对照”之间的框架——即因果特异性假设（causal specificity）：每个处理只直接影响到少数结局（最多 \(K^*\) 个），每个结局只被少数处理直接影响（最多 \(P^*\) 个）。不需要知道具体的零效应位于哪些变量，只需知道稀疏程度的上界。在此基础上定义了一个“特异性分数”（specificity score），用于衡量某个观测关联是否可以被混杂“解释掉”，并构建了该分数在零假设下的有限样本/渐近上界，从而得到一种对未观测混杂稳健的检验。

奠基与主流路线： - Bradford Hill 特异性标准（1965）：经典但争议大，因吸烟导致多种疾病而被质疑。报告重新从效应大小角度为其辩护。 - 负对照 / 近端因果推断（Miao, Tchetgen Tchetgen, 等, 2018–2023）：需要知道一个负对照暴露（NCE）和一个负对照结局（NCO），且它们的独立性结构已知。本报告试图放松“已知具体哪些是负对照”的要求。 - 低秩 + 稀疏模型（如 Factor-adjusted regression, Zhang et al. 2018; Bing et al. 2020）：假设混杂具有低维结构且因果效应稀疏，通过正则化同时估计二者。本报告提出的方法不是低秩+稀疏的联合估计，而是基于排序比较的检验，不依赖因子数假设（但仍需要知道混杂维数 \(d\)）。 - 多重检验中的 FDR 控制：本报告的特异性分数可看作一种后验信心度量，直接以是否超过某个临界值来判断关联是否具有因果可信度。

当前前沿与报告切入点：现有方法要么需要外部变量（IV/Negative Control）的结构，要么需要因子模型的正则化条件。本报告试图仅依赖稀疏性本身（即大规模因果效应的稀少性）进行推断，且容易可视化、不需要模型选择。这是对 Hill 特异性标准的“严格形式化”尝试，且与负对照方法有内在联系。

二、最小内核 / 一个最简例子¶

符号与模型（线性情形）：

可观测数据：\((X_{i}, Y_{i})\)，\(i = 1,\dots,n\)。
\(X = (X_1, X_2, \dots, X_K)^\top\)：\(K\) 个处理变量。
\(Y = (Y_1, Y_2, \dots, Y_P)^\top\)：\(P\) 个结局变量。
不可观测：一个标量混杂 \(U\)（技术上可多维，为简单取 \(d=1\)）。
数据生成机制（线性模型）：
\[Y = \beta^\top X + \alpha U + \varepsilon_Y, \quad X = \delta U + \varepsilon_X,\]
其中 \(\beta\) 是 \(K \times P\) 的因果效应矩阵，\(\alpha\) 和 \(\delta\) 是混杂效应向量/矩阵；\(\varepsilon_X, \varepsilon_Y\) 均值为0且与 \(U\) 独立。
可识别的回归系数（Y 对 X 的最小二乘）：
\[\Gamma = \mathrm{Cov}(X)^{-1}\mathrm{Cov}(X,Y) = \beta + \Delta, \quad \Delta = \delta \alpha^\top，\]
其中 \(\Gamma\) 的 \((i,j)\) 元素记作 \(\gamma_{ij}\)。\(\Delta\) 是秩为1的混杂偏误矩阵（若混纯为一维）。

研究问题：检验 \(H_0: \beta_{11}=0\)，即第一个处理是否对第一个结局有因果作用。

最简特例：\(K=3, P=3\)，因果效应矩阵 \(\beta\) 满足：

\[\beta = \begin{pmatrix} ? & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix},\]

即只有 \(X_1 \rightarrow Y_1\) 可能非零。其它处理（\(X_2, X_3\)）与其它结局（\(Y_2, Y_3\)）之间的所有因果效应均为0。那么，对于任意 \(k>1, p>1\)，\((X_k, Y_p)\) 都是有效的负对照对，因为 \(\beta_{kp}=0\)。然而研究者事先并不知道。

核心思想（以该特例说明）： 1. 计算所有 \(k>1, p>1\) 的比率：

\[\lambda_{kp} = \frac{\gamma_{kp}}{\gamma_{k1}} \quad (\text{假设 }\gamma_{k1} \neq 0).\]

可以验证，由于 \(\beta_{kp}=0\)，\(\lambda_{kp} = \delta_1 \alpha_1\)（正是 \(X_1\) 对 \(Y_1\) 的混杂偏误部分）。 2. 因此，如果 \(H_0: \beta_{11}=0\) 为真，那么 \(\gamma_{11} = \delta_1 \alpha_1\)，所有 \(\lambda_{kp}\) 都应等于 \(\gamma_{11}\)。如果 \(\beta_{11} \neq 0\)，则大部分 \(\lambda_{kp}\) 会偏离 \(\gamma_{11}\)。 3. 定义特异性分数：

\[S = \max\Big( \frac{\#\{\lambda_{kp} > \gamma_{11}\}}{(K-1)(P-1)}, \frac{\#\{\lambda_{kp} < \gamma_{11}\}}{(K-1)(P-1)} \Big).\]

在 \(H_0\) 下，由于所有 \(\lambda_{kp}\) 理论上等于 \(\gamma_{11}\)，但有限样本中会因噪声产生排序。报告证明在 \(H_0\) 下，\(S \leq \tau\)，其中 \(\tau = 1 - \frac{K^*}{K-1} - \frac{P^*}{P-1}\)（或类似形式，具体公式见报告）。在特例中若 \(K^*=1, P^*=1\)（即每个处理最多影响1个结局），\(\tau = 1 - \frac{1}{2} - \frac{1}{2} = 0\)，但在实际中需调整；若 \(K^*\)、\(P^*\) 大，\(\tau\) 更大。例如报告中取 \(\tau=0.71\)（对应 \(K=5, P=8\)，\(K^*, P^*\) 的具体值未明确给出）。

结论：若观察到的 \(S \geq \tau\)，则拒绝 \(H_0\)，称 \(X_1 \rightarrow Y_1\) 具有因果可信度。

三、报告主体：讲者讲了什么¶

[0:00–0:07] 开场与引言。简要介绍研究兴趣：因果推断、缺失数据、数据融合及其应用。强调观察性研究中混杂、非随机缺失等挑战。

[0:08–0:14] P 值危机。引用 Political Analysis 期刊（2018）对 P 值的禁令，以及 Nature 上的“科学家反对统计显著性”文章（~800签署人）。指出 P 值只衡量随机误差，不能处理系统偏误（混杂）。混杂是观测研究中最重要的偏误来源。

[0:14–0:19] 问题公式化：多处理多结局（\(K\) 个处理，\(P\) 个结局），存在未观测混杂 \(U\)。线性模型作为讨论基础。目标：检验某个特定处理对结局的效应（如 \(X_1 \rightarrow Y_1\)）。回归系数 \(\gamma\) 是 \(\beta\) 与混杂偏误（秩1或低秩）的混合，不可识别。

[0:19–0:24] 现有混杂调整方法：工具变量（IV，2021年诺贝尔经济学奖）；负对照方法（Miao 等近些年的工作，应用于COVID-19疫苗效果评估、空气污染等）；因子模型方法（在遗传学中常用，需要知道辅助变量或独立结构）。指出这些方法需要较多先验知识。引出“关联的宽广度（broadness）”这一信息：在医学/遗传学中，一个处理通常只影响少数结局，一个结局只被少数处理影响。——这是因果特异性假设的动机。

[0:24–0:30] 因果特异性假设（Causal Specificity Assumption）： - \(Y_1\) 被最多 \(K^*\) 个处理直接影响（包括 \(X_1\) 自身）。 - \(X_1\) 最多直接影响 \(P^*\) 个结局。 - 这里 \(K^*, P^*\) 是研究者指定的上界。报告指出该假设是 Hill “特异性”标准的一种形式化，但 Hill 的标准说的是观测关联的稀疏性，而这里是因果关系的稀疏性，需依赖领域知识。

[0:30–0:38] 直觉与关键定理。如果知道某个 \((X_k, Y_p)\) 是无效负对照（即 \(\beta_{kp}=0, \beta_{1p}=0, \beta_{k1}=0\)），则可利用其估计混杂偏误。但不知道具体哪些是负对照。然而，由特异性假设可知，至少有 \(K-1-K^*+...\) 个有效负对照（具体计数）。对所有 \(k \neq 1, p \neq 1\) 计算 \(\lambda_{kp} = \gamma_{kp}/\gamma_{k1}\)（若 \(\gamma_{k1}\neq0\)）。在 \(H_0\) 下，这些 \(\lambda_{kp}\) 中至少有一部分应等于 \(\gamma_{11}\)。这为检验提供了依据。

[0:38–0:44] 特异性分数定义与上界。排序所有 \(\lambda_{kp}\)，定义 \(q_1\) 为 \(\lambda_{kp} > \gamma_{11}\) 的比例，\(q_2\) 为 \(\lambda_{kp} < \gamma_{11}\) 的比例，特异性分数 \(S = \max(q_1, q_2)\)。定理：若 \(H_0\) 成立且特异性假设成立（即每处理最多影响 \(P^*\) 个结局，每结局最多受 \(K^*\) 个处理影响），则

\[S \leq 1 - \frac{K^*}{K-1} - \frac{P^*}{P-1} \quad \text{(公式可能有误，待核对)}.\]

此界为构建检验提供临界值 \(\tau\)。当 \(K^*, P^*\) 比 \(K,P\) 小得多时，\(\tau\) 接近 0，检验容易拒绝 \(H_0\)。

[0:44–0:50] 检验流程与渐近性质： - 从数据估计 \(\hat{\gamma}, \hat{\lambda}\)，计算 \(\hat{S}\)。包含一个调整项以处理抽样误差（因为 \(\gamma\) 估计的方差为 \(O(1/\sqrt{n})\)）。 - 若 \(\hat{S} \geq \tau + o_p(1)\)，则拒绝 \(H_0\)。 - 渐近保证：一致性、Type I error 控制；当真正的因果效应 \(\beta_{11}\) 足够大时，检验功效趋于 1（符合生物学直觉：大效应更易发现）。

[0:50–1:00] 数值模拟。\(K=5, P=8, n=500\)，服从线性正态模型，允许 \(X\) 和 \(Y\) 内部有依赖（即混杂在 \(X\) 组内和 \(Y\) 组内）。设置强混杂（某些处理有大的混杂负载）。展示对比： - 普通回归系数 \(\gamma\) 导致大量假阳性（强混杂使很多关联显著）。 - P 值检验也假阳性高。 - 特异性分数（设定 \(\tau = 0.71\)）能较好分离真阳性和假阳性；若提高临界值至 0.96，则只保留高信心效应。 - 另一场景（Example 2）：当真效应与混杂方向相反时（效应与偏导抵消），P 值可能完全忽略强效应，而特异性分数仍能检测。说明 P 值在筛选上也不可靠。

[1:00–1:07] 弱化版本（敏感性分析）。考虑允许小效应遍布整个矩阵，但大效应（超过阈值 \(e\)）仍满足稀疏性。定义“有意义效应”的阈值 \(e\)，构造类似的检验。随着 \(e\) 从0增加，临界值不变，但可能逐渐丢失对边缘效应的检测。模拟显示：随着 \(e\) 增大，Type I error 下降，但某些中等效应也会被漏掉。这种方法提供了一种因果信心累积的途径。

[1:07–1:12] 非参数扩展（简要提及，未详述）。利用负对照桥函数（Bridge function）的概念，在非参数模型中可得到类似结果。允许未知函数形式，但需要更强的特异性假设才能实现效应识别（而不仅仅是检验）。报告提到若已知混杂维度，可自动选择更多负对照。

[1:12–1:18] 实际数据应用：小鼠肥胖研究。248 只小鼠，9 个 SNPs（用作 IV）、17 个基因表达（处理）和 17 个生理指标（结局，包括性别、体重相关等）。先 OLS 得到密集关联（怀疑混杂），IV 法检测到较少效应，特异性检验发现的效应介于两者之间。结果与已知生物学一致（如性别对肥胖指数的影响、Socs2 对瘦素的负效应、Ap4 对胆固醇的正效应）。指出检测到的关联中存在一定的因果机制支持，但仍需实验验证。

[1:18–1:24] 总结与讨论。强调三项贡献：① 因果特异性假设的形式化；② 特异性分数作为因果可信度的度量；③ 检验与识别方法。与 IV 和负对照的关系：IV 是一种极端情况（要求排除限制），负对照则要求已知独立性结构；特异性方法只要求稀疏性上界。比较 P 值与特异性分数：P 值随样本量增大趋于显著，但混杂导致的偏误不会消失；特异性分数随样本量增大估计更精确。局限性：最适合多处理多结局场景，对单处理单结局不直接适用；方法保守，可能缺乏功效；需要提前知道混杂维数；扩展方面：可处理选择偏倚、测量误差、高维设置等。

[1:24–1:30] 讨论环节（赵清源）： - 赵清源指出特异性标准的历史争论，并提出了三个“潜伏问题”： 1. 假设单一混杂均匀影响所有处理-结局对是否合理？可否推广至多维混杂？（王回答：可以推广，但需知道维数；当前尚未解决自适应维数选择。） 2. 与低秩+稀疏模型（如 Go et al. 2023）的比较？（王回答：设置不同，Go et al. 假设所有效应通过低维中介传递，无直接效应；特异性模型允许直接效应和混杂并存。） 3. 能否区分潜在中介与潜在混杂？（王回答：即使完全观测也不能区分，存在马尔可夫等价问题。） 4. 效应尺度（风险差 vs 风险比）对特异性判断的影响（王回答：弱化版本中考虑了效应大小，并在灵敏度分析中纳入阈值 \(e\)，基本上不同尺度可转换。）

四、对应论文与开放问题¶

(a) 对应论文 报告明确指出这是其“recent work”，并提到一篇论文标题似乎为“Introducing the specificity score: a measure of causality beyond P value”。但转录中未给出 arXiv 或期刊信息。讲者来自北京大学，合作者可能包括 Eric Tchetgen Tchetgen（在汇报中提及系其合作者，获2022年Rousseeuw奖）。从内容推断，相关工作可能发表在 JASA 或 JRSS-B 等期刊。具体引用待查。另见其负控制近端推断系列：Miao et al. (2018, Biometrika; 2023, JRSS-B)。
注意：以上均为基于转录的推断，不保证准确性，请核对讲者主页或搜索“Wang Miao specificity score”。

(b) 开放问题（每条源自转写中的明确陈述或讨论）

混杂维数的自适应确定
[0:24] 讲者提到需要知道混杂维数，并称“remains to be studied in the future”。如何在不预先指定 \(d\) 的情况下利用特异性分数自适应估计维数？可否通过比较不同 \(d\) 下的特异性分数分布来实现？
功效提升与有限样本行为
[0:32] 讲者承认该方法“robust and sometimes conservative, may lack power in practice”。能否构造更高效的特异性分数（例如基于核方法而非简单比例），或引入交叉拟合/去偏技术提高功率而不失 Type I error 控制？
非参数框架下的因果效应估计
[1:07] 讲者提到在非参数模型中若满足更强特异性假设可实现因果效应识别，但未给出具体估计方法或收敛率。这是否可转化为一个半参数效率分析问题？能否利用高阶影响函数（HOIF）得到 rate-optimal 估计？
高维情形下的扩展
[1:18] 讲者指出可向高维设置推广。当 \(K,P\) 远大于 \(n\) 时，如何估计 \(\gamma\) 并进行特异性检验？是否需要正则化或特征值条件？这与用户的高维统计与统计计算复杂性兴趣直接相关：是否可以通过稀疏性上界的先验大幅度降低计算复杂度（例如仅需 \(O(\max(K,P)\log(\dots))\) 次回归）？
与低秩+稀疏框架的比较
[讨论 Q2] 赵清源提出与低秩加稀疏模型的比较。讲者认为二者假设不同。但能否将特异性分数转化为一种正则化的目标函数，并在一定假设下等价于某个低秩+稀疏问题的解？这需要理论刻画。
效应尺度与特异性分数的尺度不变性
[讨论 Q3] 风险差 vs 风险比会影响“稀疏性”的判断。当效应量使用不同度量（例如比值比、风险比）时，特异性分数如何变换？是否总可以通过单调变换保持排序性质？对于二分变量，是否存在自然定义？
多混杂与因子结构的可检验性
[讨论 Q1] 如果混杂是多维的，且 \(X\) 与 \(Y\) 内部的依赖由其他潜在因子产生，那么特异性分数是否还能保持有效？报告假设混杂可以分离，但实际可能混淆。如何将特异性检验与因子数量检验（如 Lawley 检验）结合？
多重比较与 FDR
报告仅对单个假设进行检验。若对全部 \(K \times P\) 对均计算特异性分数，如何进行多重比较控制？能否利用特异性分数的排序性质构造一个 BH-type 的程序，使得 FDR 在稀疏性假设下可控？
与计算复杂性的交叉
用户的兴趣包括统计-计算权衡。本研究中的检验涉及对 \((K-1)(P-1)\) 个 \(\lambda_{kp}\) 的计算和排序，计算成本是 \(O(KP)\)。若 \(K,P\) 巨大（如 GWAS 中的千万级），如何设计次线性复杂度算法？是否存在信息-计算缺口（例如某些分布下计算特异性分数需要多项式时间但统计上可更快查出）？

Maintained by 陈星宇 · Homepage · Source on GitHub

Introducing the specificity score: a measure of causality beyond P value¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论