跳转至

A general, flexible, and harmonious framework to construct interpretable functions in regression analysis

作者: Tianyu Zhan, Jian Kang
来源: Biometrics
主题: 其他
相关性: 4/10
机构绿灯: University of Michigan(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf014


一、领域脉络与小综述

这个方向是什么

这个子方向关注的是在回归分析中构建“可解释”函数的根本问题。核心矛盾在于:一个模型(或函数)的预测精度(accuracy)、泛化能力(generalizability)与可解释性(interpretability)三者之间往往存在权衡。本文试图提供一个通用框架,让用户能够根据自身对“可解释性”的主观期望,在连续结局的回归分析中,自动构造出一个在精度、泛化与可解释性之间达到平衡的函数。该方向目前处于应用导向的方法论发展阶段,缺乏统一的数学定义和模型选择准则,现有工作多为特定场景下的特设方法。

发展脉络(history)

根据论文引言及其参考文献,该方向的发展脉络可梳理如下:

  1. 奠基工作:可解释性的概念化与早期权衡讨论

    • Lipton (2018):系统性地讨论了可解释性的多种定义(如可模拟性、可分解性、算法透明度),并指出可解释性是一个“主观”概念,不同用户可能有不同期望。本文直接引用了这一观点,作为其“用户期望”框架的出发点。
    • Rudin (2019):强烈主张在高风险决策中应使用“本身可解释”的模型(如稀疏线性模型、决策树),而非事后解释黑箱模型。本文引用了这一观点,但并未完全采纳其“拒绝黑箱”的强硬立场,而是试图在精度与可解释性之间寻找一个可量化的平衡点。
  2. 主要进展:可解释性度量的尝试与模型选择准则

    • Molnar (2022):撰写了关于可解释机器学习的综合性教科书,总结了多种可解释性方法(如SHAP、LIME、PDP)。本文将其作为背景知识引用,但指出这些方法多为事后解释,而非在模型构建阶段就内嵌可解释性。
    • Mallows (1973):提出了经典的Mallows’s \(C_p\) 统计量,用于在最小二乘回归中选择变量子集,以平衡模型拟合优度与复杂度(参数个数)。本文的核心创新之一,就是将Mallows’s \(C_p\) 的思想推广到“可解释性”维度,而不仅仅是模型复杂度。
  3. 当前Frontier与本文位置

    • 当前前沿在于:如何将“可解释性”这个主观概念形式化为一个可优化的目标,并融入模型选择或函数构造的流程中。本文的位置是:提出一个通用框架,将用户对可解释性的期望(通过“函数骨架”定义)与一个基于Mallows’s \(C_p\) 的模型选择准则相结合,从而在近似精度、泛化能力和可解释性之间进行自动权衡。它不是一个全新的统计理论,而是一个应用导向的方法论框架,旨在为特定领域(如临床试验设计)提供实用工具。

子线索聚类

这些被引文献大致落在以下两条子线索上:

  • 线索一:可解释性的定义与哲学讨论。这条线索关注“什么是可解释性”、“为什么需要可解释性”等基础问题。代表工作包括 Lipton (2018) 和 Rudin (2019)。它们为本文提供了概念基础,但并未提供具体的数学工具。
  • 线索二:模型选择与复杂度控制。这条线索关注如何在模型拟合优度与模型复杂度(如参数数量、函数光滑度)之间进行权衡。代表工作包括 Mallows (1973) 的 \(C_p\) 统计量,以及更广泛的 AIC、BIC 等信息准则。本文的核心技术贡献,就是将这条线索中的思想,从“参数数量”扩展到“可解释性”

这个方向在追问的核心问题

  1. 如何形式化定义“可解释性”? 这是一个根本性的、开放的问题。本文的答案是:由用户通过“函数骨架”来定义,即用户指定函数应该由哪些“可解释”的基函数(如线性项、低阶交互项)组成。
  2. 如何在模型选择中同时考虑精度、泛化与可解释性? 这是本文试图解决的核心问题。其方案是:提出一个基于Mallows’s \(C_p\) 的新准则,其中“可解释性”被量化为所选函数与用户定义的“函数骨架”之间的“距离”。
  3. 如何将这种框架应用于实际问题? 本文通过临床试验设计、Fisher精确检验和NHANES数据分析展示了其应用潜力,但框架的通用性和在不同领域(如因果推断、高维数据)的适用性仍有待检验。

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

  • 作者把缺口 frame 成什么? 作者声称:“现有方法要么只关注精度(如黑箱模型),要么只关注可解释性(如稀疏线性模型),缺乏一个通用、灵活且和谐的框架来同时平衡两者。” 因此,本文被定位为“显然的下一步”:一个能够根据用户期望,自动在精度和可解释性之间找到最优折中的通用方法论。
  • 哪些竞争路线被他淡化或回避了?
    • 事后解释方法(如SHAP、LIME):作者在引言中承认这些方法的存在,但将其归类为“解释黑箱模型”,而非“构建可解释模型”。本文的框架属于后者,因此与事后解释方法并非直接竞争,而是互补。作者淡化了事后解释方法在实践中的广泛适用性和成熟度。
    • 稀疏模型(如LASSO):作者承认稀疏模型是“可解释的”,但认为其“可解释性”是隐式的(通过变量选择),且无法灵活地融入用户对函数形式的特定期望(如“必须是线性加一个二次项”)。本文的“函数骨架”提供了更精细的控制。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
    • 广义可加模型(GAM)及其变体:GAM 允许每个变量以非线性光滑函数的形式进入模型,同时保持可加性,是一种经典的“可解释”模型。本文的“函数骨架”可以视为 GAM 的一种推广(允许用户指定更复杂的函数形式),但论文并未引用 GAM 的经典文献(如 Hastie & Tibshirani, 1990)。这是一个值得研究者去查的潜在缺口:本文的方法与 GAM 相比,优势在哪里?
    • 贝叶斯可加回归树(BART):BART 是一种强大的非参数回归方法,其预测由多棵回归树的和构成,具有一定的可解释性(如变量重要性)。本文也未引用 BART。这可能是因为 BART 的可解释性不如稀疏线性模型直观,但作为对比基线是合理的。

张力

未见明显对立引用。被引文献之间在“可解释性很重要”这一点上是一致的,分歧主要在于如何实现(事后解释 vs. 本身可解释)以及如何定义。本文试图调和这种分歧,提供一个更灵活的框架。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \(\mathbf{X} \in \mathbb{R}^p\)\(p\) 维预测变量(特征)向量。
    • \(Y \in \mathbb{R}\):连续结局变量(响应变量)。
    • \(n\):样本量。
    • \((\mathbf{x}_i, y_i), i=1,\dots,n\):可观测的独立同分布样本。
    • \(f(\mathbf{x})\):一个未知的、我们想要估计的回归函数,\(f: \mathbb{R}^p \rightarrow \mathbb{R}\)
    • \(\mathcal{F}\):一个候选函数类,我们从中选择 \(f\)。例如,所有 \(p\) 元二次多项式的集合。
    • \(\mathcal{S}\)函数骨架(functional skeleton)。这是用户指定的一个函数子类,代表用户认为“可解释”的函数形式。例如,\(\mathcal{S} = \{ \beta_0 + \beta_1 x_1 + \beta_2 x_2 \}\)(仅包含两个线性项)。
    • \(\hat{f}\):从数据中估计出的最终回归函数。
    • \(C_p(f)\):Mallows’s \(C_p\) 统计量,用于评估函数 \(f\) 的预测风险(期望预测误差)。
    • \(\tilde{C}_p(f)\):本文提出的修正 Mallows’s \(C_p\),它在 \(C_p\) 的基础上增加了一个惩罚项,以衡量 \(f\) 与函数骨架 \(\mathcal{S}\) 的“距离”。
    • \(d(f, \mathcal{S})\):函数 \(f\) 到函数骨架 \(\mathcal{S}\) 的“距离”度量。这是本文的核心设计之一,需要用户定义。例如,可以定义为 \(f\)\(\mathcal{S}\) 中最近函数在 \(L_2\) 范数下的距离。
  • 模型

    • 假设数据由以下模型生成:\(Y = f_0(\mathbf{X}) + \epsilon\),其中 \(\epsilon\) 是均值为0、方差为 \(\sigma^2\) 的随机噪声,且与 \(\mathbf{X}\) 独立。\(f_0\) 是真实的、未知的回归函数。
    • 我们使用最小二乘法来估计 \(f\),即最小化 \(\sum_{i=1}^n (y_i - f(\mathbf{x}_i))^2\)
  • 可观测数据

    • 研究者能观测到的是 \(n\) 个样本点 \(\{(\mathbf{x}_i, y_i)\}_{i=1}^n\)
    • 想要但观测不到的是:真实的回归函数 \(f_0\)、噪声方差 \(\sigma^2\)、以及“可解释性”本身。后者只能通过用户定义的函数骨架 \(\mathcal{S}\) 和距离度量 \(d(\cdot, \cdot)\) 来间接表达。

第二步:讲最小内核

本文的核心思路可以浓缩为一个最简特例在一元线性回归中,用户希望最终函数是“可解释的”,即它应该“接近”一个简单的线性函数,但数据可能提示需要更复杂的非线性形式。

设定: * \(p=1\),只有一个预测变量 \(X\)。 * 候选函数类 \(\mathcal{F}\):所有在 \(X\) 的支撑集上定义的光滑函数(例如,使用样条基展开,\(f(x) = \sum_{j=1}^J \beta_j B_j(x)\),其中 \(B_j\)\(J\) 个基函数)。 * 函数骨架 \(\mathcal{S}\):用户认为“可解释”的函数是线性函数,即 \(\mathcal{S} = \{ \beta_0 + \beta_1 x \}\)。 * 距离度量 \(d(f, \mathcal{S})\):定义为 \(f\)\(\mathcal{S}\) 中最近线性函数在 \(L_2\) 范数下的距离,即 \(d(f, \mathcal{S}) = \inf_{g \in \mathcal{S}} \|f - g\|_2\)。在实际中,这可以通过将 \(f\) 投影到线性函数空间上来计算。

问题: 我们想从 \(\mathcal{F}\) 中选出一个函数 \(\hat{f}\),它既要能很好地拟合数据(低预测误差),又要“足够可解释”(即 \(d(\hat{f}, \mathcal{S})\) 很小)。

本文的关键想法: 1. 量化“可解释性”为惩罚项:将“可解释性”的缺失量化为一个惩罚项 \(\lambda \cdot d(f, \mathcal{S})\),其中 \(\lambda \ge 0\) 是一个调优参数。 2. 修正 Mallows’s \(C_p\):提出一个新的模型选择准则 \(\tilde{C}_p(f)\),它在经典的 Mallows’s \(C_p\) 基础上,加上这个可解释性惩罚项:

\[\tilde{C}_p(f) = \underbrace{\frac{1}{n} \sum_{i=1}^n (y_i - f(\mathbf{x}_i))^2}_{\text{训练误差}} + \underbrace{\frac{2\sigma^2}{n} \cdot \text{df}(f)}_{\text{经典 } C_p \text{ 复杂度惩罚}} + \underbrace{\lambda \cdot d(f, \mathcal{S})}_{\text{可解释性惩罚}}\]
其中 \(\text{df}(f)\) 是函数 \(f\) 的有效自由度(例如,样条模型中的基函数个数)。 3. 模型选择:在所有候选函数 \(f \in \mathcal{F}\) 中,选择使 \(\tilde{C}_p(f)\) 最小的那个作为最终模型 \(\hat{f}\)

为什么这个想法能工作? * 当 \(\lambda = 0\) 时,\(\tilde{C}_p\) 退化为经典 \(C_p\),会倾向于选择预测误差最小的函数,即使它很复杂(非线性)。 * 当 \(\lambda\) 很大时,惩罚项 \(d(f, \mathcal{S})\) 占主导,会迫使选择的函数 \(f\) 非常接近线性函数,即使拟合效果稍差。 * 通过调整 \(\lambda\),用户可以在“预测精度”和“可解释性”之间进行平滑的权衡。本文的核心贡献就是提供了一个数学上严谨的框架,将这个权衡过程形式化,并给出了一个基于 \(C_p\) 统计量的、可计算的模型选择准则。

在这个特例下,要证的命题:对于给定的 \(\lambda\),最小化 \(\tilde{C}_p(f)\) 得到的 \(\hat{f}\),其期望预测误差(在 \(C_p\) 的意义下)与可解释性损失 \(d(\hat{f}, \mathcal{S})\) 之间存在一个可量化的平衡。论文的一般情形(多元、更复杂的函数骨架)只是这个特例的“加壳”。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:提出了一个通用框架,用于在连续结局的回归分析中,根据用户对可解释性的主观期望,自动构造一个在近似精度、泛化能力和可解释性之间达到平衡的函数。
  2. 核心工具 / 方法:通过用户定义的“函数骨架”形式化可解释性,并基于Mallows’s \(C_p\) 统计量提出一个新的模型选择准则 \(\tilde{C}_p\),该准则在经典 \(C_p\) 的基础上增加了一个与函数骨架距离相关的惩罚项。
  3. 主要结论:该框架是“通用、灵活且和谐的”,能够应用于多种场景(如临床试验设计、假设检验、真实数据分析),并展示了其相对于仅关注精度或仅关注可解释性的方法的潜在优势。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • 函数骨架 \(\mathcal{S}\):这是框架的核心。用户需要指定 \(\mathcal{S}\),它可以是任何函数子类,例如:
    • 所有线性函数的集合。
    • 所有可加函数的集合(如GAM)。
    • 所有不超过二阶交互项的函数的集合。
    • 由特定领域知识驱动的函数形式(如临床试验中的线性剂量-反应关系)。
  • 距离度量 \(d(f, \mathcal{S})\):用户需要定义一个度量来衡量任意函数 \(f\) 与骨架 \(\mathcal{S}\) 的“距离”。论文建议使用 \(L_2\) 距离,但理论上可以是任何合理的度量。这个度量的选择直接决定了“可解释性”的量化方式。
  • 候选函数类 \(\mathcal{F}\):通常是一个足够丰富的函数类(如样条、多项式、神经网络),以确保能够很好地逼近真实函数 \(f_0\)。论文假设 \(\mathcal{F}\) 是线性空间(如由一组基函数张成),以便于计算。
  • 假设
    • 线性模型假设(用于推导 \(C_p\):经典的 Mallows’s \(C_p\) 是在线性模型(即 \(f\) 是参数的线性函数)的框架下推导的。本文的 \(\tilde{C}_p\) 也继承了这一假设,即候选函数 \(f\) 是基函数的线性组合。
    • 噪声方差已知或可估计\(\tilde{C}_p\) 的计算需要知道噪声方差 \(\sigma^2\)。在实践中,通常用一个无偏估计(如饱和模型的残差方差)来替代。
    • 用户期望是外生的:函数骨架 \(\mathcal{S}\) 和调优参数 \(\lambda\) 由用户预先指定,框架本身不提供自动选择 \(\mathcal{S}\)\(\lambda\) 的方法。这是一个重要的局限性。

主要结果

本文是一个应用 / 方法型论文,其主要结果是通过几个例子来展示框架的实用性,而非提出新的统计定理。

  1. 自适应临床试验设计的样本量公式推导

    • 场景:在自适应临床试验中,样本量公式通常依赖于一些未知参数(如效应大小)。作者使用本文框架,将样本量公式视为一个函数,其输入是这些未知参数,输出是所需样本量。
    • 方法:定义一个“可解释”的函数骨架(例如,一个简单的线性公式),然后使用 \(\tilde{C}_p\) 准则,从一组复杂的、高精度的公式(如通过模拟得到的公式)中,选择一个既接近骨架、又具有良好预测精度的公式。
    • 结果:展示了一个例子,其中最终选出的公式在保持与复杂公式相近精度的同时,形式更简单(更可解释),便于临床医生理解和沟通。
  2. 贝叶斯Go/No-Go范式的操作特征解释

    • 场景:在贝叶斯Go/No-Go决策中,操作特征(如错误概率)是多个参数的复杂函数。作者希望用一个“有意义的中间变量”来解释这些操作特征。
    • 方法:将操作特征函数投影到由“中间变量”(如后验概率)张成的函数骨架上,从而得到一个更易解释的近似函数。
    • 结果:展示了如何通过一个简单的、基于中间变量的函数来近似复杂的操作特征,从而揭示决策规则的关键驱动因素。
  3. Fisher精确检验的推广

    • 场景:将框架从连续结局推广到分类结局。以Fisher精确检验为例,其p值计算复杂,作者希望用一个更简单的函数来近似它。
    • 方法:将p值视为样本量、效应大小等参数的函数,并使用类似的方法构建一个可解释的近似函数。
    • 结果:展示了该框架的灵活性,能够处理非连续结局。
  4. NHANES真实数据分析

    • 场景:使用NHANES数据,探究一些重要实验室测量指标(如血糖、胆固醇)之间的关系。
    • 方法:将本文框架应用于多元回归,构建一个在预测精度和可解释性之间平衡的模型。
    • 结果:展示了最终模型的形式,并讨论了其相对于全模型(高精度但复杂)和稀疏模型(高可解释性但可能欠拟合)的优势。具体结果(如模型形式、预测误差对比)在论文中给出。

证明路线与技术技巧

本文没有严格的数学证明。它是一个方法论框架,其“证明”是通过例子和论证来展示其有效性和合理性。

  • 整体路线

    1. 定义问题:明确“可解释性”是主观的,需要用户参与定义。
    2. 提出框架:引入“函数骨架”和“距离度量”来形式化可解释性。
    3. 设计准则:提出修正的Mallows’s \(C_p\) 统计量 \(\tilde{C}_p\),将可解释性作为惩罚项融入模型选择。
    4. 展示应用:通过多个例子(临床试验、假设检验、真实数据)展示框架的通用性和灵活性。
    5. 讨论扩展:讨论如何将框架推广到分类结局、如何处理高维数据等。
  • 关键跳跃点:本文没有需要“攻克”的数学难点。其核心跳跃在于将“可解释性”这个主观概念,通过“函数骨架”和“距离度量”转化为一个可计算的惩罚项。这个跳跃是概念性的,而非技术性的。

  • 技术技巧点名

    • Mallows’s \(C_p\) 统计量:作为模型选择的基础工具,用于平衡拟合优度与模型复杂度。
    • 函数投影:计算 \(d(f, \mathcal{S})\) 时,需要将 \(f\) 投影到 \(\mathcal{S}\) 上。这通常是一个最小二乘问题,可以通过线性代数求解。
    • 样条基展开:用于构建丰富的候选函数类 \(\mathcal{F}\)

真实例子与应用

本文包含多个真实例子和应用,已在上文“主要结果”中详细描述。这些例子旨在说明: * 验证理论:展示框架能够产生在精度和可解释性之间取得平衡的结果。 * 展示相对 baseline 的优势:相对于仅使用经典 \(C_p\)(只关注精度)或强制使用骨架函数(只关注可解释性),本文的框架提供了一个连续的、可调优的折中方案。

🔎 结论是否比证明窄

是的。本文的结论(“通用、灵活且和谐的框架”)是基于几个精心挑选的例子得出的,而非严格的数学证明。论文中没有证明: * 对于任意用户定义的骨架 \(\mathcal{S}\) 和距离度量 \(d\)\(\tilde{C}_p\) 准则都能保证找到最优的折中。 * 在何种条件下,\(\tilde{C}_p\) 选择的函数在统计意义上(如渐近最优性)优于其他方法。 * \(\tilde{C}_p\) 准则的统计性质(如一致性、相合性)。

论文的结论是通过例证而非证明得出的,其适用范围和局限性需要读者自行判断。论文在“讨论”部分也承认了这一点,并指出了一些未来工作方向。

四、开放问题

  1. \(\tilde{C}_p\) 准则的统计性质:本文没有给出 \(\tilde{C}_p\) 准则的任何渐近性质(如模型选择一致性)。能否证明,在适当的条件下,最小化 \(\tilde{C}_p\) 能够渐近地选择出“最优”的折中函数?这扎根于论文对 \(\tilde{C}_p\) 的定义及其缺乏理论分析。
  2. 函数骨架 \(\mathcal{S}\) 和调优参数 \(\lambda\) 的自动选择:框架要求用户手动指定 \(\mathcal{S}\)\(\lambda\),这在实际应用中可能很困难。能否开发一个数据驱动的程序来自动选择 \(\mathcal{S}\)\(\lambda\)?例如,通过交叉验证或贝叶斯方法。这扎根于论文“讨论”部分提到的未来工作。
  3. 与广义可加模型(GAM)的明确比较:如前所述,论文未引用GAM。一个开放问题是:本文的框架与GAM及其变体(如可加性稀疏模型)在理论和实践上究竟有何异同?在什么情况下,本文的框架比GAM更有优势?这扎根于论文引言中缺失的关键参考文献。
  4. 扩展到高维数据:当 \(p\) 很大时,候选函数类 \(\mathcal{F}\) 的维数会爆炸,导致计算困难。本文的框架如何处理高维问题?能否结合稀疏性假设(如LASSO)或降维技术?这扎根于论文“讨论”部分提到的未来工作。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论