A general, flexible, and harmonious framework to construct interpretable functions in regression analysis¶
作者: Tianyu Zhan, Jian Kang
来源: Biometrics
主题: 其他
相关性: 4/10
机构绿灯: University of Michigan(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf014
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向关注的是在回归分析中构建“可解释”函数的根本问题。核心矛盾在于:一个模型(或函数)的预测精度(accuracy)、泛化能力(generalizability)与可解释性(interpretability)三者之间往往存在权衡。本文试图提供一个通用框架,让用户能够根据自身对“可解释性”的主观期望,在连续结局的回归分析中,自动构造出一个在精度、泛化与可解释性之间达到平衡的函数。该方向目前处于应用导向的方法论发展阶段,缺乏统一的数学定义和模型选择准则,现有工作多为特定场景下的特设方法。
发展脉络(history)¶
根据论文引言及其参考文献,该方向的发展脉络可梳理如下:
-
奠基工作:可解释性的概念化与早期权衡讨论
- Lipton (2018):系统性地讨论了可解释性的多种定义(如可模拟性、可分解性、算法透明度),并指出可解释性是一个“主观”概念,不同用户可能有不同期望。本文直接引用了这一观点,作为其“用户期望”框架的出发点。
- Rudin (2019):强烈主张在高风险决策中应使用“本身可解释”的模型(如稀疏线性模型、决策树),而非事后解释黑箱模型。本文引用了这一观点,但并未完全采纳其“拒绝黑箱”的强硬立场,而是试图在精度与可解释性之间寻找一个可量化的平衡点。
-
主要进展:可解释性度量的尝试与模型选择准则
- Molnar (2022):撰写了关于可解释机器学习的综合性教科书,总结了多种可解释性方法(如SHAP、LIME、PDP)。本文将其作为背景知识引用,但指出这些方法多为事后解释,而非在模型构建阶段就内嵌可解释性。
- Mallows (1973):提出了经典的Mallows’s \(C_p\) 统计量,用于在最小二乘回归中选择变量子集,以平衡模型拟合优度与复杂度(参数个数)。本文的核心创新之一,就是将Mallows’s \(C_p\) 的思想推广到“可解释性”维度,而不仅仅是模型复杂度。
-
当前Frontier与本文位置
- 当前前沿在于:如何将“可解释性”这个主观概念形式化为一个可优化的目标,并融入模型选择或函数构造的流程中。本文的位置是:提出一个通用框架,将用户对可解释性的期望(通过“函数骨架”定义)与一个基于Mallows’s \(C_p\) 的模型选择准则相结合,从而在近似精度、泛化能力和可解释性之间进行自动权衡。它不是一个全新的统计理论,而是一个应用导向的方法论框架,旨在为特定领域(如临床试验设计)提供实用工具。
子线索聚类¶
这些被引文献大致落在以下两条子线索上:
- 线索一:可解释性的定义与哲学讨论。这条线索关注“什么是可解释性”、“为什么需要可解释性”等基础问题。代表工作包括 Lipton (2018) 和 Rudin (2019)。它们为本文提供了概念基础,但并未提供具体的数学工具。
- 线索二:模型选择与复杂度控制。这条线索关注如何在模型拟合优度与模型复杂度(如参数数量、函数光滑度)之间进行权衡。代表工作包括 Mallows (1973) 的 \(C_p\) 统计量,以及更广泛的 AIC、BIC 等信息准则。本文的核心技术贡献,就是将这条线索中的思想,从“参数数量”扩展到“可解释性”。
这个方向在追问的核心问题¶
- 如何形式化定义“可解释性”? 这是一个根本性的、开放的问题。本文的答案是:由用户通过“函数骨架”来定义,即用户指定函数应该由哪些“可解释”的基函数(如线性项、低阶交互项)组成。
- 如何在模型选择中同时考虑精度、泛化与可解释性? 这是本文试图解决的核心问题。其方案是:提出一个基于Mallows’s \(C_p\) 的新准则,其中“可解释性”被量化为所选函数与用户定义的“函数骨架”之间的“距离”。
- 如何将这种框架应用于实际问题? 本文通过临床试验设计、Fisher精确检验和NHANES数据分析展示了其应用潜力,但框架的通用性和在不同领域(如因果推断、高维数据)的适用性仍有待检验。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
- 作者把缺口 frame 成什么? 作者声称:“现有方法要么只关注精度(如黑箱模型),要么只关注可解释性(如稀疏线性模型),缺乏一个通用、灵活且和谐的框架来同时平衡两者。” 因此,本文被定位为“显然的下一步”:一个能够根据用户期望,自动在精度和可解释性之间找到最优折中的通用方法论。
- 哪些竞争路线被他淡化或回避了?
- 事后解释方法(如SHAP、LIME):作者在引言中承认这些方法的存在,但将其归类为“解释黑箱模型”,而非“构建可解释模型”。本文的框架属于后者,因此与事后解释方法并非直接竞争,而是互补。作者淡化了事后解释方法在实践中的广泛适用性和成熟度。
- 稀疏模型(如LASSO):作者承认稀疏模型是“可解释的”,但认为其“可解释性”是隐式的(通过变量选择),且无法灵活地融入用户对函数形式的特定期望(如“必须是线性加一个二次项”)。本文的“函数骨架”提供了更精细的控制。
- 什么明显该被引 / 该存在、却没出现在 intro 里?
- 广义可加模型(GAM)及其变体:GAM 允许每个变量以非线性光滑函数的形式进入模型,同时保持可加性,是一种经典的“可解释”模型。本文的“函数骨架”可以视为 GAM 的一种推广(允许用户指定更复杂的函数形式),但论文并未引用 GAM 的经典文献(如 Hastie & Tibshirani, 1990)。这是一个值得研究者去查的潜在缺口:本文的方法与 GAM 相比,优势在哪里?
- 贝叶斯可加回归树(BART):BART 是一种强大的非参数回归方法,其预测由多棵回归树的和构成,具有一定的可解释性(如变量重要性)。本文也未引用 BART。这可能是因为 BART 的可解释性不如稀疏线性模型直观,但作为对比基线是合理的。
张力¶
未见明显对立引用。被引文献之间在“可解释性很重要”这一点上是一致的,分歧主要在于如何实现(事后解释 vs. 本身可解释)以及如何定义。本文试图调和这种分歧,提供一个更灵活的框架。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- \(\mathbf{X} \in \mathbb{R}^p\):\(p\) 维预测变量(特征)向量。
- \(Y \in \mathbb{R}\):连续结局变量(响应变量)。
- \(n\):样本量。
- \((\mathbf{x}_i, y_i), i=1,\dots,n\):可观测的独立同分布样本。
- \(f(\mathbf{x})\):一个未知的、我们想要估计的回归函数,\(f: \mathbb{R}^p \rightarrow \mathbb{R}\)。
- \(\mathcal{F}\):一个候选函数类,我们从中选择 \(f\)。例如,所有 \(p\) 元二次多项式的集合。
- \(\mathcal{S}\):函数骨架(functional skeleton)。这是用户指定的一个函数子类,代表用户认为“可解释”的函数形式。例如,\(\mathcal{S} = \{ \beta_0 + \beta_1 x_1 + \beta_2 x_2 \}\)(仅包含两个线性项)。
- \(\hat{f}\):从数据中估计出的最终回归函数。
- \(C_p(f)\):Mallows’s \(C_p\) 统计量,用于评估函数 \(f\) 的预测风险(期望预测误差)。
- \(\tilde{C}_p(f)\):本文提出的修正 Mallows’s \(C_p\),它在 \(C_p\) 的基础上增加了一个惩罚项,以衡量 \(f\) 与函数骨架 \(\mathcal{S}\) 的“距离”。
- \(d(f, \mathcal{S})\):函数 \(f\) 到函数骨架 \(\mathcal{S}\) 的“距离”度量。这是本文的核心设计之一,需要用户定义。例如,可以定义为 \(f\) 与 \(\mathcal{S}\) 中最近函数在 \(L_2\) 范数下的距离。
-
模型:
- 假设数据由以下模型生成:\(Y = f_0(\mathbf{X}) + \epsilon\),其中 \(\epsilon\) 是均值为0、方差为 \(\sigma^2\) 的随机噪声,且与 \(\mathbf{X}\) 独立。\(f_0\) 是真实的、未知的回归函数。
- 我们使用最小二乘法来估计 \(f\),即最小化 \(\sum_{i=1}^n (y_i - f(\mathbf{x}_i))^2\)。
-
可观测数据:
- 研究者能观测到的是 \(n\) 个样本点 \(\{(\mathbf{x}_i, y_i)\}_{i=1}^n\)。
- 想要但观测不到的是:真实的回归函数 \(f_0\)、噪声方差 \(\sigma^2\)、以及“可解释性”本身。后者只能通过用户定义的函数骨架 \(\mathcal{S}\) 和距离度量 \(d(\cdot, \cdot)\) 来间接表达。
第二步:讲最小内核¶
本文的核心思路可以浓缩为一个最简特例:在一元线性回归中,用户希望最终函数是“可解释的”,即它应该“接近”一个简单的线性函数,但数据可能提示需要更复杂的非线性形式。
设定: * \(p=1\),只有一个预测变量 \(X\)。 * 候选函数类 \(\mathcal{F}\):所有在 \(X\) 的支撑集上定义的光滑函数(例如,使用样条基展开,\(f(x) = \sum_{j=1}^J \beta_j B_j(x)\),其中 \(B_j\) 是 \(J\) 个基函数)。 * 函数骨架 \(\mathcal{S}\):用户认为“可解释”的函数是线性函数,即 \(\mathcal{S} = \{ \beta_0 + \beta_1 x \}\)。 * 距离度量 \(d(f, \mathcal{S})\):定义为 \(f\) 与 \(\mathcal{S}\) 中最近线性函数在 \(L_2\) 范数下的距离,即 \(d(f, \mathcal{S}) = \inf_{g \in \mathcal{S}} \|f - g\|_2\)。在实际中,这可以通过将 \(f\) 投影到线性函数空间上来计算。
问题: 我们想从 \(\mathcal{F}\) 中选出一个函数 \(\hat{f}\),它既要能很好地拟合数据(低预测误差),又要“足够可解释”(即 \(d(\hat{f}, \mathcal{S})\) 很小)。
本文的关键想法: 1. 量化“可解释性”为惩罚项:将“可解释性”的缺失量化为一个惩罚项 \(\lambda \cdot d(f, \mathcal{S})\),其中 \(\lambda \ge 0\) 是一个调优参数。 2. 修正 Mallows’s \(C_p\):提出一个新的模型选择准则 \(\tilde{C}_p(f)\),它在经典的 Mallows’s \(C_p\) 基础上,加上这个可解释性惩罚项:
为什么这个想法能工作? * 当 \(\lambda = 0\) 时,\(\tilde{C}_p\) 退化为经典 \(C_p\),会倾向于选择预测误差最小的函数,即使它很复杂(非线性)。 * 当 \(\lambda\) 很大时,惩罚项 \(d(f, \mathcal{S})\) 占主导,会迫使选择的函数 \(f\) 非常接近线性函数,即使拟合效果稍差。 * 通过调整 \(\lambda\),用户可以在“预测精度”和“可解释性”之间进行平滑的权衡。本文的核心贡献就是提供了一个数学上严谨的框架,将这个权衡过程形式化,并给出了一个基于 \(C_p\) 统计量的、可计算的模型选择准则。
在这个特例下,要证的命题:对于给定的 \(\lambda\),最小化 \(\tilde{C}_p(f)\) 得到的 \(\hat{f}\),其期望预测误差(在 \(C_p\) 的意义下)与可解释性损失 \(d(\hat{f}, \mathcal{S})\) 之间存在一个可量化的平衡。论文的一般情形(多元、更复杂的函数骨架)只是这个特例的“加壳”。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:提出了一个通用框架,用于在连续结局的回归分析中,根据用户对可解释性的主观期望,自动构造一个在近似精度、泛化能力和可解释性之间达到平衡的函数。
- 核心工具 / 方法:通过用户定义的“函数骨架”形式化可解释性,并基于Mallows’s \(C_p\) 统计量提出一个新的模型选择准则 \(\tilde{C}_p\),该准则在经典 \(C_p\) 的基础上增加了一个与函数骨架距离相关的惩罚项。
- 主要结论:该框架是“通用、灵活且和谐的”,能够应用于多种场景(如临床试验设计、假设检验、真实数据分析),并展示了其相对于仅关注精度或仅关注可解释性的方法的潜在优势。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 函数骨架 \(\mathcal{S}\):这是框架的核心。用户需要指定 \(\mathcal{S}\),它可以是任何函数子类,例如:
- 所有线性函数的集合。
- 所有可加函数的集合(如GAM)。
- 所有不超过二阶交互项的函数的集合。
- 由特定领域知识驱动的函数形式(如临床试验中的线性剂量-反应关系)。
- 距离度量 \(d(f, \mathcal{S})\):用户需要定义一个度量来衡量任意函数 \(f\) 与骨架 \(\mathcal{S}\) 的“距离”。论文建议使用 \(L_2\) 距离,但理论上可以是任何合理的度量。这个度量的选择直接决定了“可解释性”的量化方式。
- 候选函数类 \(\mathcal{F}\):通常是一个足够丰富的函数类(如样条、多项式、神经网络),以确保能够很好地逼近真实函数 \(f_0\)。论文假设 \(\mathcal{F}\) 是线性空间(如由一组基函数张成),以便于计算。
- 假设:
- 线性模型假设(用于推导 \(C_p\)):经典的 Mallows’s \(C_p\) 是在线性模型(即 \(f\) 是参数的线性函数)的框架下推导的。本文的 \(\tilde{C}_p\) 也继承了这一假设,即候选函数 \(f\) 是基函数的线性组合。
- 噪声方差已知或可估计:\(\tilde{C}_p\) 的计算需要知道噪声方差 \(\sigma^2\)。在实践中,通常用一个无偏估计(如饱和模型的残差方差)来替代。
- 用户期望是外生的:函数骨架 \(\mathcal{S}\) 和调优参数 \(\lambda\) 由用户预先指定,框架本身不提供自动选择 \(\mathcal{S}\) 或 \(\lambda\) 的方法。这是一个重要的局限性。
主要结果¶
本文是一个应用 / 方法型论文,其主要结果是通过几个例子来展示框架的实用性,而非提出新的统计定理。
-
自适应临床试验设计的样本量公式推导:
- 场景:在自适应临床试验中,样本量公式通常依赖于一些未知参数(如效应大小)。作者使用本文框架,将样本量公式视为一个函数,其输入是这些未知参数,输出是所需样本量。
- 方法:定义一个“可解释”的函数骨架(例如,一个简单的线性公式),然后使用 \(\tilde{C}_p\) 准则,从一组复杂的、高精度的公式(如通过模拟得到的公式)中,选择一个既接近骨架、又具有良好预测精度的公式。
- 结果:展示了一个例子,其中最终选出的公式在保持与复杂公式相近精度的同时,形式更简单(更可解释),便于临床医生理解和沟通。
-
贝叶斯Go/No-Go范式的操作特征解释:
- 场景:在贝叶斯Go/No-Go决策中,操作特征(如错误概率)是多个参数的复杂函数。作者希望用一个“有意义的中间变量”来解释这些操作特征。
- 方法:将操作特征函数投影到由“中间变量”(如后验概率)张成的函数骨架上,从而得到一个更易解释的近似函数。
- 结果:展示了如何通过一个简单的、基于中间变量的函数来近似复杂的操作特征,从而揭示决策规则的关键驱动因素。
-
Fisher精确检验的推广:
- 场景:将框架从连续结局推广到分类结局。以Fisher精确检验为例,其p值计算复杂,作者希望用一个更简单的函数来近似它。
- 方法:将p值视为样本量、效应大小等参数的函数,并使用类似的方法构建一个可解释的近似函数。
- 结果:展示了该框架的灵活性,能够处理非连续结局。
-
NHANES真实数据分析:
- 场景:使用NHANES数据,探究一些重要实验室测量指标(如血糖、胆固醇)之间的关系。
- 方法:将本文框架应用于多元回归,构建一个在预测精度和可解释性之间平衡的模型。
- 结果:展示了最终模型的形式,并讨论了其相对于全模型(高精度但复杂)和稀疏模型(高可解释性但可能欠拟合)的优势。具体结果(如模型形式、预测误差对比)在论文中给出。
证明路线与技术技巧¶
本文没有严格的数学证明。它是一个方法论框架,其“证明”是通过例子和论证来展示其有效性和合理性。
-
整体路线:
- 定义问题:明确“可解释性”是主观的,需要用户参与定义。
- 提出框架:引入“函数骨架”和“距离度量”来形式化可解释性。
- 设计准则:提出修正的Mallows’s \(C_p\) 统计量 \(\tilde{C}_p\),将可解释性作为惩罚项融入模型选择。
- 展示应用:通过多个例子(临床试验、假设检验、真实数据)展示框架的通用性和灵活性。
- 讨论扩展:讨论如何将框架推广到分类结局、如何处理高维数据等。
-
关键跳跃点:本文没有需要“攻克”的数学难点。其核心跳跃在于将“可解释性”这个主观概念,通过“函数骨架”和“距离度量”转化为一个可计算的惩罚项。这个跳跃是概念性的,而非技术性的。
-
技术技巧点名:
- Mallows’s \(C_p\) 统计量:作为模型选择的基础工具,用于平衡拟合优度与模型复杂度。
- 函数投影:计算 \(d(f, \mathcal{S})\) 时,需要将 \(f\) 投影到 \(\mathcal{S}\) 上。这通常是一个最小二乘问题,可以通过线性代数求解。
- 样条基展开:用于构建丰富的候选函数类 \(\mathcal{F}\)。
真实例子与应用¶
本文包含多个真实例子和应用,已在上文“主要结果”中详细描述。这些例子旨在说明: * 验证理论:展示框架能够产生在精度和可解释性之间取得平衡的结果。 * 展示相对 baseline 的优势:相对于仅使用经典 \(C_p\)(只关注精度)或强制使用骨架函数(只关注可解释性),本文的框架提供了一个连续的、可调优的折中方案。
🔎 结论是否比证明窄¶
是的。本文的结论(“通用、灵活且和谐的框架”)是基于几个精心挑选的例子得出的,而非严格的数学证明。论文中没有证明: * 对于任意用户定义的骨架 \(\mathcal{S}\) 和距离度量 \(d\),\(\tilde{C}_p\) 准则都能保证找到最优的折中。 * 在何种条件下,\(\tilde{C}_p\) 选择的函数在统计意义上(如渐近最优性)优于其他方法。 * \(\tilde{C}_p\) 准则的统计性质(如一致性、相合性)。
论文的结论是通过例证而非证明得出的,其适用范围和局限性需要读者自行判断。论文在“讨论”部分也承认了这一点,并指出了一些未来工作方向。
四、开放问题¶
- \(\tilde{C}_p\) 准则的统计性质:本文没有给出 \(\tilde{C}_p\) 准则的任何渐近性质(如模型选择一致性)。能否证明,在适当的条件下,最小化 \(\tilde{C}_p\) 能够渐近地选择出“最优”的折中函数?这扎根于论文对 \(\tilde{C}_p\) 的定义及其缺乏理论分析。
- 函数骨架 \(\mathcal{S}\) 和调优参数 \(\lambda\) 的自动选择:框架要求用户手动指定 \(\mathcal{S}\) 和 \(\lambda\),这在实际应用中可能很困难。能否开发一个数据驱动的程序来自动选择 \(\mathcal{S}\) 和 \(\lambda\)?例如,通过交叉验证或贝叶斯方法。这扎根于论文“讨论”部分提到的未来工作。
- 与广义可加模型(GAM)的明确比较:如前所述,论文未引用GAM。一个开放问题是:本文的框架与GAM及其变体(如可加性稀疏模型)在理论和实践上究竟有何异同?在什么情况下,本文的框架比GAM更有优势?这扎根于论文引言中缺失的关键参考文献。
- 扩展到高维数据:当 \(p\) 很大时,候选函数类 \(\mathcal{F}\) 的维数会爆炸,导致计算困难。本文的框架如何处理高维问题?能否结合稀疏性假设(如LASSO)或降维技术?这扎根于论文“讨论”部分提到的未来工作。
Maintained by 陈星宇 · Homepage · Source on GitHub