A general, flexible, and harmonious framework to construct interpretable functions in regression analysis¶

作者: Tianyu Zhan, Jian Kang
来源: Biometrics
主题: 其他
相关性: 4/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf014

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是在回归分析中构建“可解释”函数的根本问题。核心矛盾在于：一个模型（或函数）的预测精度（accuracy）、泛化能力（generalizability）与可解释性（interpretability）三者之间往往存在权衡。本文试图提供一个通用框架，让用户能够根据自身对“可解释性”的主观期望，在连续结局的回归分析中，自动构造出一个在精度、泛化与可解释性之间达到平衡的函数。该方向目前处于应用导向的方法论发展阶段，缺乏统一的数学定义和模型选择准则，现有工作多为特定场景下的特设方法。

发展脉络（history）¶

根据论文引言及其参考文献，该方向的发展脉络可梳理如下：

奠基工作：可解释性的概念化与早期权衡讨论
- Lipton (2018)：系统性地讨论了可解释性的多种定义（如可模拟性、可分解性、算法透明度），并指出可解释性是一个“主观”概念，不同用户可能有不同期望。本文直接引用了这一观点，作为其“用户期望”框架的出发点。
- Rudin (2019)：强烈主张在高风险决策中应使用“本身可解释”的模型（如稀疏线性模型、决策树），而非事后解释黑箱模型。本文引用了这一观点，但并未完全采纳其“拒绝黑箱”的强硬立场，而是试图在精度与可解释性之间寻找一个可量化的平衡点。
主要进展：可解释性度量的尝试与模型选择准则
- Molnar (2022)：撰写了关于可解释机器学习的综合性教科书，总结了多种可解释性方法（如SHAP、LIME、PDP）。本文将其作为背景知识引用，但指出这些方法多为事后解释，而非在模型构建阶段就内嵌可解释性。
- Mallows (1973)：提出了经典的Mallows’s \(C_p\) 统计量，用于在最小二乘回归中选择变量子集，以平衡模型拟合优度与复杂度（参数个数）。本文的核心创新之一，就是将Mallows’s \(C_p\) 的思想推广到“可解释性”维度，而不仅仅是模型复杂度。
当前Frontier与本文位置
- 当前前沿在于：如何将“可解释性”这个主观概念形式化为一个可优化的目标，并融入模型选择或函数构造的流程中。本文的位置是：提出一个通用框架，将用户对可解释性的期望（通过“函数骨架”定义）与一个基于Mallows’s \(C_p\) 的模型选择准则相结合，从而在近似精度、泛化能力和可解释性之间进行自动权衡。它不是一个全新的统计理论，而是一个应用导向的方法论框架，旨在为特定领域（如临床试验设计）提供实用工具。

子线索聚类¶

这些被引文献大致落在以下两条子线索上：

线索一：可解释性的定义与哲学讨论。这条线索关注“什么是可解释性”、“为什么需要可解释性”等基础问题。代表工作包括 Lipton (2018) 和 Rudin (2019)。它们为本文提供了概念基础，但并未提供具体的数学工具。
线索二：模型选择与复杂度控制。这条线索关注如何在模型拟合优度与模型复杂度（如参数数量、函数光滑度）之间进行权衡。代表工作包括 Mallows (1973) 的 \(C_p\) 统计量，以及更广泛的 AIC、BIC 等信息准则。本文的核心技术贡献，就是将这条线索中的思想，从“参数数量”扩展到“可解释性”。

这个方向在追问的核心问题¶

如何形式化定义“可解释性”？ 这是一个根本性的、开放的问题。本文的答案是：由用户通过“函数骨架”来定义，即用户指定函数应该由哪些“可解释”的基函数（如线性项、低阶交互项）组成。
如何在模型选择中同时考虑精度、泛化与可解释性？ 这是本文试图解决的核心问题。其方案是：提出一个基于Mallows’s \(C_p\) 的新准则，其中“可解释性”被量化为所选函数与用户定义的“函数骨架”之间的“距离”。
如何将这种框架应用于实际问题？ 本文通过临床试验设计、Fisher精确检验和NHANES数据分析展示了其应用潜力，但框架的通用性和在不同领域（如因果推断、高维数据）的适用性仍有待检验。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么？ 作者声称：“现有方法要么只关注精度（如黑箱模型），要么只关注可解释性（如稀疏线性模型），缺乏一个通用、灵活且和谐的框架来同时平衡两者。” 因此，本文被定位为“显然的下一步”：一个能够根据用户期望，自动在精度和可解释性之间找到最优折中的通用方法论。
哪些竞争路线被他淡化或回避了？
- 事后解释方法（如SHAP、LIME）：作者在引言中承认这些方法的存在，但将其归类为“解释黑箱模型”，而非“构建可解释模型”。本文的框架属于后者，因此与事后解释方法并非直接竞争，而是互补。作者淡化了事后解释方法在实践中的广泛适用性和成熟度。
- 稀疏模型（如LASSO）：作者承认稀疏模型是“可解释的”，但认为其“可解释性”是隐式的（通过变量选择），且无法灵活地融入用户对函数形式的特定期望（如“必须是线性加一个二次项”）。本文的“函数骨架”提供了更精细的控制。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 广义可加模型（GAM）及其变体：GAM 允许每个变量以非线性光滑函数的形式进入模型，同时保持可加性，是一种经典的“可解释”模型。本文的“函数骨架”可以视为 GAM 的一种推广（允许用户指定更复杂的函数形式），但论文并未引用 GAM 的经典文献（如 Hastie & Tibshirani, 1990）。这是一个值得研究者去查的潜在缺口：本文的方法与 GAM 相比，优势在哪里？
- 贝叶斯可加回归树（BART）：BART 是一种强大的非参数回归方法，其预测由多棵回归树的和构成，具有一定的可解释性（如变量重要性）。本文也未引用 BART。这可能是因为 BART 的可解释性不如稀疏线性模型直观，但作为对比基线是合理的。

张力¶

未见明显对立引用。被引文献之间在“可解释性很重要”这一点上是一致的，分歧主要在于如何实现（事后解释 vs. 本身可解释）以及如何定义。本文试图调和这种分歧，提供一个更灵活的框架。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(\mathbf{X} \in \mathbb{R}^p\)：\(p\) 维预测变量（特征）向量。
- \(Y \in \mathbb{R}\)：连续结局变量（响应变量）。
- \(n\)：样本量。
- \((\mathbf{x}_i, y_i), i=1,\dots,n\)：可观测的独立同分布样本。
- \(f(\mathbf{x})\)：一个未知的、我们想要估计的回归函数，\(f: \mathbb{R}^p \rightarrow \mathbb{R}\)。
- \(\mathcal{F}\)：一个候选函数类，我们从中选择 \(f\)。例如，所有 \(p\) 元二次多项式的集合。
- \(\mathcal{S}\)：函数骨架（functional skeleton）。这是用户指定的一个函数子类，代表用户认为“可解释”的函数形式。例如，\(\mathcal{S} = \{ \beta_0 + \beta_1 x_1 + \beta_2 x_2 \}\)（仅包含两个线性项）。
- \(\hat{f}\)：从数据中估计出的最终回归函数。
- \(C_p(f)\)：Mallows’s \(C_p\) 统计量，用于评估函数 \(f\) 的预测风险（期望预测误差）。
- \(\tilde{C}_p(f)\)：本文提出的修正 Mallows’s \(C_p\)，它在 \(C_p\) 的基础上增加了一个惩罚项，以衡量 \(f\) 与函数骨架 \(\mathcal{S}\) 的“距离”。
- \(d(f, \mathcal{S})\)：函数 \(f\) 到函数骨架 \(\mathcal{S}\) 的“距离”度量。这是本文的核心设计之一，需要用户定义。例如，可以定义为 \(f\) 与 \(\mathcal{S}\) 中最近函数在 \(L_2\) 范数下的距离。
模型：
- 假设数据由以下模型生成：\(Y = f_0(\mathbf{X}) + \epsilon\)，其中 \(\epsilon\) 是均值为0、方差为 \(\sigma^2\) 的随机噪声，且与 \(\mathbf{X}\) 独立。\(f_0\) 是真实的、未知的回归函数。
- 我们使用最小二乘法来估计 \(f\)，即最小化 \(\sum_{i=1}^n (y_i - f(\mathbf{x}_i))^2\)。
可观测数据：
- 研究者能观测到的是 \(n\) 个样本点 \(\{(\mathbf{x}_i, y_i)\}_{i=1}^n\)。
- 想要但观测不到的是：真实的回归函数 \(f_0\)、噪声方差 \(\sigma^2\)、以及“可解释性”本身。后者只能通过用户定义的函数骨架 \(\mathcal{S}\) 和距离度量 \(d(\cdot, \cdot)\) 来间接表达。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：在一元线性回归中，用户希望最终函数是“可解释的”，即它应该“接近”一个简单的线性函数，但数据可能提示需要更复杂的非线性形式。

设定： * \(p=1\)，只有一个预测变量 \(X\)。 * 候选函数类 \(\mathcal{F}\)：所有在 \(X\) 的支撑集上定义的光滑函数（例如，使用样条基展开，\(f(x) = \sum_{j=1}^J \beta_j B_j(x)\)，其中 \(B_j\) 是 \(J\) 个基函数）。 * 函数骨架 \(\mathcal{S}\)：用户认为“可解释”的函数是线性函数，即 \(\mathcal{S} = \{ \beta_0 + \beta_1 x \}\)。 * 距离度量 \(d(f, \mathcal{S})\)：定义为 \(f\) 与 \(\mathcal{S}\) 中最近线性函数在 \(L_2\) 范数下的距离，即 \(d(f, \mathcal{S}) = \inf_{g \in \mathcal{S}} \|f - g\|_2\)。在实际中，这可以通过将 \(f\) 投影到线性函数空间上来计算。

问题：我们想从 \(\mathcal{F}\) 中选出一个函数 \(\hat{f}\)，它既要能很好地拟合数据（低预测误差），又要“足够可解释”（即 \(d(\hat{f}, \mathcal{S})\) 很小）。

本文的关键想法： 1. 量化“可解释性”为惩罚项：将“可解释性”的缺失量化为一个惩罚项 \(\lambda \cdot d(f, \mathcal{S})\)，其中 \(\lambda \ge 0\) 是一个调优参数。 2. 修正 Mallows’s \(C_p\)：提出一个新的模型选择准则 \(\tilde{C}_p(f)\)，它在经典的 Mallows’s \(C_p\) 基础上，加上这个可解释性惩罚项：

\[\tilde{C}_p(f) = \underbrace{\frac{1}{n} \sum_{i=1}^n (y_i - f(\mathbf{x}_i))^2}_{\text{训练误差}} + \underbrace{\frac{2\sigma^2}{n} \cdot \text{df}(f)}_{\text{经典 } C_p \text{ 复杂度惩罚}} + \underbrace{\lambda \cdot d(f, \mathcal{S})}_{\text{可解释性惩罚}}\]

其中 \(\text{df}(f)\) 是函数 \(f\) 的有效自由度（例如，样条模型中的基函数个数）。 3. 模型选择：在所有候选函数 \(f \in \mathcal{F}\) 中，选择使 \(\tilde{C}_p(f)\) 最小的那个作为最终模型 \(\hat{f}\)。

为什么这个想法能工作？ * 当 \(\lambda = 0\) 时，\(\tilde{C}_p\) 退化为经典 \(C_p\)，会倾向于选择预测误差最小的函数，即使它很复杂（非线性）。 * 当 \(\lambda\) 很大时，惩罚项 \(d(f, \mathcal{S})\) 占主导，会迫使选择的函数 \(f\) 非常接近线性函数，即使拟合效果稍差。 * 通过调整 \(\lambda\)，用户可以在“预测精度”和“可解释性”之间进行平滑的权衡。本文的核心贡献就是提供了一个数学上严谨的框架，将这个权衡过程形式化，并给出了一个基于 \(C_p\) 统计量的、可计算的模型选择准则。

在这个特例下，要证的命题：对于给定的 \(\lambda\)，最小化 \(\tilde{C}_p(f)\) 得到的 \(\hat{f}\)，其期望预测误差（在 \(C_p\) 的意义下）与可解释性损失 \(d(\hat{f}, \mathcal{S})\) 之间存在一个可量化的平衡。论文的一般情形（多元、更复杂的函数骨架）只是这个特例的“加壳”。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：提出了一个通用框架，用于在连续结局的回归分析中，根据用户对可解释性的主观期望，自动构造一个在近似精度、泛化能力和可解释性之间达到平衡的函数。
核心工具 / 方法：通过用户定义的“函数骨架”形式化可解释性，并基于Mallows’s \(C_p\) 统计量提出一个新的模型选择准则 \(\tilde{C}_p\)，该准则在经典 \(C_p\) 的基础上增加了一个与函数骨架距离相关的惩罚项。
主要结论：该框架是“通用、灵活且和谐的”，能够应用于多种场景（如临床试验设计、假设检验、真实数据分析），并展示了其相对于仅关注精度或仅关注可解释性的方法的潜在优势。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

函数骨架 \(\mathcal{S}\)：这是框架的核心。用户需要指定 \(\mathcal{S}\)，它可以是任何函数子类，例如：
- 所有线性函数的集合。
- 所有可加函数的集合（如GAM）。
- 所有不超过二阶交互项的函数的集合。
- 由特定领域知识驱动的函数形式（如临床试验中的线性剂量-反应关系）。
距离度量 \(d(f, \mathcal{S})\)：用户需要定义一个度量来衡量任意函数 \(f\) 与骨架 \(\mathcal{S}\) 的“距离”。论文建议使用 \(L_2\) 距离，但理论上可以是任何合理的度量。这个度量的选择直接决定了“可解释性”的量化方式。
候选函数类 \(\mathcal{F}\)：通常是一个足够丰富的函数类（如样条、多项式、神经网络），以确保能够很好地逼近真实函数 \(f_0\)。论文假设 \(\mathcal{F}\) 是线性空间（如由一组基函数张成），以便于计算。
假设：
- 线性模型假设（用于推导 \(C_p\)）：经典的 Mallows’s \(C_p\) 是在线性模型（即 \(f\) 是参数的线性函数）的框架下推导的。本文的 \(\tilde{C}_p\) 也继承了这一假设，即候选函数 \(f\) 是基函数的线性组合。
- 噪声方差已知或可估计：\(\tilde{C}_p\) 的计算需要知道噪声方差 \(\sigma^2\)。在实践中，通常用一个无偏估计（如饱和模型的残差方差）来替代。
- 用户期望是外生的：函数骨架 \(\mathcal{S}\) 和调优参数 \(\lambda\) 由用户预先指定，框架本身不提供自动选择 \(\mathcal{S}\) 或 \(\lambda\) 的方法。这是一个重要的局限性。

主要结果¶

本文是一个应用 / 方法型论文，其主要结果是通过几个例子来展示框架的实用性，而非提出新的统计定理。

自适应临床试验设计的样本量公式推导：
- 场景：在自适应临床试验中，样本量公式通常依赖于一些未知参数（如效应大小）。作者使用本文框架，将样本量公式视为一个函数，其输入是这些未知参数，输出是所需样本量。
- 方法：定义一个“可解释”的函数骨架（例如，一个简单的线性公式），然后使用 \(\tilde{C}_p\) 准则，从一组复杂的、高精度的公式（如通过模拟得到的公式）中，选择一个既接近骨架、又具有良好预测精度的公式。
- 结果：展示了一个例子，其中最终选出的公式在保持与复杂公式相近精度的同时，形式更简单（更可解释），便于临床医生理解和沟通。
贝叶斯Go/No-Go范式的操作特征解释：
- 场景：在贝叶斯Go/No-Go决策中，操作特征（如错误概率）是多个参数的复杂函数。作者希望用一个“有意义的中间变量”来解释这些操作特征。
- 方法：将操作特征函数投影到由“中间变量”（如后验概率）张成的函数骨架上，从而得到一个更易解释的近似函数。
- 结果：展示了如何通过一个简单的、基于中间变量的函数来近似复杂的操作特征，从而揭示决策规则的关键驱动因素。
Fisher精确检验的推广：
- 场景：将框架从连续结局推广到分类结局。以Fisher精确检验为例，其p值计算复杂，作者希望用一个更简单的函数来近似它。
- 方法：将p值视为样本量、效应大小等参数的函数，并使用类似的方法构建一个可解释的近似函数。
- 结果：展示了该框架的灵活性，能够处理非连续结局。
NHANES真实数据分析：
- 场景：使用NHANES数据，探究一些重要实验室测量指标（如血糖、胆固醇）之间的关系。
- 方法：将本文框架应用于多元回归，构建一个在预测精度和可解释性之间平衡的模型。
- 结果：展示了最终模型的形式，并讨论了其相对于全模型（高精度但复杂）和稀疏模型（高可解释性但可能欠拟合）的优势。具体结果（如模型形式、预测误差对比）在论文中给出。

证明路线与技术技巧¶

本文没有严格的数学证明。它是一个方法论框架，其“证明”是通过例子和论证来展示其有效性和合理性。

整体路线：
1. 定义问题：明确“可解释性”是主观的，需要用户参与定义。
2. 提出框架：引入“函数骨架”和“距离度量”来形式化可解释性。
3. 设计准则：提出修正的Mallows’s \(C_p\) 统计量 \(\tilde{C}_p\)，将可解释性作为惩罚项融入模型选择。
4. 展示应用：通过多个例子（临床试验、假设检验、真实数据）展示框架的通用性和灵活性。
5. 讨论扩展：讨论如何将框架推广到分类结局、如何处理高维数据等。
关键跳跃点：本文没有需要“攻克”的数学难点。其核心跳跃在于将“可解释性”这个主观概念，通过“函数骨架”和“距离度量”转化为一个可计算的惩罚项。这个跳跃是概念性的，而非技术性的。
技术技巧点名：
- Mallows’s \(C_p\) 统计量：作为模型选择的基础工具，用于平衡拟合优度与模型复杂度。
- 函数投影：计算 \(d(f, \mathcal{S})\) 时，需要将 \(f\) 投影到 \(\mathcal{S}\) 上。这通常是一个最小二乘问题，可以通过线性代数求解。
- 样条基展开：用于构建丰富的候选函数类 \(\mathcal{F}\)。

真实例子与应用¶

本文包含多个真实例子和应用，已在上文“主要结果”中详细描述。这些例子旨在说明： * 验证理论：展示框架能够产生在精度和可解释性之间取得平衡的结果。 * 展示相对 baseline 的优势：相对于仅使用经典 \(C_p\)（只关注精度）或强制使用骨架函数（只关注可解释性），本文的框架提供了一个连续的、可调优的折中方案。

🔎 结论是否比证明窄¶

是的。本文的结论（“通用、灵活且和谐的框架”）是基于几个精心挑选的例子得出的，而非严格的数学证明。论文中没有证明： * 对于任意用户定义的骨架 \(\mathcal{S}\) 和距离度量 \(d\)，\(\tilde{C}_p\) 准则都能保证找到最优的折中。 * 在何种条件下，\(\tilde{C}_p\) 选择的函数在统计意义上（如渐近最优性）优于其他方法。 * \(\tilde{C}_p\) 准则的统计性质（如一致性、相合性）。

论文的结论是通过例证而非证明得出的，其适用范围和局限性需要读者自行判断。论文在“讨论”部分也承认了这一点，并指出了一些未来工作方向。

四、开放问题¶

\(\tilde{C}_p\) 准则的统计性质：本文没有给出 \(\tilde{C}_p\) 准则的任何渐近性质（如模型选择一致性）。能否证明，在适当的条件下，最小化 \(\tilde{C}_p\) 能够渐近地选择出“最优”的折中函数？这扎根于论文对 \(\tilde{C}_p\) 的定义及其缺乏理论分析。
函数骨架 \(\mathcal{S}\) 和调优参数 \(\lambda\) 的自动选择：框架要求用户手动指定 \(\mathcal{S}\) 和 \(\lambda\)，这在实际应用中可能很困难。能否开发一个数据驱动的程序来自动选择 \(\mathcal{S}\) 和 \(\lambda\)？例如，通过交叉验证或贝叶斯方法。这扎根于论文“讨论”部分提到的未来工作。
与广义可加模型（GAM）的明确比较：如前所述，论文未引用GAM。一个开放问题是：本文的框架与GAM及其变体（如可加性稀疏模型）在理论和实践上究竟有何异同？在什么情况下，本文的框架比GAM更有优势？这扎根于论文引言中缺失的关键参考文献。
扩展到高维数据：当 \(p\) 很大时，候选函数类 \(\mathcal{F}\) 的维数会爆炸，导致计算困难。本文的框架如何处理高维问题？能否结合稀疏性假设（如LASSO）或降维技术？这扎根于论文“讨论”部分提到的未来工作。

Maintained by 陈星宇 · Homepage · Source on GitHub