Hunt and test for assessing the fit of semiparametric regression models¶

讲者: Rajen Shah
讨论人: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-12-02
主题: 因果推断
视频: https://youtu.be/PpSCauIpXr0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告讨论的是半参数回归模型的拟合优度（goodness-of-fit, GoF）检验问题，属于“模型诊断”这一经典但又不断被重新审视的子方向。该方向追问的核心是：当我们拟合了一个结构化的（通常是维数约化的）模型后，数据是否提供了拒绝这个模型的统计证据？ 如果拒绝，那么基于该模型得出的参数估计（如部分线性模型中的处理效应）将失去可靠的解释。

奠基与主流路线： - 经典非参数方法（Hardle & Mammen, 1993; Fan & Li, 1996; Gozalo & Linton, 2001 等）：通过比较非参数回归估计与模型拟合之间的差异来构造检验。其核心挑战在于：非参数估计需要选择带宽（通常需要欠平滑而非交叉验证），临界值往往依赖bootstrap，且对中等维度（p ≈ 10–20）效果不佳。 - 平滑样条方向（如 Fan & Jiang, 2005）：同样受带宽选择困扰。 - 基于RKHS的方向（Escanciano, 2024; Sancetta, 2022）：通过平均不同h下的 E[(Y−μ(f(X))) h(X)]² 来构造检验，避免单个h的选取，但计算量与理论分析较复杂。

当前frontier与讲者的位置： - 讲者的核心思想：借鉴并推广了他之前的工作——残差预测检验 (Residual Prediction Test, Shah & Bühlmann, 2018) 和 投影协方差度量 (Projected Covariance Measure, Lundborg et al., 2024)。这里的核心创新是：利用“Hunt and Test”样本分割（sample splitting）框架，可以将“寻找最有可能暴露模型缺陷的方向”这一步（Hunt）与“在独立样本上实施检验”（Test）彻底分离。Hunt阶段可以任意使用高灵活性机器学习方法（如随机森林、梯度提升树）来搜索信号，无需担心过拟合对检验水平的影响；Test阶段则通过一种正交化（debiasing）技巧来消除因第一阶段模型拟合误差带来的偏差，从而保证检验在零假设下的精确渐近水平。 - 类比于Double/Debiased Machine Learning (DML, Chernozhukov et al., 2018)的“Neyman正交性”，这里的正交化是为了消除拟合优度检验中关键偏差项，而非参数估计中的正则性偏差。 - 该工作线在当前文献中的地位：它提供了一个通用、无需带宽选择、无需bootstrap、能利用现代ML方法的GoF检验框架，涵盖广义加性模型（GAM）、部分线性模型（PLM）、变系数模型以及加性分位数回归模型。（注意：转写中 “Janková et al., 2020; Lundborg et al., 2024” 为投影协方差度量相关工作；“Shah & Bühlmann, 2018” 为高维线性模型的残差预测检验）

二、最小内核 / 一个最简例子¶

考虑最简单的 部分线性模型 (Partially Linear Model, PLM) 的拟合优度检验，这是报告中最清晰且与因果推断最直接相关的例子。

符号与模型设定（转写 [0:05:22]-[0:05:48]）： - 可观测数据：i.i.d. 样本 \(\{(Y_i, T_i, Z_i)\}_{i=1}^{2n}\)，其中： - \(Y_i\)：连续结果变量 - \(T_i\)：二元处理变量（0/1） - \(Z_i = (Z_{i1},..., Z_{ip})^{\top}\)：p维基线协变量 - 零假设（Null Hypothesis）：

\[H_0: \mathbb{E}[Y \mid T, Z] = \theta T + f(Z),\]

其中 \(\theta\) 是未知常数（平均处理效应），\(f \in \mathcal{F}\) 是某个可加函数类（如属于某个 Sobolev 空间或由光滑样条表示）。该零假设对应无处理效应异质性（homogeneous treatment effect）。 - 备择假设（Alternative）：

\[H_1: \mathbb{E}[Y \mid T, Z] = \theta T + f(Z) + \color{red}{s(T, Z)},\]

其中 \(s(T,Z)\) 是未知的交互项（例如 \(T \cdot g(Z)\)），表征了处理效应异质性。 - 核心推断目标：检验 \(H_0\) 是否与数据一致，而不需要对 \(s(T,Z)\) 的形式做任何参数假设。

最简特例 (d=1, 二值处理, n 较大)： - 设定：\(p=1\)（只有一个协变量 \(Z\)），\(T \in \{0,1\}\)，零假设为 \(\mathbb{E}[Y \mid T, Z] = \theta T + f(Z)\)（含未知函数 \(f\) 和常数 \(\theta\)）。 - 核心思想（转写 [0:12:14]-[0:13:20]）：将数据随机分成两等份 \(I_1\) 和 \(I_2\)。 1. Hunt（狩猎）阶段 - 在 \(I_1\) 上： - 先在 \(I_1\) 上拟合零模型，得到估计量 \(\tilde{\theta}\) 和 \(\tilde{f}\)。 - 计算残差 \(\hat{R}_i = Y_i - \tilde{\theta} T_i - \tilde{f}(Z_i)\)。 - 使用任意ML方法（例如随机森林）训练一个函数 \(\hat{h}: (T, Z) \to \mathbb{R}\)，使得 \(\hat{h}(T_i, Z_i)\) 与残差 \(\hat{R}_i\) 有正相关。这等价于“搜索一个最能暴露残差中信号的方向”。如果 \(H_1\) 成立，ML方法应该能够利用 \(T_i, Z_i\) 预测出 \(s(T_i,Z_i)\) 并体现在 \(\hat{h}\) 中。 2. Test（测试）阶段 - 在 \(I_2\) 上： - 在 \(I_2\) 上重新拟合零模型（得到 \(\hat{\theta}, \hat{f}\)）和“去偏化”的狩猎函数。 - 计算：

\[L_i = \left( Y_i - \hat{\theta} T_i - \hat{f}(Z_i) \right) \times \text{(debiased } \hat{h}(T_i, Z_i) \text{)}\]

并对 \(\{L_i\}_{i \in I_2}\) 进行t检验（均值/标准差 → 标准正态分布），若统计量超过1.64则拒绝 \(H_0\)（单侧检验）。 - 为什么需要“去偏化”（转写 [0:15:33]-[0:16:17]）：若直接使用 \(\hat{h}\) 而不去偏，测试指标 \(L_i\) 的期望会包含一个偏差项：

\[\mathbb{E}[L_i] \approx \mathbb{E}\left[ \left( \theta T_i + f(Z_i) - (\hat{\theta} T_i + \hat{f}(Z_i)) \right) \cdot \hat{h}(T_i, Z_i) \right],\]

由于 \(\hat{\theta}, \hat{f}\) 的估计误差，该偏差项不为零且量级为 \(O_P(n^{-1/2})\)，即使在零假设下也会导致检验严重膨胀（p值分布如图中所示严重向左偏）。“去偏化”的关键思想是：从\(\hat{h}\)中减去它在\(\mathcal{F}\)上的“可被零模型拟合的部分”的估计 \(\hat{m}_{\hat{h}}\)，使得新的函数 \(\hat{h} - \hat{m}_{\hat{h}}\) 与偏差项（如 \(\theta - \hat{\theta}\) 和 \(f - \hat{f}\)）近似正交，从而消除偏差。

三、报告主体：讲者讲了什么¶

[0:02:32 - 0:04:30] 动机与挑战 - 引子：“All models are wrong”。模型有用性的必要条件是数据不提供反对其假设的强证据。 - 指出GoF检验的效用不仅仅是判断对错，而是告诉你在什么样本量下应该转向更复杂的模型。 - 挑战： 1. 灵活模型（GAM, PLM）的拟合优度检验：如何区分“模型真的不符合数据”和“因为模型太灵活而天然会有一些残余拟合差异”？ 2. 多样化备择：不知道偏离会以什么具体形式出现（如复杂的T-Z交互）。 3. 现有方法的短板：依赖带宽选择（且需欠平滑）、bootstrap临界值、或对全变量X做经典非参数回归（不适用于中等高维）。

[0:04:39 - 0:09:13] 框架定位与现有基础 - 瞄准一个可扩展（scalable to moderate dimension）、无需bootstrap/欠平滑、可以利用ML工具的方法。 - 明确建立在三个先导工作上（幻灯片第4页）： - Shah & Bühlmann (2018): 高维线性/GLM模型的残差预测检验。 - Janková et al. (2020) & Lundborg et al. (2024): 投影协方差度量（用于非参条件均值独立性检验）。 - 讲者指出，即将展示的框架可以将投影协方差度量作为一个特例纳入。

[0:09:16 - 0:11:22] 一般框架 - 将零假设形式化（幻灯片第5页）：

\[H_0: \arg\min_{f} \mathbb{E}[\ell(f(X), Y)] \in \mathcal{F},\]

其中 \(\ell\) 关于第一个参数凸，\(\mathcal{F}\) 对逐点加法和数乘封闭。这一般形式可涵盖GAM, 分位数回归, 变系数模型。 - 本报告聚焦于特例（幻灯片第5页底部）：测试条件均值设定

\[H_0: \mathbb{E}[Y \mid X] = \mu(f^*(X)), \quad f^* \in \mathcal{F},\]

\(\mu\) 为可微的严格递增逆连接函数，对应GLM损失（如平方误差→恒等连接，二项→logit/probit）。 - 引出核心等式（幻灯片第6页）：

\[\mathbb{E}[\{Y - \mu(f^*(X))\} h(X)] = 0 \quad \text{对所有 } h.\]

这是构造检验的起点。

[0:12:14 - 0:13:49] Hunt and Test 框架概述 - 用2n个i.i.d.数据点，等分成两部分。 - Hunt (I1)：拟合零模型得\(\tilde{f}\)，寻找一个函数\(\hat{h}\)，使得\(\hat{h}(X_i)\)与残差\(Y_i - \mu(\tilde{f}(X_i))\)正相关。 - Test (I2)：拟合零模型得\(\hat{f}\)，计算

\[L_i = (Y_i - \mu(\hat{f}(X_i))) \, \hat{h}(X_i), \quad T_n = \frac{\frac{1}{\sqrt{n}} \sum_{i\in I_2} L_i}{\sqrt{\frac{1}{n}\sum_{i\in I_2} L_i^2 - (\frac{1}{n}\sum_{i\in I_2} L_i)^2}}.\]

若\(T_n > z_{0.95}\)则拒绝（单侧检验，因Hunt阶段保证了与信号正相关）。

[0:13:58 - 0:18:56] 测试阶段的技术核心：正交化 / 去偏 - 讲者解释了为什么直接使用\(\hat{h}\)会导致p值膨胀（幻灯片第7页，[0:14:45]-[0:15:40]）。用Cauchy-Schwarz论证：偏差项大致形如\(\mu'(f^*(X)) \{f^*(X) - \hat{f}(X)\}\)，其中\(\{f^* - \hat{f}\}\)属于函数类\(\mathcal{F}\)。 - 解决思路：令\(\hat{h}\)与“加权函数类” \(\mathcal{F}_w := \{ \mu'(f^*(\cdot)) f(\cdot): f \in \mathcal{F} \}\) 正交，即寻找 \(\hat{h} \in \mathcal{F}_w^\perp\)。 - 如何实现（幻灯片第8页，[0:16:23]-[0:18:20]）：定义投影算子 \(m_h(x) = \arg\min_{g\in\mathcal{F}} \mathbb{E}[\mu'(f^*(X)) (h(X) - g(X))^2 \mid h]\)，则 \(h - m_h \in \mathcal{F}_w^\perp\)。实证做法：在Test数据上，对\(\{(\hat{h}(X_i), \mu'(\hat{f}(X_i)))\}_{i \in I_2}\)做加权最小二乘回归（权重为\(\mu'(\hat{f})\)），得到\(\hat{m}_{\hat{h}}\)。最终检验用的函数是 \(\hat{h} - \hat{m}_{\hat{h}}\)。 - 经此处理后，检验统计量的偏差被降为两个预测误差的乘积（幻灯片第9-10页），在乘积阶数小于\(1/n\)时，检验具有正确的水平。

[0:19:02 - 0:26:46] 狩猎阶段的核心：最优Hunting - 目标：最大化检验在局部备择下的均值

\[\frac{\sqrt{n} \cdot \mathbb{E}[R \cdot (h(X) - m_h(X))]}{\sqrt{\text{Var}(R(h(X)-m_h(X)))}},\]

其中 \(R = Y - \mu(f^*(X))\) 为Oracle残差。 - 引理（幻灯片第11页，[0:20:55]-[0:22:00]）：最大化该均值等价于求解

\[\arg \min_{h \in \mathcal{F}_w^\perp} \mathbb{E}[R^2 (R^{-1} - h(X))^2] =: \pi_{\mathcal{F}_w^\perp}.\]

即，将 \(1/R\) (带权重 \(R^2\)) 在空间 \(\mathcal{F}_w^\perp\) 上做投影。 - 实际实现（幻灯片第12页，[0:22:53]-[0:25:57]）：因为直接投影到\(\mathcal{F}_w^\perp\)很困难，采用两步法： 1. “粗狩”（bulk hunting）：在全函数类G上做加权最小二乘回归（响应\(1/\tilde{R}\)，权重\(\tilde{R}^2\)），得到\(\hat{\pi}_G\)。这一步捕捉主要信号（思路类似利用ML找你的残差中能被X预测的成分）。 2. “精炼”（refinement）：使用另一次加权最小二乘回归，从\(\hat{\pi}_G\)中去掉属于“会被零模型解释”的那个部分（类似于投影到正交补的补），得到最终的\(\hat{h} = \hat{\pi}_G - \hat{\pi}_{\tilde{\mathcal{F}}_w}\)。 - 讲者强调（[0:25:57]-[0:26:08]），Hunt阶段完全可以使用任意ML方法（随机森林、梯度提升树等），因为Test阶段会做去偏并条件化\(\hat{h}\)。

[0:27:27 - 0:31:58] 理论结果 - 为简化理论，使用三折样本分割（一折找\(\hat{h}\)，一折找\(\hat{m}_{\hat{h}}\)和\(\hat{f}\)，一折计算检验统计量）。 - 定理1 (类型I误差控制)（幻灯片第14页）：假设对某三类误差E1, E2, E3满足 \(E_1 E_2 = o_P(n^{-1})\) 且 \(E_1 E_3 = o_P(n^{-1})\)，则在零假设下 \(T_n \xrightarrow{d} N(0,1)\)。“这三个误差是一类和另一类估计精度乘积低于\(1/n\)：只要你的Hunting和Null拟合都不太差，检验水平就被控制。” - 定理2 (功效)（幻灯片第15页）：在局部备择序列（\(\mathbb{E}[s(X)^2] \ge \epsilon_n, n\epsilon_n \to \infty\)）下，若Hunt阶段能以趋向1的概率使去偏后的\(\hat{h}\)与真实信号函数 \(s(X) = \mathbb{E}[Y|X] - \mu(f^*(X))\) 具有正相关性（\(\text{Corr}(s(X), \hat{h}(X) - m_{\hat{h}}(X) \mid \hat{h}) > \rho > 0\)，则检验功效趋于1。 - 讲者强调（[0:31:02]-[0:31:30]），正相关性条件是一个相对强的假设，但实证数据显示它对许多ML方法成立。

[0:31:36 - 0:40:13] 实证与案例 - 合成数据1：GAM的拟合优度（[0:31:40]-[0:36:00]）： - 连续与二元两种结果，p=10，零假设为加性模型。 - 使用grf（广义随机森林）进行Hunting，与Williamson et al. (2021)的预测性能比较方法对比。 - 结果：零假设下检验水平良好；随着交互项强度\(\tau\)增大，功效迅速上升至1。增加样本量时，由于信号强度按 \(1/\sqrt{n}\) 缩放，功效保持“恒定趋势”。 - 合成数据2：处理效应异质性（PLM）（[0:20:23]-[0:38:20]）： - 场景A：零假设为无任何异质性。结果与grf包中的异质性检验对比，性能相当。 - 场景B：零假设允许在Z3上的异质性（即部分线性模型中的部分“线性”放宽）。检验仍能检测到来自其他协变量Z5的异质性。 - 讲者指出后者是检验更灵活的零假设的例证。 - 合成数据3：加性分位数回归（[0:38:28]-[0:38:48]）：检验0.7条件分位数的加性结构，使用量级森林估计权重，分布覆盖Normal, Exponential, t3，均有不错效果。 - 真实数据：法国车险索赔（Poisson GAM）（[0:38:50]-[0:40:13]）： - 数据集：40万观测，p=11。 - 采用“数据中的自然实验”评估法：对整个数据拟合GAM，在GAM生成的模拟数据上检验校准情况；在不同大小的子样本上检验真实数据。 - 结果：在模拟数据上检验水平良好；对真实数据，随着子样本增大，拒绝率稳步上升，而Williamson方法则没有明显迹象。

[0:40:49 - 结束] 讨论与问答 - 讨论人Mats Stensrud（[0:45:06]-[0:53:40]）提问： 1. “拒绝后该怎么做？”：从决策导向的角度看，GoF检验应当与科学问题相关（如针对异质性检测是否能找出“有临床意义”的亚组）；拒绝后如何正确进行后续推断（后选择推断问题）。 2. 能否将Hunting导向特定方向？：比如限制Hunting函数族G，使检验对某些特征（如高阶交互或特定变量）更敏感。 3. Hunt/Test比例选择。 - 讲者回应（[0:53:40]-[0:58:05]）： - 理论上Hunting的空间G可以限制（幻灯片中也提到“给定一个函数类G”），从而做定向检验；但当前工作聚焦于全能（omnibus）检验。 - 可以通过构造单侧置信区间（基于检验的反向）来刻画效应大小，回答“偏差有多大”的问题。 - 对比例问题，建议使用他们之前的“Rank Transform Subsampling”方法（与Richard Guo合著），该方法通过聚合多分割显著淡化比例选择的影响。

四、对应论文与开放问题¶

(a) 对应论文 - 转写中未明确给出arXiv编号或期刊。合作者明确为 Aditya Dhawan（博士生）和 Richard Guo（前博士后，现密歇根大学）。幻灯片标题为“Hunt and test for assessing the fit of semiparametric regression models”。该工作的论文尚未被点明发表。 - 在上述背景下，转写中提及的依赖论文可作为背景参考： - Shah, R. D., & Bühlmann, P. (2018). Goodness-of-fit tests for high-dimensional linear models. JRSS Series B. - Lundborg, A. R., Shah, R. D., & Bühlmann, P. (2024). The projected covariance measure for conditional mean independence. JRSS Series B. - Janková, J., Shah, R. D., & Bühlmann, P. (2020). Goodness-of-fit tests for additive models via residual prediction. - 此外，转写提到 Rank Transform Subsampling 方法（[0:44:00]-[0:44:23]）是讲者与 Richard Guo 合作影响聚合随机性的已发表方法，具体论文名待查。

(b) 开放问题（每条扎根于转写语句） 1. 一般半参数模型的扩展（[0:58:34]-[1:00:25]）：当前框架能否扩展到检验更一般的半参数模型（如H0对应一个半参数统计模型）？讲者回答“正在研究”，并提到可能需要重新推导除加权最小二乘外的去偏化步骤。 2. Hunting函数的方向性（contextualized hunting）（讨论人Mats Stensrud提问 [0:50:23]-[0:52:35]）：能否设计Hunting步，使其引导检验对科学上有意义、决策相关的偏离（如可导致特定治疗规则改变的异质性）具有高功效，而非对所有偏离“一视同仁”？讲者回应“可能性存在，但当前为全能检验”。 3. 拒绝后的推断与GoF效应的置信区间（[0:54:58]-[0:55:25]）：如何从GoF检验过渡到量化“模型偏离程度”的置信区间？讲者提到正在研究构造单侧置信区间（基于检验的反转）。 4. Hunt/Test最佳比例（讨论人Mats Stensrud提问 [0:52:56]-[0:53:14]）：Hunt与Test阶段的数据分配并非显然。讲者回应其Rank Transform Subsampling方法能减轻该选择的影响，但尚未完全理论化。 5. Hunting阶段正相关性条件的可验证性（[0:31:02]-[0:31:30]）：定理2（功效）中假设了Hunt所得函数与真实信号的正相关性趋向于1。实证中如何检查或保障该条件是否成立？

Maintained by 陈星宇 · Homepage · Source on GitHub

Hunt and test for assessing the fit of semiparametric regression models¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论