Hunt and test for assessing the fit of semiparametric regression models¶
讲者: Rajen Shah
讨论人: Mats Stensrud
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-12-02
主题: 因果推断
视频: https://youtu.be/PpSCauIpXr0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告讨论的是半参数回归模型的拟合优度(goodness-of-fit, GoF)检验问题,属于“模型诊断”这一经典但又不断被重新审视的子方向。该方向追问的核心是:当我们拟合了一个结构化的(通常是维数约化的)模型后,数据是否提供了拒绝这个模型的统计证据? 如果拒绝,那么基于该模型得出的参数估计(如部分线性模型中的处理效应)将失去可靠的解释。
奠基与主流路线: - 经典非参数方法(Hardle & Mammen, 1993; Fan & Li, 1996; Gozalo & Linton, 2001 等):通过比较非参数回归估计与模型拟合之间的差异来构造检验。其核心挑战在于:非参数估计需要选择带宽(通常需要欠平滑而非交叉验证),临界值往往依赖bootstrap,且对中等维度(p ≈ 10–20)效果不佳。 - 平滑样条方向(如 Fan & Jiang, 2005):同样受带宽选择困扰。 - 基于RKHS的方向(Escanciano, 2024; Sancetta, 2022):通过平均不同h下的 E[(Y−μ(f(X))) h(X)]² 来构造检验,避免单个h的选取,但计算量与理论分析较复杂。
当前frontier与讲者的位置: - 讲者的核心思想:借鉴并推广了他之前的工作——残差预测检验 (Residual Prediction Test, Shah & Bühlmann, 2018) 和 投影协方差度量 (Projected Covariance Measure, Lundborg et al., 2024)。这里的核心创新是:利用“Hunt and Test”样本分割(sample splitting)框架,可以将“寻找最有可能暴露模型缺陷的方向”这一步(Hunt)与“在独立样本上实施检验”(Test)彻底分离。Hunt阶段可以任意使用高灵活性机器学习方法(如随机森林、梯度提升树)来搜索信号,无需担心过拟合对检验水平的影响;Test阶段则通过一种正交化(debiasing)技巧来消除因第一阶段模型拟合误差带来的偏差,从而保证检验在零假设下的精确渐近水平。 - 类比于Double/Debiased Machine Learning (DML, Chernozhukov et al., 2018)的“Neyman正交性”,这里的正交化是为了消除拟合优度检验中关键偏差项,而非参数估计中的正则性偏差。 - 该工作线在当前文献中的地位:它提供了一个通用、无需带宽选择、无需bootstrap、能利用现代ML方法的GoF检验框架,涵盖广义加性模型(GAM)、部分线性模型(PLM)、变系数模型以及加性分位数回归模型。(注意:转写中 “Janková et al., 2020; Lundborg et al., 2024” 为投影协方差度量相关工作;“Shah & Bühlmann, 2018” 为高维线性模型的残差预测检验)
二、最小内核 / 一个最简例子¶
考虑最简单的 部分线性模型 (Partially Linear Model, PLM) 的拟合优度检验,这是报告中最清晰且与因果推断最直接相关的例子。
符号与模型设定(转写 [0:05:22]-[0:05:48]): - 可观测数据:i.i.d. 样本 \(\{(Y_i, T_i, Z_i)\}_{i=1}^{2n}\),其中: - \(Y_i\):连续结果变量 - \(T_i\):二元处理变量(0/1) - \(Z_i = (Z_{i1},..., Z_{ip})^{\top}\):p维基线协变量 - 零假设(Null Hypothesis):
最简特例 (d=1, 二值处理, n 较大): - 设定:\(p=1\)(只有一个协变量 \(Z\)),\(T \in \{0,1\}\),零假设为 \(\mathbb{E}[Y \mid T, Z] = \theta T + f(Z)\)(含未知函数 \(f\) 和常数 \(\theta\))。 - 核心思想(转写 [0:12:14]-[0:13:20]):将数据随机分成两等份 \(I_1\) 和 \(I_2\)。 1. Hunt(狩猎)阶段 - 在 \(I_1\) 上: - 先在 \(I_1\) 上拟合零模型,得到估计量 \(\tilde{\theta}\) 和 \(\tilde{f}\)。 - 计算残差 \(\hat{R}_i = Y_i - \tilde{\theta} T_i - \tilde{f}(Z_i)\)。 - 使用任意ML方法(例如随机森林)训练一个函数 \(\hat{h}: (T, Z) \to \mathbb{R}\),使得 \(\hat{h}(T_i, Z_i)\) 与残差 \(\hat{R}_i\) 有正相关。这等价于“搜索一个最能暴露残差中信号的方向”。如果 \(H_1\) 成立,ML方法应该能够利用 \(T_i, Z_i\) 预测出 \(s(T_i,Z_i)\) 并体现在 \(\hat{h}\) 中。 2. Test(测试)阶段 - 在 \(I_2\) 上: - 在 \(I_2\) 上重新拟合零模型(得到 \(\hat{\theta}, \hat{f}\))和“去偏化”的狩猎函数。 - 计算:
三、报告主体:讲者讲了什么¶
[0:02:32 - 0:04:30] 动机与挑战 - 引子:“All models are wrong”。模型有用性的必要条件是数据不提供反对其假设的强证据。 - 指出GoF检验的效用不仅仅是判断对错,而是告诉你在什么样本量下应该转向更复杂的模型。 - 挑战: 1. 灵活模型(GAM, PLM)的拟合优度检验:如何区分“模型真的不符合数据”和“因为模型太灵活而天然会有一些残余拟合差异”? 2. 多样化备择:不知道偏离会以什么具体形式出现(如复杂的T-Z交互)。 3. 现有方法的短板:依赖带宽选择(且需欠平滑)、bootstrap临界值、或对全变量X做经典非参数回归(不适用于中等高维)。
[0:04:39 - 0:09:13] 框架定位与现有基础 - 瞄准一个可扩展(scalable to moderate dimension)、无需bootstrap/欠平滑、可以利用ML工具的方法。 - 明确建立在三个先导工作上(幻灯片第4页): - Shah & Bühlmann (2018): 高维线性/GLM模型的残差预测检验。 - Janková et al. (2020) & Lundborg et al. (2024): 投影协方差度量(用于非参条件均值独立性检验)。 - 讲者指出,即将展示的框架可以将投影协方差度量作为一个特例纳入。
[0:09:16 - 0:11:22] 一般框架 - 将零假设形式化(幻灯片第5页):
[0:12:14 - 0:13:49] Hunt and Test 框架概述 - 用2n个i.i.d.数据点,等分成两部分。 - Hunt (I1):拟合零模型得\(\tilde{f}\),寻找一个函数\(\hat{h}\),使得\(\hat{h}(X_i)\)与残差\(Y_i - \mu(\tilde{f}(X_i))\)正相关。 - Test (I2):拟合零模型得\(\hat{f}\),计算
[0:13:58 - 0:18:56] 测试阶段的技术核心:正交化 / 去偏 - 讲者解释了为什么直接使用\(\hat{h}\)会导致p值膨胀(幻灯片第7页,[0:14:45]-[0:15:40])。用Cauchy-Schwarz论证:偏差项大致形如\(\mu'(f^*(X)) \{f^*(X) - \hat{f}(X)\}\),其中\(\{f^* - \hat{f}\}\)属于函数类\(\mathcal{F}\)。 - 解决思路:令\(\hat{h}\)与“加权函数类” \(\mathcal{F}_w := \{ \mu'(f^*(\cdot)) f(\cdot): f \in \mathcal{F} \}\) 正交,即寻找 \(\hat{h} \in \mathcal{F}_w^\perp\)。 - 如何实现(幻灯片第8页,[0:16:23]-[0:18:20]):定义投影算子 \(m_h(x) = \arg\min_{g\in\mathcal{F}} \mathbb{E}[\mu'(f^*(X)) (h(X) - g(X))^2 \mid h]\),则 \(h - m_h \in \mathcal{F}_w^\perp\)。实证做法:在Test数据上,对\(\{(\hat{h}(X_i), \mu'(\hat{f}(X_i)))\}_{i \in I_2}\)做加权最小二乘回归(权重为\(\mu'(\hat{f})\)),得到\(\hat{m}_{\hat{h}}\)。最终检验用的函数是 \(\hat{h} - \hat{m}_{\hat{h}}\)。 - 经此处理后,检验统计量的偏差被降为两个预测误差的乘积(幻灯片第9-10页),在乘积阶数小于\(1/n\)时,检验具有正确的水平。
[0:19:02 - 0:26:46] 狩猎阶段的核心:最优Hunting - 目标:最大化检验在局部备择下的均值
[0:27:27 - 0:31:58] 理论结果 - 为简化理论,使用三折样本分割(一折找\(\hat{h}\),一折找\(\hat{m}_{\hat{h}}\)和\(\hat{f}\),一折计算检验统计量)。 - 定理1 (类型I误差控制)(幻灯片第14页):假设对某三类误差E1, E2, E3满足 \(E_1 E_2 = o_P(n^{-1})\) 且 \(E_1 E_3 = o_P(n^{-1})\),则在零假设下 \(T_n \xrightarrow{d} N(0,1)\)。“这三个误差是一类和另一类估计精度乘积低于\(1/n\):只要你的Hunting和Null拟合都不太差,检验水平就被控制。” - 定理2 (功效)(幻灯片第15页):在局部备择序列(\(\mathbb{E}[s(X)^2] \ge \epsilon_n, n\epsilon_n \to \infty\))下,若Hunt阶段能以趋向1的概率使去偏后的\(\hat{h}\)与真实信号函数 \(s(X) = \mathbb{E}[Y|X] - \mu(f^*(X))\) 具有正相关性(\(\text{Corr}(s(X), \hat{h}(X) - m_{\hat{h}}(X) \mid \hat{h}) > \rho > 0\),则检验功效趋于1。 - 讲者强调([0:31:02]-[0:31:30]),正相关性条件是一个相对强的假设,但实证数据显示它对许多ML方法成立。
[0:31:36 - 0:40:13] 实证与案例
- 合成数据1:GAM的拟合优度([0:31:40]-[0:36:00]):
- 连续与二元两种结果,p=10,零假设为加性模型。
- 使用grf(广义随机森林)进行Hunting,与Williamson et al. (2021)的预测性能比较方法对比。
- 结果:零假设下检验水平良好;随着交互项强度\(\tau\)增大,功效迅速上升至1。增加样本量时,由于信号强度按 \(1/\sqrt{n}\) 缩放,功效保持“恒定趋势”。
- 合成数据2:处理效应异质性(PLM)([0:20:23]-[0:38:20]):
- 场景A:零假设为无任何异质性。结果与grf包中的异质性检验对比,性能相当。
- 场景B:零假设允许在Z3上的异质性(即部分线性模型中的部分“线性”放宽)。检验仍能检测到来自其他协变量Z5的异质性。
- 讲者指出后者是检验更灵活的零假设的例证。
- 合成数据3:加性分位数回归([0:38:28]-[0:38:48]):检验0.7条件分位数的加性结构,使用量级森林估计权重,分布覆盖Normal, Exponential, t3,均有不错效果。
- 真实数据:法国车险索赔(Poisson GAM)([0:38:50]-[0:40:13]):
- 数据集:40万观测,p=11。
- 采用“数据中的自然实验”评估法:对整个数据拟合GAM,在GAM生成的模拟数据上检验校准情况;在不同大小的子样本上检验真实数据。
- 结果:在模拟数据上检验水平良好;对真实数据,随着子样本增大,拒绝率稳步上升,而Williamson方法则没有明显迹象。
[0:40:49 - 结束] 讨论与问答 - 讨论人Mats Stensrud([0:45:06]-[0:53:40])提问: 1. “拒绝后该怎么做?”:从决策导向的角度看,GoF检验应当与科学问题相关(如针对异质性检测是否能找出“有临床意义”的亚组);拒绝后如何正确进行后续推断(后选择推断问题)。 2. 能否将Hunting导向特定方向?:比如限制Hunting函数族G,使检验对某些特征(如高阶交互或特定变量)更敏感。 3. Hunt/Test比例选择。 - 讲者回应([0:53:40]-[0:58:05]): - 理论上Hunting的空间G可以限制(幻灯片中也提到“给定一个函数类G”),从而做定向检验;但当前工作聚焦于全能(omnibus)检验。 - 可以通过构造单侧置信区间(基于检验的反向)来刻画效应大小,回答“偏差有多大”的问题。 - 对比例问题,建议使用他们之前的“Rank Transform Subsampling”方法(与Richard Guo合著),该方法通过聚合多分割显著淡化比例选择的影响。
四、对应论文与开放问题¶
(a) 对应论文 - 转写中未明确给出arXiv编号或期刊。合作者明确为 Aditya Dhawan(博士生) 和 Richard Guo(前博士后,现密歇根大学)。幻灯片标题为“Hunt and test for assessing the fit of semiparametric regression models”。该工作的论文尚未被点明发表。 - 在上述背景下,转写中提及的依赖论文可作为背景参考: - Shah, R. D., & Bühlmann, P. (2018). Goodness-of-fit tests for high-dimensional linear models. JRSS Series B. - Lundborg, A. R., Shah, R. D., & Bühlmann, P. (2024). The projected covariance measure for conditional mean independence. JRSS Series B. - Janková, J., Shah, R. D., & Bühlmann, P. (2020). Goodness-of-fit tests for additive models via residual prediction. - 此外,转写提到 Rank Transform Subsampling 方法([0:44:00]-[0:44:23])是讲者与 Richard Guo 合作影响聚合随机性的已发表方法,具体论文名待查。
(b) 开放问题(每条扎根于转写语句) 1. 一般半参数模型的扩展([0:58:34]-[1:00:25]):当前框架能否扩展到检验更一般的半参数模型(如H0对应一个半参数统计模型)?讲者回答“正在研究”,并提到可能需要重新推导除加权最小二乘外的去偏化步骤。 2. Hunting函数的方向性(contextualized hunting)(讨论人Mats Stensrud提问 [0:50:23]-[0:52:35]):能否设计Hunting步,使其引导检验对科学上有意义、决策相关的偏离(如可导致特定治疗规则改变的异质性)具有高功效,而非对所有偏离“一视同仁”?讲者回应“可能性存在,但当前为全能检验”。 3. 拒绝后的推断与GoF效应的置信区间([0:54:58]-[0:55:25]):如何从GoF检验过渡到量化“模型偏离程度”的置信区间?讲者提到正在研究构造单侧置信区间(基于检验的反转)。 4. Hunt/Test最佳比例(讨论人Mats Stensrud提问 [0:52:56]-[0:53:14]):Hunt与Test阶段的数据分配并非显然。讲者回应其Rank Transform Subsampling方法能减轻该选择的影响,但尚未完全理论化。 5. Hunting阶段正相关性条件的可验证性([0:31:02]-[0:31:30]):定理2(功效)中假设了Hunt所得函数与真实信号的正相关性趋向于1。实证中如何检查或保障该条件是否成立?
Maintained by 陈星宇 · Homepage · Source on GitHub