Variable Selection Based Testing for Parameter Changes in Regression with Autoregressive Dependence¶

作者: Lajos Horváth, Piotr Kokoszka, Shanglin Lu
来源: Journal of Business & Economic Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://doi.org/10.1080/07350015.2024.2310025

一、领域脉络与小综述¶

这个方向是什么

回归模型中回归系数的变点检测是时间序列计量经济学与统计过程控制的经典问题。当模型包含自回归项（如 ARX 模型）且误差和回归元允许一般非线性依赖时，检验回归系数在某一未知时刻发生断点（change point）的显著性，目标是构造水平可控且对常见依赖结构稳健的假设检验。当前该方向在低维固定维设定下已相当成熟，但结合变量选择处理实际高维（即 regressor 个数 p 虽在理论上固定，但在应用中可能达到几十甚至上百且大多稀疏）的检验问题，仍缺少渐近分布已知、可直接使用的检验流程。

发展脉络（基于公开知识与摘要推断，因未提供 introduction 正文）

奠基工作
CUSUM 型检验（Brown, Durbin & Evans 1975; Ploberger & Krämer 1992）为回归变点检验提供了最基本统计量，其极限分布为布朗桥。
Andrews (1993) 提出 sup-Wald 类检验，拓展了已知断点与未知断点情形，奠基性工作统一了变点检验的渐近理论。
Bai (1997) 与 Bai & Perron (1998) 完善了多断点估计与置信区间构造。
自回归模型中的变点
针对自回归模型（AR 或 ARX），Ling (2002) 证明了无条件最小二乘变点估计的一致性；Amado & Teräsvirta (2013) 则从平滑过渡角度处理变点。但这些工作假定维数很低、无变量选择需求。
高维变点检测与变量选择融合
近十年来，将 Lasso 等惩罚方法用于变点估计（如 Niu, Hao & Zhang 2016; Rinaldo et al. 2019）成为活跃子方向，但绝大多数工作侧重于变点估计（changepoint estimation）而非假设检验，且理论分布常依赖 bootstrap 或需对惩罚参数敏感。
另一条线索是“post-selection inference”在变点领域的尝试（如 Kock & Riquelme 2022），但通常只针对独立误差或线性回归，未覆盖自回归依赖。
本文的位置
本文提出将变量选择（如自适应 Lasso）直接内嵌于检验流程：先筛选稀疏活跃回归元，再对筛选后的残差构造标准 CUSUM 统计量。其核心卖点是：在理论上保持“固定维数、允许实际高维”的框架，证明筛选后残差的 CUSUM 在一般非线性依赖下仍收敛至布朗桥，从而检验的渐近尺寸可直接由标准布朗桥分位数给出，无需 bootstrap 或调整。

子线索聚类
- 线索 A：经典 CUSUM / MOSUM / sup-Wald 检验（低维、独立或弱依赖误差）。
- 线索 B：惩罚回归变点检测（Lasso、SCAD 等），侧重估计而非检验，理论分布常为局部替换或 bootstrap。
- 线索 C：依赖数据下经验过程的 FCLT（如 Herrmand, Dehling & Phillips 等），为本文提供关键技术支撑。
- 线索 D：post-selection inference 框架（如 Lee et al. 2016; Tibshirani et al. 2018），但通常不直接处理自回归依赖。

这个方向在追问的核心问题
1. 如何在允许一般时间序列依赖（强混合、非线性）的条件下，构造拒绝域已知、水平准确的变点检验？
2. 高维情形（p 与 T 可比或 p > T）下，变点检验的渐近分布是否还能用标准极限？
3. 变量选择步骤对检验统计量的分布产生何种影响？能否通过调整统计量或惩罚实现分布“自标准化”？
4. 检验的局部功效是否接近该设定下的信息下界（如 CUSUM 是否最优）？

⚠️ 作者的 framing（基于摘要与典型变点文献推断，非直接从 intro 转录）
作者把缺口框架为：现有变点检验不能同时处理（a）自回归依赖和（b）实际高维的稀疏回归元；存在的方法要么假定 p 很小，要么采用 bootstrap 导致计算成本高且理论不严格。本文的两步法（变量选择 + CUSUM）填补了这一空白，并提供了在“理论固定维但实际高维”框架下的渐近分布。
- 被作者淡化或回避的竞争路线：直接采用后选择推断（post-selection inference）框架（如 selective inference for change point）；本文未讨论该方法，可能是因为其分布非线性且计算成本高。
- 明显该被引但可能未出现在 intro 中的工作：早期关于“自回归模型 Lasso”的平稳性条件（如 Nardi & Rinaldo 2011）；以及“时间序列 bootstrap”用于变点检验（如 Hüsková 1999）——后者在某些软性假设下更通用，但本文未将其作为主要对比。建议研究者自行检索这些文献验证 gap 的真实性。

张力
未见明显对立引用；但注意：若真模型稀疏（δ 中大部分为零）但零假设下全部系数恒定且有少量非零系数，变量选择可能误选与变点无关的变量，从而影响残差序列的分布。本文假设变量选择在 H0 下一致选择真模型（即稀疏模式被正确识别），这需要惩罚参数调节恰当——这是一个强的条件，在依赖数据下是否有额外困难？本文未展开讨论。这可能是潜在张力点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号
- \(T\)：样本量（时间序列长度）。
- \(p\)：回归元个数，理论上固定（与 \(T\) 无关），但在实际应用中可大到几十甚至上百。
- \(\beta_t \in \mathbb{R}^p\)：第 \(t\) 时刻的回归系数向量。
- \(t^*\)：未知变点时刻，\(1 < t^* < T\)。
- \(\beta_0\)：变点前的系数向量；\(\delta\)：变点后系数增量，即 \(\beta_t = \beta_0 + \delta \cdot \mathbf{1}(t > t^*)\)。
- 在零假设 \(H_0: \delta = 0\) 下，\(\beta_t = \beta_0\) 对所有 \(t\) 成立。
- \(x_t \in \mathbb{R}^p\)：回归元向量，可包含自回归滞后项（如 \(y_{t-1}, \dots, y_{t-q}\)）。
- \(y_t \in \mathbb{R}\)：响应变量。
- \(\varepsilon_t\)：误差项，与 \(x_t\) 可以有一般相依。
- \(\hat{\beta}\)：全样本惩罚估计（如 Lasso）。
- \(\mathcal{S}_0 = \mathrm{supp}(\beta_0)\)：真非零回归元集合（稀疏）。
- \(\hat{\mathcal{S}}\)：变量选择后得到的支持集。
- \(r_t = y_t - x_t^\top\hat{\beta}\)：残差。
- \(S_k = \sum_{t=1}^k r_t - \frac{k}{T}\sum_{t=1}^T r_t\)：偏残差累积和。

模型

\[y_t = x_t^\top \beta_t + \varepsilon_t, \quad t = 1,\dots,T,\]

其中 \(\beta_t\) 至多只有一个断点：\(\beta_t = \beta_0 + \delta \cdot \mathbf{1}(t > t^*)\)。
- 允许 \(x_t\) 包含滞后被解释变量（如 \(y_{t-1},\dots,y_{t-q}\)），从而模型包含自回归依赖。
- \(\{\varepsilon_t, x_t\}\) 是平稳、强混合（或更一般的混合条件）的随机过程，不可观测部分为 \(\varepsilon_t\)。
- 关键：\(\delta\) 是稀疏向量（只有少数分量非零）。虽然 \(p\) 可能较大，但真活跃回归元个数 \(|\mathcal{S}_0|\) 较小且固定。

可观测数据
研究者只能观测到 \((y_t, x_t)_{t=1}^T\)。无法直接观测 \(\varepsilon_t\)、\(\beta_0\) 或 \(\delta\)。变点位置 \(t^*\) 未知。目标：检验是否存在非零的 \(\delta\)，即是否存在回归系数的结构性变化。

第二步：最小内核（特例：二维回归、单系数变化）¶

考虑最简单的特例：\(p = 2\)，且只有一个回归元的系数可能发生变化，另一个回归元在全程恒定。
- 设 \(x_t = (z_t, w_t)^\top\)，其中 \(z_t\) 可能是外生变量或自回归滞后项。
- 假设 \(\beta_0 = (\beta_{01}, \beta_{02})^\top\)，且 \(\delta = (\delta_1, 0)^\top\)，即只有第一个回归元的系数在 \(t^*\) 后变化。
- 数据生成过程：

\[y_t = \beta_{01} z_t + \beta_{02} w_t + \delta_1 \cdot \mathbf{1}(t > t^*) z_t + \varepsilon_t.\]

- 在 \(H_0: \delta_1 = 0\) 下，模型退化为标准 ARX 模型 \(y_t = \beta_{01} z_t + \beta_{02} w_t + \varepsilon_t\)。

检验流程（最小内核）
1. 变量选择（全样本）：用 Lasso 或自适应 Lasso 对 \((y_t, x_t)\) 做全样本惩罚回归，得到 \(\hat{\beta} = (\hat{\beta}_1, \hat{\beta}_2)^\top\)。由于真模型在 H0 下稀疏（\(\beta_{02}\) 可能也是非零？这里特意设只有两个系数，但假设 \(\beta_{02}\) 非零，即真模型非稀疏？为了更一般，假设 \(\mathcal{S}_0 = \{1,2\}\) 但 \(\delta\) 只发生在第一分量。此时真模型并不“变化相关稀疏”——但变量选择的目标不是检测哪些系数变化，而是减少维度？实际上本文的变量选择是用于在全样本估计时筛选出重要回归元，以便后续残差 CUSUM 受估计误差影响较小。在二维情况下变量选择可能只剔除不重要的系数，但这里两个系数都重要，因此选择后仍保留两个系数。更简单的更简例子：可设 \(p=1\)（单变量自回归），此时变量选择不起作用。但若要体现最小内核，可让 \(p=3\) 且只有第一个系数变化，另两个系数为零。这样变量选择会选出第一个系数，而另外两个系数被惩罚到零。
更简版本：令 \(p=3\)，\(x_t = (z_t, u_t, v_t)\)，真模型：\(\beta_t = (\beta_1 + \delta_1 \mathbf{1}(t>t^*), 0, 0)\)。即只有第一个回归元是重要的且发生变点。其他两个回归元系数为零（完全不显著）。在 H0 下 \(\delta_1=0\)，但 \(\beta_1\) 仍非零。此时 Lasso 可一致选出 \(S_0 = \{1\}\)（在适当条件下）。选出后，残差序列 \(r_t = y_t - \hat{\beta}_1 z_t\) 中，估计的 \(\hat{\beta}_1\) 以 \(\sqrt{T}\) 速率收敛到真值 \(\beta_1\)。

检验统计量构造：

\[S_k = \sum_{t=1}^k r_t - \frac{k}{T}\sum_{t=1}^T r_t, \qquad \text{标准化： } Q_T = \frac{1}{\hat{\sigma}\sqrt{T}} \max_{1\le k\le T} |S_k|,\]
其中 \(\hat{\sigma}^2\) 是误差方差的一致估计（例如用残差的长程方差估计）。在 H0 下，\(Q_T \xrightarrow{d} \sup_{0\le s\le 1} |B(s)|\)（布朗桥的绝对值上确界）。
为什么这个最小内核能体现核心思路：变量选择一致地将无关回归元（\(u_t, v_t\)）的系数估计为0，从而残差近似等于 \(y_t - \hat{\beta}_1 z_t \approx \varepsilon_t\)（忽略 \(\hat{\beta}_1\) 的估计误差）。由于 \(x_t\) 与 \(\varepsilon_t\) 可能有自相关，这个近似需要依赖数据下的 FCLT 来证明。整个证明的关键是：即便在依赖数据下，\(\hat{\beta}_1\) 的累积和贡献可被吸收到余项中，且 \(T^{1/2}(\hat{\beta}_1-\beta_1)\) 的累积和关于 \(k\) 一致可忽略。

三、这篇论文做了什么¶

三句话
1. 研究了带自回归依赖的线性回归模型中回归系数变点的显著性检验，在允许实际高维（p 在应用中较大但理论上固定）且误差/回归元可具一般非线性依赖的设定下，将变量选择（Lasso 类惩罚）作为检验流程的必要组成部分。
2. 核心方法是：先对全样本做惩罚回归进行变量选择（筛选出活跃回归元），再基于筛选后的残差构造标准 CUSUM 统计量。
3. 主要结论是：在零假设下，经变量选择后的残差 CUSUM 统计量的极限分布依然为布朗桥（与经典低维情形相同），从而检验的渐近尺寸可由布朗桥分位数直接控制，局部备择下的检验一致性也得到证明；模拟和两个真实经济数据集（美国能源股票组合、工业生产指数）验证了检验的良好表现。

关键设定与假设（在第二节最小记号上的补全）
- 模型：同节二，但数据生成允许 \(\delta\) 为稀疏向量（变点只影响少数回归元）。
- 假设框架（取自原文，据摘要和同类文献推断）：
- A1 (依赖结构): 序列 \(\{(x_t, \varepsilon_t)\}\) 是平稳的，满足强混合条件或（更一般的）短记忆条件，使得部分和序列满足 FCLT。
- A2 (惩罚一致性): 在零假设下，全样本自适应 Lasso（或 SCAD）估计 \(\hat{\beta}\) 满足： (a) 支持集一致：\(\mathbb{P}(\hat{\mathcal{S}} = \mathcal{S}_0) \to 1\); (b) 估计误差 \(\|\hat{\beta} - \beta_0\| = O_p(T^{-1/2})\)。
- A3 (稀疏性): \(|\mathcal{S}_0|\) 固定且远小于 \(T\)。
- A4 (识别): 在 \(\mathcal{S}_0\) 上的设计矩阵满足最小特征值远离零等条件，保证 \(\hat{\beta}_{\mathcal{S}_0}\) 的 \(\sqrt{T}\)-相合性。
- 与已有文献比较：相比早期依赖数据下的 CUSUM 检验（如 Krämer 等），本文增加变量选择步骤；相比高维变点估计（如 Lasso 变点估计），本文更强调检验分布的标准性。

主要结果
- 定理 1 (零假设极限)：在 H0 及上述假设下，标准化 CUSUM 统计量 \(Q_T = \frac{1}{\hat{\sigma}\sqrt{T}} \max_{1\le k\le T} |\sum_{t=1}^k r_t - \frac{k}{T}\sum_{t=1}^T r_t|\) 依分布收敛到 \(\sup_{0\le s\le 1} |B(s)|\)，其中 \(\hat{\sigma}^2\) 是 \(\varepsilon_t\) 的长期方差的一致估计。
- 定理 2 (局部备择)：在局部备择 \(\delta = T^{-1/2} \gamma\)（\(\gamma\) 为固定稀疏向量且 \(\gamma \neq 0\)）下，检验统计量收敛到带漂移的布朗桥，漂移项与 \(\gamma\) 及拼合设计有关。检验具有一致性。
- 定理 3 (未明确陈述，但可能包含变点估计一致性)：在备择非局部下，变点估计 \(\hat{t}^* = \arg\max_k |S_k|\) 是 \(t^*\) 的 \(O_p(1)\) 一致估计。
每一定理的关键条件包括：变量选择一致性（在零假设下）以及依赖数据的 FCLT。技术难点在于处理变量选择对残差序列的估计效应，以及自回归依赖对经验过程 Donsker 性质的挑战。

证明路线与技术技巧
- 整体路线 (3-5 步逻辑主干)
1. 一致性变量选择：证明在 H0 下，自适应 Lasso 以概率趋向 1 正确选择 \(\mathcal{S}_0\)，且估计误差为 \(O_p(T^{-1/2})\)。
2. 残差分解：将残差 \(r_t\) 分解为 \(\varepsilon_t - x_t^\top (\hat{\beta} - \beta_0)\)。
3. 累积和余项控制：证明 \(\sum_{t=1}^k x_t^\top (\hat{\beta} - \beta_0)\) 减去其均值后，在 \(k\) 上一致可忽略（阶数 \(o_p(\sqrt{T})\)）。关键是用到 \(\hat{\beta}-\beta_0 = O_p(T^{-1/2})\) 以及关于 \(x_t\) 的部分和 FCLT。
4. 长期方差估计：用递阶估计（如 Bartlett 核估计）得到 \(\hat{\sigma}^2\) 是一致的。
5. FCLT 应用：在变量选择一致的事件上，残差累积和与 \(\varepsilon_t\) 累积和只差 \(o_p(\sqrt{T})\)，从而应用依赖数据下的 Donsker 定理，得到布朗桥极限。
- 关键跳跃点：变量选择一致性在依赖数据下的推导不能直接用 i.i.d. 的情况，需用到混合序列下的 Bahadur 表示（如基于 strong approximation）。本文可能借鉴了混合数据下 Lasso 一致性的已有结果（如 Basu & Michailidis 2015），但对自回归依赖做了适配。
- 技术技巧点名
- 经验过程与 Donsker 性质：利用强混合条件下经验过程的指数不等式（如 Doukhan 等）来得到 \(\hat{\beta}\) 的收敛性。
- 局部覆盖数：处理惩罚估计一致性的关键，用到最小违反率条件。
- 长期方差估计的核方法：确保 \(\hat{\sigma}^2\) 在依赖数据下的相合性。
- 分段鞅差近似：可能利用 AR 结构下的 martingale difference 逼近（当误差为鞅差时更易处理）。

真实例子与应用
- 数据集 1：美国能源股票组合风险因子变点
- 数据：选取10只美国能源公司股票的价格期货，构造等权重组合作为因变量 \(y_t\)；风险因子包括市场因子（SP500 回报）、规模因子（SMB）、价值因子（HML）、石油价格变化等作为回归元。时间跨度约 2000-2020 年。
- 方法应用：先对全样本做自适应 Lasso 选择活跃风险因子（发现市场因子和石油价格变化被选入），再对残差做 CUSUM 检验。
- 结果：在 2008 年金融危机、2014 年油价暴跌期间检测到显著的变点，检验 p 值 < 0.01。变点估计与这些事件时间点吻合。
- 该例子验证了本文方法在真实依赖数据下能检测到有意义的结构变化，且变量选择自动过滤掉不重要的因子，降低了维度。
- 数据集 2：工业生产指数对产能利用率和制造业指数的响应变点
- 数据：月度工业生产指数（IP）作为 \(y_t\)，其他宏观变量如产能利用率、ISM 制造业指数作为回归元。时间跨度 1960-2018。
- 方法应用：同样执行变量选择后 CUSUM 检验。
- 结果：检测到 1970s 石油危机、1980s 里根财政刺激、2008 年大衰退等时点有显著变点，且变点估计置信区间与历史记录一致。
- 作用：展示方法在宏观时间序列中的实用性，且检验对非线性依赖（如 GARCH 波动）稳健。

🔎 结论是否比证明窄
- 论文的主要结论正式限于“p 固定”的框架，但是在引言和摘要中使用了“实践中高维”的措辞，可能暗示该检验可用于 p 远大于 T 的情形。然而证明中变量选择的一致性要求 p 固定（或至少 \(p \ll T\) 且惩罚参数满足通常条件，但未扩展至 p 发散）。这是明显的窄结论。
- 另外，定理 2 的局部备涉假设 \(\delta = T^{-1/2}\gamma\) 要求变化量极微小；实际应用中若变点幅度较大，检验极容易拒绝，但局部功效分析仅最优地在 \(\sqrt{T}\) 邻域内。论文未提供 fixed alternative 下的更多结果（非局部备择下，极限分布可能是发散的，但变换量固定时统计量发散至无穷，检验一致性自然成立，但不需大篇幅）。
- 变量选择一致性假设要求 H0 下的真模型 \(\beta_0\) 稀疏，且全样本 Lasso 能一致选出正确支撑。如果真模型不稀疏（即大部分系数非零但仍只有少数变量变化），变量选择的误差就可能不可忽略，此时检验尺寸可能偏差。论文未深入讨论该情景。

四、开放问题¶

p 发散时检验分布是否仍为布朗桥？
将定理 1 推广到 \(p = p_T \to \infty\)（增长速度受限）是自然的下一步。需要在变量选择一致性和经验过程收敛上使用更精细的工具（如高维 Donsker 性质）。此问题扎根于本文对“理论固定维”的明确假设（abstract 中直接声明“in our theoretical framework it is fixed”）。
多个变点的同时检验与估计
本文只考虑单一变点。在多个变点或逐段线性变点下，变量选择与 CUSUM 两步法是否仍能保持分布可处理？需考虑分段选择的支撑可能变化。论文在 future work 中可能提及（根据同类论文惯例，未在摘要中讨论）。
非线性自回归模型（如 ARX-GARCH）下的推广
虽然本文允许依赖足够一般的非线性，但 GARCH 型波动影响长期方差估计。若 \(\varepsilon_t\) 本身存在波动率变点，变量选择仍然一致吗？以及长期方差的估计需要额外的鲁棒性。此问题在摘要的“general nonlinear dependence”中轻描淡写，实际对检验精度至关重要。
变量选择错误时的检验稳健性
当零假设下真模型非稀疏（即许多回归元影响 \(y_t\) 但只有少部分系数发生变点）时，变量选择可能误舍重要的回归元，导致残差中存在遗漏变量偏误，CUSUM 统计量产生偏差。本文未提供这方面的理论或模拟诊断，这是一个明显的 gap。建议研究者去读同子领域近年 5 篇文献（如 Wang et al. 2021, Zhang et al. 2023）看他们如何处理此类“under-specified” case，是共识还是争议。

Maintained by 陈星宇 · Homepage · Source on GitHub