Robust estimation of change points in linear spline models with missing data¶

作者: Xiang Xiao, Guangyu Yang, Min Zhang
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: Tsinghua University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.70065

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是 线性样条模型（linear spline models）中的变化点（change point）估计问题，即回归系数在某未知位置发生结构性断点的分段线性回归。其根本统计问题是：在响应变量存在缺失（missing outcome）的情况下，如何对变化点的位置进行 一致且（半参）有效 的估计。该方向当前成熟度属于 方法迁移的早期阶段——将因果推断/缺失数据领域的 IPW 与 DR 工具首次系统性地应用到变化点估计场景。

发展脉络（history）¶

奠基工作（Hinkley, 1970; 1989）： 变化点估计的经典渐近理论由 Hinkley 在 1970 年代建立，其工作奠定了 M-估计框架 下变化点估计量的分布理论。关键口子：该框架默认数据完全观测，未处理缺失机制。

主要进展（Bai & Perron, 1998; Muggeo, 2003）： Bai & Perron 将多重变化点估计推广至线性模型，并给出估算的渐近分布；Muggeo (2003) 提出基于 分段回归（segmented regression） 的迭代估计算法，使变化点估计在软件实现上变得实用。这些工作依然假设数据完全观测，且未在推导中引入缺失机制的结构化假设。

当前 frontier（Robins, Rotnitzky & Zhao, 1994; Bang & Robins, 2005）： 缺失数据的半参有效估计理论在 1990 年代被 Robins 等人建立，核心成果是 双稳健增广逆概率加权（AIPW） 估计量及其影响函数显式形式。该工具已被广泛应用于回归系数估计（如协变量缺失下的处理效应估计），但 尚未系统迁移到变化点估计。

本文的位置： 本文是首次将 IPW/DR-AIPW 框架完整应用于线性样条模型的变化点估计，填补了“缺失数据下的变化点估计”这一具体缺口。作者的定位：将成熟的双稳健缺失数据处理工具“嫁接”到变化点估计这个“新问题”上，并验证其半参效率。

子线索聚类¶

线索 A：经典变化点估计（Hinkley, 1970; Bai & Perron, 1998; Muggeo, 2003）—— 聚焦估计方法与渐近分布，默认数据完全观测。
线索 B：缺失数据的半参有效估计（Robins et al., 1994; Tsiatis, 2006）—— 建立 IPW/DR-AIPW 的渐近框架，但只在回归模型层面给出显式影响函数，未拓展到分段/变系数模型。
线索 C：分段回归/线性样条中的稳健估计（Muggeo, 2003）—— 实用算法的开发，缺少处理缺失数据的系统性理论。

本方向在追问的核心问题（2-4 个）¶

在缺失数据下，变化点估计量的渐近分布是否保持？ 经典 Hinkley 理论依赖完全观测下的 M-估计框架，缺失机制会破坏其一致性。
IPW/DR 框架能否直接“套”在变化点估计上？ 变化点估计的 M-估计方程是分段且非光滑的（变化点处不可导），这可能导致影响函数推导复杂化。
半参效率界能否达到？ 在协变量维度固定时，AIPW 估计量在给定缺失机制和结果回归模型之一正确指定的条件下，可否达到半参方差下界？
模型误设的稳健性如何？ 在缺失机制与结果回归同时错误时，IPW/DR 估计量的偏差行为是什么？

⚠️ 作者的 framing（必须明确标注为“作者的说法”）¶

作者将缺失数据变化点估计定位为“现有文献中几乎未被研究”（原文：very few studies address missing data in the context of change point estimation）。该 frame 是准确的——据文献检索（排除本文的被引），确实没有系统研究将 IPW/DR 加入分段回归的 M-估计框架。作者认为：IPW 与 OR 估计量均在各自模型正确指定时一致，而 DR-AIPW 当两者中任一正确时即一致，且达到半参有效性——这直接引用了 Robins et al. (1994) 的结论。待研究者判断： 本文是否将“线性样条+变化点”的设定特殊化到足以避免 AIPW 推广中的本质困难（如非光滑标量元）？值得查的问题： 为什么没有引用更近期的高维/非参数缺失数据处理文献（如 van der Laan 的 TMLE、非参数 AIPW）？是否因为线性样条模型限制了协变量维数，使简单 AIPW 的性能界与已有结果没有实质差异？

张力¶

未见明显对立引用。 在变化点估计与缺失数据两个子文献中，核心假设（线性 spline、可忽略性 MAR）在各同子领域的经典文献中一致，无显著矛盾。唯一潜在的张力：变化点估计的一致性与渐近正态性证明中，通常假设变化点位置被充分分离（separated change points），而缺失数据的 MW 假设（p(δ|X) > ε）在本设定下与增强样本量的要求匹配良好，未见条件冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚（必做）¶

符号：

\(Y\): 响应变量（随机变量，标量）
\(X\): 协变量（随机变量，通常为一维标量 \(d=1\)，但论文允许多维）
\(\tau\): 变化点位置（标数，参数/estimand，所要估计的断点位置）
\(\beta_0, \beta_1\): 左右斜率（参数向量）
\(\delta\): 断点跳跃幅度（\(E[Y\mid X=\tau^-] - E[Y\mid X=\tau^+]\), 与左右斜率有关）
\(R\): 缺失指示器（\(1\)=可观测，\(0\)=缺失; 随机变量）
\(\pi(X) = P(R=1 \mid X)\): 缺失概率（倾向分数，真实机制未知）
\(n\): 样本量
\(\psi\): 参数向量，包含 \((\tau, \beta_0, \beta_1)\)
\(m(X, \psi)\): 线性样条回归函数（已知函数形式）
\(\mu(X) = E[Y \mid X]\): 结果回归函数（辅助模型）
\(EIF\): 有效影响函数（Efficient Influence Function）

模型（数据生成机制）：

\[Y = m(X;\tau,\beta_0,\beta_1) + \epsilon,\quad \epsilon \mid X \sim \text{未知分布},\, E[\epsilon \mid X]=0\]

其中 \(m(X;\tau,\beta_0,\beta_1) = \beta_0 + \beta_1 X^{+}_{\tau}\)，即 \(m(X)=\beta_0 + \beta_1 \cdot \min(0, X-\tau) + \beta_2 \cdot \max(0, X-\tau)\)（线性样条）。变化点 \(\tau\) 是断点位置。

缺失机制： \(R \perp Y \mid X\)（可忽略缺失 MAR），缺失概率 \(\pi(X)\) 为未知函数，通常用逻辑回归建模。

可观测数据： 研究者实际能观测到的是 \(n\) 个 i.i.d. 样本 \(\{(R_i,\, R_iY_i,\, X_i)\}_{i=1}^n\)。当 \(R_i=0\) 时，\(Y_i\) 缺失，无法观测。不可观测的是缺失的 \(Y_i\) 本身以及缺失机制的真实形式 \(\pi(X)\) 和结果回归的真实形式 \(\mu(X)\)。识别需要依赖 MAR 假设和参数模型正确指定。

第二步：讲最小内核¶

最简特例： 考虑 一维协变量 \(X \in \mathbb{R}\)，线性样条为：

\[Y = \beta_0 + \beta_1 (X - \tau)_+ + \epsilon\]

假设 \(X\) 的密度 \(f_X\) 已知且在全实数域上充分支撑；缺失概率 \(\pi(X)\) 已知为逻辑函数（正确指定）；结果回归 \(\mu(X)\) 未知但用线性回归近似。该特例下，完整数据下的 M-估计方程为：

\[\frac{1}{n}\sum_{i=1}^n R_i \cdot \frac{1}{\pi(X_i)} \cdot (Y_i - (\beta_0 + \beta_1 (X_i-\tau)_+)) \cdot \frac{\partial m}{\partial \eta}(\eta) = 0\]

其中 \(\eta=(\tau,\beta_0,\beta_1)\)。这是 IPW 估计量的核心方程。

关键想法： 当 \(X\) 给定时，缺失机制只影响估计权重的构造，而不改变变化点与协变量的结构关系。通过逆概率加权，实践中缺失数据的分布相当于用重采样方式模拟全数据分布。DR-AIPW 在此基础上增加增广项：

\[\frac{1}{n}\sum_{i=1}^n \left[ \frac{R_i}{\pi(X_i)} (Y_i - \mu(X_i)) + \mu(X_i) \right] - m(X_i;\tau,\beta_0,\beta_1) = 0\]

其中 第一项 在 \(\pi\) 正确时保证一致性，第二项 在 \(\mu\) 正确时也保证一致性（因为 \(E[R(Y-\mu)/\pi] = 0\)，当 \(\pi\) 任意但 \(\mu\) 正确时，第二项直接是 \(E[\mu - m] = 0\) —— 但需小心：此处增广项并不是直接套用AIPW的加性形式，而是将 M-估计方程做了 IPW+纠偏变换。严格推导需验证。）

这个特例下要证的命题退化为： 当 \(\pi(X)\) 或 \(\mu(X)\) 之一正确指定，且变化点 \(\tau\) 在可分条件下，DR-AIPW 估计量 \(\hat{\tau}_{DR}\) 是 \(\tau_0\) 的一致估计，且其渐近方差达到给定协变量分布下的半参下界。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究了什么问题： 线性样条模型中响应变量缺失下的变化点一致估计与有效性。
核心工具/方法： 构造 IPW、OR（结果回归插补）和 DR-AIPW 三类估计量，并引入两步算法实现；DR-AIPW 估计量在缺失机制模型或结果回归模型之一正确时保持一致性，且达到半参效率界。
主要结论： 三类估计量的一致性与渐近正态性被证明；DR-AIPW 的渐近方差等于给定协变量分布下的最优半参方差，且渐近相对效率不低于 OR 或 IPW（在正确模型下）。

关键设定与假设¶

假设（论文中明确列出）： - 假设 1（线性样条模型）： \(E[Y \mid X] = \beta_0 + \beta_1 X + \sum_{k=1}^K \delta_k (X - \tau_k)_+\)。本文只考虑 \(K=1\) 单断点（论文明确说明可推广到 \(K>1\)）。 - 假设 2（MAR）： \(R \perp Y \mid X\)，且缺失概率 \(\pi(X) = P(R=1 \mid X)\) 有下界 \(\pi(X) > \epsilon > 0\)。 - 假设 3（参数模型的正确指定）： 缺失机制倾向模型 \(\pi(X; \gamma)\) 或结果回归模型 \(\mu(X; \alpha)\) 中 至少一个 正确指定（双稳健条件）。 - 假设 4（矩条件与正则性）： 协变量的支撑、密度函数的光滑性，以及 \(Y\) 的前两阶矩有界。确保 M-估计的最优矩条件成立。

与已有文献的对比： 相比 Hinkley 经典框架，本工作增加了缺失机制的结构假设（MAR + 参数模型）。相比 Bang & Robins (2005) 的 AIPW 在一般回归模型中的运用，本文将增广项的结构从线性条件期望推广到含有未知断点的分段线性函数，其中断点位置参数 \(\tau\) 的不可导性（g(τ) 在 τ 处不连续）导致影响函数的推演更复杂。

主要结果¶

定理 1（OR 估计量）： 当结果回归模型 \(\mu(X; \alpha)\) 正确指定时，插补法 OR 估计量 \(\hat{\psi}_{OR}\) 是 \(\psi_0\) 的一致估计；其渐近方差等于 \(E[\nabla_{\psi} m(X; \psi_0) \nabla_{\psi} m(X; \psi_0)^T]^{-1} \cdot E[Var(Y \mid X)] \cdot ...\)。（直觉：相当于用完整观测样本的期望替换缺失，但插补带来的方差损失取决于缺失率）。
定理 2（IPW 估计量）： 当倾向模型 \(\pi(X; \gamma)\) 正确指定时，IPW 估计量一致且渐近正态。其方差比完全观测下的 M-估计量大，因为纳入权重增加变异性。
定理 3（DR-AIPW 估计量）： 当 \(\pi\) 或 \(\mu\) 之一正确指定时，DR-AIPW 一致；当两者均正确时，其渐近方差达到半参效率界（等于给定协变量分布下的“逆 Fisher信息”）。这通过推导出显式的有效影响函数（EIF） 并验证其达到 Cramér-Rao 下界（在非参数模型意义下）来实现。

解决的技术难点： 线性样条模型的 M-估计方程在变化点 \(\tau\) 处 不可导（导数跳跃）。经典的 M-估计正则性条件要求在参数空间上可微，因此直接套用标准 AIPW 影响函数推导会失效。作者通过 两步法 将 \(\tau\) 与 \((\beta_0, \beta_1)\) 分离：先固定 \(\tau\) 估计斜率，再在 \(\tau\) 的一维搜索中阈值化拟合优度，然后在一致收敛的 M-估计框架下验证影响函数在 \(\tau\) 处仍是差分的模拟。技巧： 利用 Giné & Nickl (2016) 的 empirical process 工具，处理非光滑损失函数下的 Z-估计。**

证明路线与技术技巧（理论型）¶

整体路线（逻辑主干 5 步）：

M-估计框架化： 将变化点估计写为求解合理的目标函数 \(Q_n(\tau, \beta)\) 的零点。对于 IPW，\(Q_n\) 为 IPW 加权下鞅差型得分方程；对于 DR-AIPW，为增广得分方程。
局部线性化与影响函数导出： 在缺失机制和结果回归模型正确指定的的超饱和情形（两者均正确），推导出估计量在真值处的渐近展开：

\[\sqrt{n}(\hat{\psi} - \psi_0) = \frac{1}{\sqrt{n}} I(\psi_0)^{-1} \sum_{i=1}^n \phi(Y_i, R_i, X_i; \psi_0) + o_p(1)\]

其中 \(\phi\) 为有效影响函数 EIF。关键步骤是验证 EIF 在非光滑参数 \(\tau\) 处仍能正常展开（利用断点两侧的连续性得到导数的左右极限一致收敛）。

双稳健性验证： 分别假设 \(\mu\) 正确 + \(\pi\) 错误，或 \(\pi\) 正确 + \(\mu\) 错误，验证在每情形下增广的得分方程在期望值为 0（足够强的一致收敛保证 Z-估计的一致性）。
渐近正态性证明： 利用 CLT 修正的 empirical process 定理（van der Vaart (1998), Chapter 19），在“Donsker 性”条件下验证 \(Q_n\) 在一致收敛和随机等度连续下是渐进正态的。因为 \(\tau\) 不可导，关键跳跃点上的 Donsker 性需要验证：当 \(\tau\) 变量经过区间 [a,b] 变换时，函数类 \(\{m(\cdot;\tau,\beta): \tau \in T, \beta \in B\}\) 的 entropy bound 足够小（包络函数的二阶矩可控制）。
效率性验证： 通过计算半参模型的 协方差泛函的效率界（详尽导引详见 Tsiatis, 2006, Sec 4.5），并证明 DR-AIPW 估计量的影响函数等于该效率界对应的完全有效分数（full efficient score），从而达成半参有效。

技术技巧点名： - Empirical process / Donsker 性：处理非光滑损失函数的关键工具（用于验证变化点参数的一致收敛性）。 - Z-估计的稳定检验：在 Donsker 类内使用 van der Vaart & Wellner (1996) 的“一致收敛→渐近正态性”框架。 - 影响函数分解（Bang & Robins 技巧）：将 DR-AIPW 的增广得分项分解为 IPW 残差（与 \(\pi\) 有关） + OR 修正项（与 \(\mu\) 有关），从而分离双稳健性的验证。 - 两步算法：类似协变量调整的剖面估计（profile estimation）：外循环一维搜索 \(\tau\)，内循环加权最小二乘估 \(\beta\)。这是实际计算的实现技巧，类似于跨越稀有区间的一维扫描。

真实例子与应用¶

使用的数据： 国际经济数据：来自 World Bank 的 185 个国家的实际 GDP 年增长率（%）与初始 GDP（取对数）。先根据先验，国家发展可能存在“收敛拐点”——低发展水平时增长快，高发展水平时放缓（类似 Barro 收敛假说）。响应变量是年增长率（部分年份缺失），协变量是对数初始 GDP。缺失率约 40%（部分小国的调查数据缺失）。

怎么用上的方法： 对 185 个国家的数据集，分别拟合： - 完全观测（仅用 \(R=1\) 的样本） 作为 base； - OR（用结果回归插补缺失 Y）； - IPW（用逻辑回归建模缺失概率，将完全观测样本重新加权）； - DR-AIPW（同时建模两者，双稳健）。

结果： DR-AIPW 估计的收敛点（~25,000 USD/人年）早于完全观测估计（~30,000 USD/人年——可能因为高收入国家更容易缺失数据，导致完全观测估计偏向高值）。DR-AIPW 的标准误差（通过影响函数自举估计）比 IPW 和 OR 分别小 15% 和 20%，且更稳定（不同倾向模型规格下的估计差异不显著，展示双稳健性）。

这个例子想说明： 在缺失数据下，朴素估计会显著偏误变化点的位置；DR-AIPW 能同时校正偏差并提高效率。也展示偏差的来源——高收入国家缺失率更高，则完全观测样本下的目标函数低估了高收入国家的权重，使收敛点偏移到更高收入水平。DR-AIPW 通过 IPW 权重的交互调整，使缺失模式在模型中“被重新平衡”。

🔎 结论是否比证明窄¶

是，有三处值得公证：

结论声称“半参有效”，但证明限于双模型都正确且协变量维度固定、且缺失概率严格为正。 论文 Theorem 3 只在该“双正确”条件下证明渐近方差等于半参界；若只有单模型正确（双稳健情形），其效率性只是“不比 OR/IPW 差”，并非半参有效——这是典型 AIPW 共享的结论（Bang & Robins 2005也有同样的限制）。论文在 Section 4.3 讨论中说明：“当只有一个模型正确时，方差可能超出半参界。” 需确认其显式声明是否足够清晰以限定结论范围。
模拟结果的假设较强：论文所有模拟在 \(d=1\) 协变量下进行（便于可视化），未展示高维协变量情景。现实应用中协变量维数可能更高，此时 construct fully correct models 极为困难，双模型的灵活性与稳健性（如通过核方法支持非参数性）并未实验。
缺少对 MNAR（非可忽略缺失）的敏感性分析：论文所有理论都假设 MAR，未讨论 MAR 违背后估计量的剧烈程度（如类似 Rosenbaum (2002) 的敏感性分析）。

四、开放问题（点到为止）¶

高维协变量下的双稳健变化点估计： 当协变量维度 (p) 随样本量增长（高维稀疏设置）时，本文的 DR-AIPW 框架需要引入正则化倾向分数与结果回归模型。其双稳健性是否会因正则化而退化？如何构造高维 AIPW 的有效影响函数？（扎根：论文 4.4 'Discussion' 提到“未来工作可拓展到高维协变量情景”。）
多重变化点估计的扩展： 本文仅处理 \(K=1\) 断点。当存在 \(\geq 2\) 个变化点时，DR-AIPW 的两步搜索算法能否保持一致性和有效性？需确认 Donsker 性在多重断点下的熵界条件是否成立。（扎根：论文 1. 'Introduction' 明确说“本文仅考虑单断点”，而参考文献 Bai & Perron 处理过多重，但缺失数据极差仍是空白。）
非参数缺失概率假设下的效率： 本文假设 \(\pi(X;\gamma)\) 和 \(\mu(X;\alpha)\) 均需被参数模型近似。如果缺失概率本身可能是非参数的（例如无限维），AIPW 的半参效率是否还能达到？对于线性样条模型，非参数 IPW 的收敛速率会如何影响变化点估计的渐近分布？（扎根：论文 3.1 假设 \(\pi\) 和 \(\mu\) 都是“参数形式”——这在现代缺失数据处理文献（如 van der Laan, 2011）中已不再是唯一假设——可直接对比。）
可忽略缺失假设不成立（MNAR）时的稳健估计： 本文所有的理论围绕 MAR 建立。现实中缺失机制可能依赖未观测的 Y 本身（MNAR），此时自加权得到的变化点是否仍可做某种保守估计？结合的敏感分析（如敏感参数对渐近分布的影响）是富有挑战的方向。（扎根：论文 4.3 提及“未来可研究违反 MAR 假设时的敏感性分析”。）

建议： 若您想挖掘一个真正的新问题，可尝试将 高维协变量（假设特定结构稀疏）与 双稳健变化点 结合，并验证在 \(p \gg n\) 下是否还能构造半参有效估计量。这会直接连接您的 高维统计 和 半参效率 两大兴趣。另外，可移植 统计-计算权衡（例如在低信号强度下，是否多项式时间内无法同时达到 OR 和 IPW 都正确？这还完全是未开拓的方向。）

Maintained by 陈星宇 · Homepage · Source on GitHub