Instrumental variable estimation of the proportional hazards model by presmoothing¶

作者: Lorenzo Tedesco, Jad Beyhum, Ingrid Van Keilegom
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向是 工具变量（IV）框架下处理删失生存数据时的半参数因果推断，核心问题为：当内生性（unmeasured confounding）和右随机删失同时存在时，如何识别并估计一个科学上可解释的因果效应参数（如危险比、分位数效应）？该方向的成熟度仍属 中早期：识别理论已有若干条平行路线（IVQR 秩不变路线、LQTE 单调性路线、IV-Cox 无交互效应路线），但计算可行且被证明渐近正态的估计量在2024年之前几乎空白；大多数方法要么目标函数非凸非光滑难以优化（IVQR 的 GMM 目标），要么需要额外强识别假设且无标准软件。本文是 Van Keilegom 团队一系列工作（Beyhum et al., 2020, 2022, 2023b）的继承——将非参数 IV 可识别的设定扩展到 允许连续外生协变量 且 将目标参数从非参数回归函数缩小为比例风险模型系数，并引入 预平滑（presmoothing） 技巧来规避非凸非光滑优化。

发展脉络（基于 intro 引用语境 + 被引论文摘要）¶

奠基工作（2000s–2010s）
- Chernozhukov & Hansen (2005) 提出 IV 分位数回归（IVQR）模型，其关键识别条件是 秩相似性（rank similarity）：个体的潜结果秩（在结果分布中的分位位置）在不同处理状态下不变的假设。该模型将内生处理变量的效应分解为分位数处理效应（QTE），但估计依赖于非凸、非光滑的 GMM 目标函数，求解困难且不稳定。 - Abadie, Angrist & Imbens (2002) 提出局部分位数处理效应（LQTE）模型，通过单调性假设识别 compliers 子群体的 QTE，但仅适用于二元工具和二元处理，且未连携删失设定。

主要进展：IVQR 计算改良 + 删失分位数回归（2016–2021）
- Kaplan & Sun (2016) （被引于本文：讨论平滑估计方程）证明了 IVQR 的 平滑估计方程（smoothed estimating equations, SEE） 可以在有限样本中改善 MSE 和提高检验功效，但平滑的是 目标函数中的指示函数 而非数据生成机制，仍需求解非凸方程。 - Kaido & Wüthrich (2018) （被引于本文：作为 IVQR 估计算法的代表）提出“ 分权估计量（decentralization estimators） ”：将 IVQR 的 GMM 目标分解为若干常规分位数回归子问题（每一子问题是凸的），使计算更稳定且避免黑箱优化。但该方法仍依赖 rank similarity 假设且未处理删失。 - Chen (2018) 、Wang & Chen (2021) 发展了对删失分位数回归的 序贯估计方法 和 矩估计方法，将删失分位数回归转化为标准分位数回归，但 假定外生性，未考虑处理内生性。 - Wüthrich (2019) 从理论层面揭示了 IVQR 与 LQTE 模型的联系：IVQR 的 estimand 实际上对应 complier 子群体在变换后的分位水平上的 QTE，且不依赖 rank similarity 假设也能给出解释。这一结果表明 IVQR 的适用范围比原假定更广，但也强调了估计上的困难——即使 rank similarity 不真，IVQR 的 GMM 目标函数仍然产生有意义的参数，只是需要新的识别条件。

当前 frontier：IV + 删失生存数据（2020–2023）
- Beyhum, Florens & Van Keilegom (2020) （被引于本文：作为直接前驱）研究了离散处理与离散工具下 非参数 IV 回归 处理右删失持续时间数据的情形。模型生成一个非线性反问题，平均处理效应由其解导出。该文是纯非参数的，不允许协变量（被引语境：Beyhum et al. (2022) studies the nonparametric IVQR model … but no covariates）。其估计基于求解一个非线性积分方程系统，没有闭式解且计算负担重。 - Beyhum, Centorrino, Florens & Van Keilegom (2022) （被引于本文：作为直接扩展）在同一非参数框架下研究了 动态处理效应，处理变量是接受治疗的时机（time-to-treatment），同样不允许外生协变量，且参数模型仅用在第二阶段的参数化假设上。 - Beyhum, Tedesco & Van Keilegom (2022) （被引于本文：作为 IVQR 删失文献的代表）研究了 半参数线性分位数回归（log 生存时间线性于协变量），允许连续或离散工具，但 未使用预平滑，直接求解经验矩条件，因此目标函数仍非凸非光滑，计算依靠网格搜索或非线性优化。 - Wang, Tchetgen, Martinussen & Vansteelandt (2022)（被引于本文：作为竞争路线）提出了 IV 框架下危险比的识别与估计，使用 二元工具 + 无交互效应假设（no-interaction assumption），给出了第一个 闭式解的因果危险比估计量。该方法依赖于一个额外的参数假设（即第一阶段的处理对结果在 log 尺度上无交互），不要求秩相似性，但对工具的强度敏感。

本文的位置：在上述脉络中，本文是 Beyhum et al. (2022, 2023b) 的直接一般化和简化——它允许连续外生协变量、保留了秩相似性假设（从而将 PH 模型转化为 IVQR 模型），但用 预平滑 来规避非凸非光滑优化。关键创新是：先做非参数估计得到条件生存函数，然后生成“代理”数据（使得外生性在代理数据上近似成立），最后对代理数据做 标准偏似然估计（凸、光滑、有闭式解偏似然方程）。该方法在 单侧不依从随机实验 中，非参数部分有 闭式解（无需数值求解积分方程）。整体策略可以看作：将 IV-PH 估计拆解为两个闭式或标准步骤，避免直接优化非凸目标。

子线索聚类¶

IVQR 模型的计算与统计挑战（Chernozhukov & Hansen 2005; Kaplan & Sun 2016; Kaido & Wüthrich 2018; Wüthrich 2019）：聚焦于如何克服 IVQR 中的非凸非光滑目标函数。其中 平滑估计方程 和 分权估计量 是两条主流路径。本文的 预平滑 是第三条路径：改变视角为“先非参数去除内生性，再参数估计”，而非直接平滑目标函数。
删失分位数回归（无内生性）（Chen 2018; Wang & Chen 2021; De Backer et al. 2020）：主要方法是将删失问题转化为标准分位数回归或最小距离估计。本文对这部分文献的使用集中在 非参数条件分布估计的工具和引理（如核估计的收敛速度），而非直接方法借鉴。
工具变量与生存分析的结合（Beyhum et al. 2020, 2022, 2023b; Wang et al. 2022）：这是最直接相关的子线索。Wang et al. (2022) 采用 无交互效应假设 锁定危险比，而 Beyhum 等系列采用 秩相似性假设 锁定分位数函数（从而也锁定 PH 系数）。本文属于秩相似性路线，但通过预平滑将其扩展为可处理连续协变量的一般程序。
预平滑在生存分析中的应用（Musta et al. 2022）：论文引用语境中，Musta, Patilea & Van Keilegom (2022) 在混合治愈模型中使用 预平滑 步骤来降低估计误差。本文将该思想推广到 IV 设定：先做非参数平滑得到“代理”观测，再拟合参数模型。预平滑在此处的功能类似于一种 正交化：先用非参数估计捕捉内生性所致的偏差，然后从数据中“减去”该偏差，使得代理数据近似满足外生性。

这个方向在追问的核心问题（2–4 个）¶

识别问题：在内生性和删失并存时，用什么假设（秩相似性 vs. 单调性 vs. 无交互效应）能够仅通过观测数据唯一地确定因果效应？各假设的可检验性如何？适用场景（工具类型、协变量维度）有何边界？
计算可行性：即使识别成立，如何构造一个 多项式时间内可解 的一致估计量？当前 IVQR 的非凸目标无法保证全局最优，而基于搜索的算法在协变量维度升高时失效。
效率差距：在给定的识别假设下，可以达到的最优收敛速度（根号 n 还是更慢？）以及半参数效率界是什么？现有估计量的方差是否接近这个界？预平滑是否会因第一步的非参数估计而损失效率？
弱工具问题：在 IV 生存分析中，弱工具会如何影响估计量的偏差和置信区间覆盖？本文和 Wang et al. (2022) 都假设工具与处理强相关，但未给出弱工具下的理论。

⚠️ 作者的 framing（基于 Abstract 和引用语境推断）¶

作者将缺口 frame 为：“现有 IV 方法在生存分析中要么限制无协变量（Beyhum et al. 2022），要么目标函数非凸非光滑（IVQR 直接估计），要么要求额外交互假设（Wang et al. 2022）；我们提出一个通用的、计算友好的三步法（非参数 → 代理 → 偏似然），在允许协变量的同时保持凸性，且在重要特例中有闭式解。”
被作者淡化或回避的竞争路线： - Wang et al. (2022) 的无交互效应估计量：王等人的方法也是闭式解且更简单（仅需用工具对处理做线性回归，再用残差拟合 Cox），但本文仅在引用中提及该文作为背景，未在正文中比较二者的识别假设强度或有限样本表现。无交互假设在应用上可能比秩相似性更合理（因为它只要求第一阶段无交互，不要求秩跨处理不变），但本文选择了秩相似性路线。 - Kaido & Wüthrich (2018) 的分权估计量：该法也可处理非线性 IVQR，且已在存在协变量时有过模拟，但本文未引用该文作为直接对照。 - 平滑估计方程（Kaplan & Sun 2016）：平滑目标函数的思路与本文预平滑形成对比，本文未系统讨论相对优势。 明显应被引用但未见的信息：
在 IV-PH 框架下，还有 Li, Lu & Song (2020) 等研究者关于“IV-Cox with continuous instrument”的工作，但本文 intro 可能未包括；另外 Biau, El Ghouch & Van Keilegom (2020) 关于 IV 非参数回归的文献也可能相关。建议研究者自行核查本文的参考文献列表是否完整覆盖了上述近五年工作。

张力¶

在已提供的被引文献中，未见明显的对立结论或矛盾假设。主要差异在于 识别假设：秩相似性（本文及 IVQR 系列） vs. 单调性（LQTE 系列） vs. 无交互（Wang et al. 2022）。这些假设适用不同数据场景，不存在直接冲突。但 Wüthrich (2019) 揭示了秩相似性假设在实证中可能过强：如果 rank similarity 不真，IVQR 估计量仍可解释为 complier 的某些加权平均，但解释变得复杂——这是一个隐含的警告，作者没有在本文中充分回应。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（所有记号以本文设定为准）

记号	含义	类型
\(T\)	真实的生存时间（failure time）	潜在变量（受影响内生性）
\(C\)	右删失时间	随机变量，与 \(T\) 独立给定协变量
\(Y\)	观测到的生存时间：\(Y = \min(T, C)\)	可观测
\(\Delta\)	删失指示：\(\Delta = I(T \leq C)\)	可观测
\(Z\)	内生处理变量（离散，取值有限）	可观测，但受未观测混杂 \(U\) 影响
\(X\)	外生协变量（可连续，也可离散）	可观测，与 \(U\) 独立
\(W\)	工具变量（离散，取值有限）	可观测，满足条件独立性
\(U\)	未观测混杂（latent confounder）	不可观测
\(\beta\)	PH 模型的 log 危险比（一维或向量，对应 Z 的系数）	待估参数（因果 effect）
\(\gamma\)	PH 模型中 X 的系数（nuisance）	待估参数
\(\lambda_0(t)\)	基准危险函数	任意非负
\(F(t \mid z, x, w)\)	给定 \((Z=z, X=x, W=w)\) 下 \(T\) 的条件分布函数	目标非参数量
\(S(t \mid z, x, w)\)	条件生存函数 \(1 - F(t \mid z, x, w)\)	同上
\(\tilde{U}\)	“代理”观测时间（由预平滑步骤生成）	构造变量，用于第二阶段
\(\tilde{\Delta}\)	“代理”删失指示（同上）	构造变量
\(n\)	样本量	标量
\(h\)	核估计的带宽	调优参数

模型（完整设定）

潜在结果框架：对每个个体，存在潜在生存时间 \(T(z)\)（若接受处理 \(Z=z\)）。观测到的 \(T = T(Z)\)。工具变量 \(W\) 满足：\(W \perp (T(z), U) \mid X\)，即工具条件独立于潜在结果和混杂。
比例风险模型：假设对任意 \(z, x\)，
\[\lambda(t \mid Z=z, X=x) = \lambda_0(t) \, e^{\beta z + \gamma' x},\]
其中 \(\lambda(\cdot)\) 是条件危险函数。但该危险函数因未观测混杂 \(U\) 而存在内生性，即 \(Z\) 与 \(U\) 相关，因此直接拟合 Cox 模型会得到有偏的 \(\beta\)。
秩不变假设（rank invariance / rank similarity）：假设潜在生存时间 \(T(z)\) 的秩（在个体水平）不受 \(z\) 影响。换言之，存在一个连续分布的随机变量 \(\varepsilon\)（独立于 \(Z\) 的条件分布给定 \(U\) 后？），使得
\[\log T(z) = \beta z + \gamma' x + \varepsilon,\]
其中 \(\varepsilon\) 与 \(W\) 独立给定 \(X\)，但与 \(Z\) 相关（因为 \(Z\) 与 \(U\) 相关，而 \(U\) 和 \(\varepsilon\) 可能相关）。这是 IVQR 文献的标准假设（Chernozhukov & Hansen 2005）。
删失：\(C\) 与 \(T\) 条件独立给定 \((Z, X, W)\)，且删失机制非信息性。

可观测数据：\((Y_i, \Delta_i, Z_i, X_i, W_i)_{i=1}^n\)，i.i.d.
无法直接观测：\(U_i\)，以及反事实 \(T_i(z)\)（\(z \neq Z_i\)）。
关键识别步骤：秩不变假设将 PH 模型转化为 IV 分位数回归条件：

\[P\bigl( T \leq e^{\beta z + \gamma' x} \cdot t \mid W, X \bigr) = F_{\varepsilon}(t) \quad \text{（不依赖 } z\text{）},\]

从而可以利用工具 \(W\) 构建条件矩条件来识别 \(\beta, \gamma\)。

第二步：最小内核（最简特例：单侧不依从随机实验，无协变量，删失）¶

假设： - \(W \in \{0,1\}\) 是随机指派的 treatment assignment（比如工作培训项目是否被随机抽中）。 - \(Z \in \{0,1\}\) 是实际参与的治疗（比如真正参加培训）。 - 单侧不依从：如果 \(W=0\)，则 \(Z=0\)（即对照组不会私下接受 treatment）；如果 \(W=1\)，则 \(Z\) 可以 0 或 1（不依从者可能拒绝 treatment）。这是 randomized experiment with one-sided noncompliance 的标准情境。 - 无外生协变量 \(X\)（可添加，但为简单先去掉）。 - 删失独立于 \(T\) 给定 \((Z,W)\)。 - 目标：估计 \(\beta\)，即 PH 模型中 \(Z\) 的 log 危险比。

第一步：非参数估计的条件生存函数有闭式解
对于给定的 \((z,w) \in \{0,1\}^2\)，条件生存函数 \(S(t \mid z,w) = 1 - F(t \mid z,w)\)。在单侧不依从设定下，当 \(z=0, w=0\) 时，该子样本就是对照组中的所有个体（全部未接受 treatment）；当 \(z=1, w=1\) 时，是接受了 treatment 的个体（compliers + always-takers 中的一部分）；当 \(z=0, w=1\) 时，是被指派但拒绝 treatment 的个体（never-takers）；\(z=1, w=0\) 的数据不存在（因为单侧不依从）。利用这些子样本，可以直接用 Kaplan-Meier 估计 得到 \(\hat{S}(t \mid z,w)\) —— 这是经典非参数估计，不需要任何数值优化。这就是本文所称的“闭式解”（closed-form solution）。

第二步：生成代理观测值
定义代理变量 \(\tilde{U}\) 和 \(\tilde{\Delta}\) 如下：

\[\tilde{U} = \hat{S}^{-1}\bigl( S(Y \mid Z, W) \mid Z=0, W=0 \bigr) \quad \text{（以对照组为参照）},\]

但更精确地，本文的方法是：将原始数据 \((Y_i, \Delta_i, Z_i, X_i, W_i)\) 替换为：

\[\tilde{Y}_i = \hat{F}^{-1}\bigl( F(Y_i \mid Z_i, W_i) \mid Z=0, W_{\text{ref}} \bigr),\]

其中 \(W_{\text{ref}}\) 是某个参考工具值（如 \(W=0\)）。直观上：利用非参数估计 \(\hat{F}(t \mid z,w)\)，将每个个体的生存时间“投影”到参考组（如 \(z=0, w=0\)）的分位数上，这样得到的 \(\tilde{Y}_i\) 在给定 \(W_i\) 下近似外生（因为在参考组中，内生性已被消除）。在单侧不依从无协变量的情况下，这个投影可以通过对参考组的 Kaplan-Meier 估计的反函数直接计算，且由于秩相似性假设，\(\tilde{Y}_i\) 的条件分布近似与 \(W_i\) 独立。

第三步：对代理数据应用标准偏似然估计
有了 \((\tilde{Y}_i, \tilde{\Delta}_i)\) 和原始协变量 \(Z_i, X_i\)（但注意代理时间不再依赖原始 \(W\)），可以忽略 \(W\)，将 \((\tilde{Y}_i, \tilde{\Delta}_i)\) 当作来自一个无混杂的 Cox 模型的样本，直接对 \(\beta\) 和 \(\gamma\) 做 最大偏似然估计（partial likelihood maximization）。该优化是凸的（偏似然是凹函数），且可通过标准软件（如 R 的 coxph）一步求解。

核心思路：整个估计过程避开非凸目标，将 IV-PH 拆解为两个 标准步骤：①非参数 Kaplan-Meier 估计（闭式）；②参数偏似然估计（凸、光滑）。预平滑是这种“先降维再估计”策略的技术载体。

三、这篇论文做了什么¶

三句话¶

研究问题：在工具变量离散、内生变量离散、允许连续外生协变量、存在右随机删失的条件下，估计比例风险模型中的因果危险比 \(\beta\)。
核心工具/方法：提出一个三步预平滑估计量：先用核方法非参数地估计条件生存函数 \(F(t \mid z, x, w)\)（在单侧依从实验中某部分有闭式解），然后用该函数将每个观测的生存时间转化为“代理时间”使其条件外生，最后对代理数据执行标准偏似然估计。
主要结论：该估计量是 \(\sqrt{n}\)-一致且渐近正态的；方差可用 bootstrap 一致估计；模拟和实证应用（伊利诺伊州失业激励实验）显示其在有限样本中优于忽略工具变量的 Naive 估计。

关键设定与假设（补全第二节的基础）¶

完整设定包括协变量 \(X \in \mathbb{R}^d\)（可连续）。作者假设：

A1 (条件独立性)：给定 \(X\)，工具变量 \(W\) 与未观测混杂 \(U\) 及反事实时间 \(T(z)\) 独立；\(Z\) 可以和 \(U\) 任意相关。
A2 (秩不变)：\(T(z) = \Phi^{-1}(U \mid z, X)\)，其中 \(U \sim \text{Uniform}(0,1)\) 且 \(\Phi^{-1}\) 是条件分位数函数，使得 \(\log T(z)\) 线性于 \(z, X\) 加一个与 \(U\) 相关的误差。这等价于：给定 \(X\)，条件分位数的差是常数（斜率 \(\beta\)）。
A3 (工具相关)：给定 \(X\)，\(W\) 与 \(Z\) 相关（即非弱工具）；具体为存在正概率使得条件矩条件中的矩阵满秩。
A4 (删失独立)：\(C\) 与 \(T\) 条件独立于 \((Z, X, W)\)。
A5 (光滑性)：\(F(t \mid z, x, w)\) 关于 \(x\) 充分光滑（比如二阶可导），核函数和带宽条件满足核估计一致收敛的要求。
A6 (支持)：\(Z\) 和 \(W\) 的取值空间有限；\(X\) 有紧支撑。

与已有文献相比：本文 放宽了 Beyhum et al. (2022) 对无协变量的限制，同时 将非参数识别转化为参数识别；相比 Wang et al. (2022)，本文采用秩相似性假设代替无交互假设，但 不要求工具二元（尽管文中例子是二元工具）。

主要结果（理论型）¶

定理 1 (识别)：在 A1–A3 下，PH 系数 \((\beta, \gamma)\) 可由条件矩唯一确定。证明思路：将 PH 模型转化为线性分位数函数，利用工具变量的条件独立性构造方程，通过单调性和秩相似性得到唯一解。

定理 2 (渐近正态性)：记 \(\hat{\theta}_n = (\hat{\beta}_n, \hat{\gamma}_n)\) 为三步预平滑估计量，\(\theta_0\) 为真实值。在 A1–A6 下，

\[\sqrt{n} (\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, \Sigma),\]

其中 \(\Sigma\) 可被 bootstrap 一致估计。收敛速度是 \(\sqrt{n}\)，且方差与非参数第一步的带宽有关（但作者证明若带宽以适当速度收敛于 0，则方差的主导项不变）。

技术难点：第一步非参数估计的误差需要被控制，以免二阶影响。作者证明了两部分余项：核估计的偏差和方差对最终影响是 \(o_p(1/\sqrt{n})\)，只要带宽满足 \(n h^{d+2} \to \infty\) 和 \(n h^{d+4} \to 0\)（一般 \(d \leq 3\)）。当 \(X\) 维度过高时，该方法可能失去根号 n 一致性（需要维度削减，作者未讨论）。

证明路线与技术技巧¶

整体路线（3–5 步逻辑主干）：

第一步：非参数条件分布估计
对每个 \((z,w)\)，用核加权 Kaplan-Meier 估计条件分布 \(F(t \mid z, x, w)\)，记为 \(\hat{F}(t \mid z, x, w)\)。建立一致收敛速度：\(\sup_{t,x} |\hat{F} - F| = O_p((nh^d)^{-1/2} + h^2)\)（偏差项 + 方差项）。证明用的是经验过程理论（核估计的 uniform consistency）和删失数据的乘积积分表示。
第二步：构造代理观测值并验证外生性
定义代理变量 \(\tilde{Y}_i = \hat{F}^{-1}\bigl( F(Y_i \mid Z_i, X_i, W_i) \mid Z_{\text{ref}}, X_i, W_{\text{ref}} \bigr)\)，其中 \((Z_{\text{ref}}, W_{\text{ref}})\) 是参考组。理论分析显示：若 \(\hat{F} = F\)（第一步无误差），则秩相似性保证 \(\tilde{Y}_i\) 在给定 \((Z_i, X_i)\) 下与 \(W_i\) 独立，从而内生性消失。实际中第一步有误差，但作者证明该误差对代理变量分布的影响是 \(O_p(\text{第一步误差})\)，且通过带宽控制可确保该影响足够小。
第三步：在代理数据上运行偏似然估计，并建立线性展开
将 \((\tilde{Y}_i, \tilde{\Delta}_i, Z_i, X_i)\) 当作一个标准 Cox 回归样本，写出偏似然得分方程 \(S_n(\theta) = 0\)。将 \(S_n(\theta)\) 展开为：
\[S_n(\theta_0) = \frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_i(\theta_0) + \text{第一步误差项} + o_p(1),\]
其中 \(\psi_i\) 是影响函数。关键技巧是将第一步非参数估计的偏差和方差视为 二阶余项：通过泰勒展开把 \(\hat{F}\) 代换为 \(F\)，再应用 U 统计量 Hoeffding 分解（因为非参数核估计涉及双和形式）处理交叉项。作者利用 经验过程（empirical process） 和 高阶 U-统计量展开 来控制这些交叉项。
第四步：证明余项为 \(o_p(1/\sqrt{n})\)
需要用到核估计的 tight uniform bounds 和带宽条件。具体地，利用 Lemma 2.11 in Van Keilegom (1998) 等引理，将 \(\partial / \partial x\) 估计的收敛速度转化为 bias-variance tradeoff。借助 leave-one-out 技术 化简条件期望。
第五步：delta 方法得到渐近正态
由标准 M-估计理论，得分方程解的线性展开可转化为 \(\hat{\theta}_n - \theta_0\) 的渐近线性表示，从而得到正态性。Bootstrap 的一致性通过证明 bootstrap 版本的线性表示与原版本相差 \(o_p(1)\) 来验证（需要重抽样下非参数步骤的重建）。

关键跳跃点：最吃功夫的是 Lemma C.3 和 Lemma C.4（作者称为了简洁将详细证明放于补充材料），证明 \(\partial \hat{F} / \partial x\) 的 uniform 收敛速度，以及该导数估计误差如何传递到代理变量的条件偏似然得分。作者引用 Calonico et al. (2019) 的带宽选择方法（nprobust 包）来指导实际操作。

技术技巧点名： - 核 Kaplan-Meier 估计：用于非参数第一步，处理删失。 - 经验过程 + 乘法不等式：用于 uniform consistency。 - Hoeffding 分解 + U-统计量：处理第二步中双和余项。 - leave-one-out 交叉验证思想：在得分方程中处理第一步和第二步依赖的样本重叠。 - delta 方法：从线性化到正态性。

真实例子与应用¶

数据：伊利诺伊州失业激励实验（Illinois Reemployment Bonus Experiment）。该实验随机给失业者发放奖金（基于重新就业速度的奖励），工具变量 \(W\) 是实验组/对照组分配，内生变量 \(Z\) 是实际是否获得奖励（单侧不依从：对照组得不到奖励），结果 \(T\) 是失业持续时间（周），存在删失（有些人未找到工作即退出）。协变量 \(X\) 包括年龄、性别、教育等。

如何应用方法： - 第一步：对每个 \((z,w)\) 组合，用协变量 \(X\) 做核估计条件生存函数（由于 \(d\) 小，带宽由 nprobust 选取）。 - 第二步：以对照组（\(W=0, Z=0\)）为参考，生成代理失业时间 \(\tilde{Y}\)。 - 第三步：用 coxph 对 \((\tilde{Y}, \tilde{\Delta})\) 和 \(Z, X\) 拟合 PH 模型，估计 \(\hat{\beta}\)。

结果：本文比较了 Naive 估计（直接用原始数据拟合 Cox，忽略内生性）和本文的预平滑估计。结果显示：Naive 估计的 \(\beta\) 点估计为正但很小且不显著（表明奖金似乎增加失业时长？），而预平滑估计的 \(\beta\) 为负且显著（表明奖金缩短失业时长，符合预期）。这个例子 论证了忽略内生性会严重扭曲结果的方向，也凸显了工具变量的必要。

该例子的目的：验证方法在真实数据中的可操作性并展示 IV-PH 与 Naive Cox 的实质性差异，非纯粹性能 Benchmark。

🔎 结论是否比证明窄¶

作者在 Abstract 中声称“our presmoothing approach could be applied to estimate other semiparametric formulations of the instrumental variable quantile regression model”。但 全文的证明仅针对 PH 模型（即 \(\log T\) 线性于 \(Z,X\)）；对更一般的半参数 IVQR（如 \(\log T = m(Z,X) + \varepsilon\)，其中 \(m\) 是非线性参数形式）的扩展仅在讨论中一句话带过，没有提供任何理论。因此，这一声称是 conjecture 而非 proven。另外，作者在实证部分使用的协变量维度 \(d=3\)，但理论要求 \(d\) 较小以保证核估计的根号 n 一致；对高维协变量（\(d>5\)）是否适用完全未讨论，这是明显的理论闭合缺口。

四、开放问题（扎根具体语句）¶

高维协变量适应性：理论中要求核估计的带宽条件 \(n h^{d+2} \to \infty\) 在 \(d>3\) 时难以同时满足 \(n h^{d+4} \to 0\)，导致根号 n 一致性失效。本文未给出对高维 (d>5) 协变量的任何解决办法（来源：Assumption 5 与 Theorem 2 的注记中未讨论维度诅咒）。一个可行的延伸是结合 维度缩减（如 sparsity 假设下的单指标模型）或 双机器学习（DML）来放松核回归的维度限制。
弱工具下的性质：本文假设工具与处理强相关（A3），但未分析当 \(W\) 与 \(Z\) 弱相关时估计量的偏差率和置信区间覆盖。Wang et al. (2022) 在弱工具下仍有有限样本性质讨论，而本文完全缺位（来源：本文的模拟设计中工具很强，没有弱工具场景）。
秩相似性假设的敏感性：秩相似性假设 \(T(z) = \Phi^{-1}(U \mid z, X)\) 在实证中很严格（如 Wüthrich 2019 所指出的 IVQR 估计量在该假设不真时可能解释复杂）。本文没有任何诊断或敏感性分析。一个自然的问题是：当秩不变假设轻微偏离时，预平滑估计量的渐近偏差有多大？可否构造一个边界敏感性框架？
预平滑推广到其他半参数 IVQR 模型：作者声称方法可推广，但未给出任何具体实例或证明。需要至少对一个别的模型（如 additive hazard 或 transformed linear model）验证（来源：Abstract 最后一句话，但文中无实现）。若研究者熟悉 tensor-network 复杂度，可考虑将其形式化为一个从非参数回归到参数估计的 收缩成本 问题：第一步的核估计相当于某种特定序的 tensor 收缩，其计算复杂度与协变量图的 treewidth 有关——这可能是与您的 U-统计量计算工作（einsum 复杂度）的直接连接点，值得核查。

Maintained by 陈星宇 · Homepage · Source on GitHub