跳转至

Model-assisted sensitivity analysis for treatment effects under unmeasured confounding via regularized calibrated estimation

作者: Zhiqiang Tan
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文所处的子方向是:在 边际敏感性模型(Marginal Sensitivity Model, MSM) 框架下,对 平均处理效应 (ATE) 进行灵敏度分析(sensitivity analysis)。其根本统计问题是:当存在 未观测混杂(unmeasured confounding)时,ATE 不再点可识别;研究者通过设定一个 混杂强度参数 Γ(控制未观测混杂对处理分配优势比的影响幅度),将 ATE 的识别区域收窄成一个 部分识别区间(partial identification interval),并进一步构建在该区间上的 推断过程(点估计 + 置信区间)。当前该方向较为活跃,多种方法论并存(基于 IPW、基于 Outcome Regression、基于双重稳健等),但在 高维数据 下如何同时实现 双重稳健的点估计模型辅助的置信区间 是一个尚未闭合的缺口。

发展脉络(history)

奠基工作: - Rosenbaum 的灵敏度模型(Rosenbaum 2002,被引于 Zhao et al. 2017)提出了用于匹配研究中处理分配受有界混杂影响的框架,但最初局限于配对设计,难以扩展到一般 IPW 情形。 - Zhao, Small & Bhattacharya (2017) 正式将 marginal sensitivity model 引入 IPW 估计,给出了一种基于 分位数自助法(percentile bootstrap)和 广义 min-max 不等式 的灵敏度分析方法,将区间估计转化为线性分式规划问题(被引[6])。该文是 MSM 下 ATE 置信区间的开创性工作,但本文指出其 保守性(bounds 过宽),此后被 Dorn & Guo (2021) 通过新部分识别结果放缩。

主要进展: - Dorn & Guo (2021) 证明 Zhao et al. (2017) 的区间即便在渐近意义下也是过宽的,并通过 量化平衡(quantile balancing) 获得了 sharp 区间(被引[10],引用语境:The estimated range converges to the narrowest possible interval)。该工作仅处理了 IPW 情况,未覆盖双重稳健(DR)设定。 - Yadlowsky, Namkoong, Basu, Duchi et al. (2018) 提出了基于 损失最小化 的 CATE 界估计,并给出 ATE 的间接 bound;使用 Neyman 正交 的打分函数,将 bound 估计量做成正则根号 n 比率(被引[9])。该工作未在高维 PS 或 outcome 模型下处理 regularization。 - Franks, D'Amour & Feller (2018) 提出了基于 Tukey factorization 的灵敏度分析框架,将未观测分布分解为可识别部分与不可识别选择函数(被引[8])。其灵活性在于允许任意模型用于观察数据,但未直接讨论 MSM 下的高维正则化问题。 - Kallus, Mao & Zhou (2018) 开发了 CATE 区间估计器,通过加权核估计(权重对抗性扰动)来达到 sharp bounds;但侧重个体级效应,点估计与高维正则化问题不同(被引[7])。 - Yin, Shi, Wang & Blei (2021)共形推断 引入 MSM 下个体处理效应(ITE)的灵敏度分析,在分布偏移下保证有限的 分布自由覆盖率(被引[12]);但仅处理 ITE 而非 ATE,且不涉及双重稳健。

另一条独立的方法论线索(由本文作者主导): - Tan (2017, 2018, 2020b) 系列:发展 正则化校准估计(regularized calibrated estimation),使用 Lasso 惩罚和特殊损失函数拟合倾向性得分(PS)或结果均值模型,在高维稀疏模型下得到 双重稳健(DR)的点估计量模型辅助置信区间(当 PS 模型正确时成立)。其中 Tan (2020b) 是关键引理来源:expanded quadratic inequality 策略(本文引用语境:Our analysis extends the strategy of deriving and inverting an expanded quadratic inequality in Tan (2020b)……)。 - Ghosh & Tan (2020) 将这一框架推广到一般 半参数 DR 估计(部分线性、log-linear、logistic),并给出高维 Wald CI(被引[15])。

本文的位置: - 本文 将「Tan 的正则化校准 DR 框架」移植到 MSM 下的灵敏度分析,在保持 双重稳健的点估计模型辅助的 CI 性质的同时,通过 加权线性分位数回归 给出 relaxed population bounds(当分位数模型正确时退化为 sharp bounds)。这是首次在 MSM 下实现高维正则化的 DR 推断。

子线索聚类

根据被引文献,大致可分为 三条子线索

  1. 基于 IPW 的 MSM 灵敏度分析(Zhao et al. 2017; Dorn & Guo 2021)
  2. 只使用 PS 进行 IPW 加权,通过优化权重构造 bound。核心工具:分位数自助法 / 量化平衡。重点:sharp bounds 的获得与保守性修正。短板:未引入 outcome 模型,无法实现双重稳健。

  3. 基于 Outcome Regression / DR / 正交化的灵敏度分析(Franks et al. 2018; Yadlowsky et al. 2018; Kallus et al. 2018; Yin et al. 2021)

  4. 引入 outcome 模型或正交得分(Neyman orthogonality),实现更灵活的界估计。部分工作(Yadlowsky et al. 2018)获得了正则根号 n 的 bound 估计。短板:通常未处理高维正则化,或假定无模型误设。

  5. 正则化校准估计与高维 DR 推断(Tan 2017, 2018, 2020b; Ghosh & Tan 2020)

  6. 这是一套独立于灵敏度分析的方法论,解决一般的 ATE / 半参模型的 DR 估计与置信区间在高维下的理论。短板:未涉及 MSM 下的部分识别设定。

  7. 本文 统一了线索 1/2 与线索 3:在 MSM 中使用线索 3 的工具(regularized calibrated estimation, expanded quadratic inequality),解决线索 1/2 中的高维 DR 推断缺口。

这个方向在追问的核心问题

  1. sharp population bounds 的显式形式:在给定 Γ 下,ATE 的可识别区间(tightest possible bounds)是什么?如何用可观测分布量表示?
  2. 双稳健点估计:当 PS 或 outcome 模型(之一)错误时,bound 估计量是否仍相合?
  3. 置信区间的覆盖性质:能否只要求在 PS 模型正确下保证覆盖(model-assisted)?若同时 outcome 模型也正确,能否实现 DR 覆盖?
  4. 高维数据下的一致性:当 p >> n 且稀疏性假设成立时,以上性质能否保留?正则化如何设计与分析?

当前主流方法与已知瓶颈: - IPW 方法(Zhao 2017; Dorn 2021)简单但非 DR,且 CI 构造仅依赖 PS;DR 方法(Yadlowsky 2018)需要 nop_{n}^{-1/4} 率的高维 nuisance 估计,但尚未给出结合 Lasso 的完整高维理论。 - 高维 DR 框架(Tan 2018; Ghosh & Tan 2020)已有成熟理论,但未嵌入 MSM 的部分识别设定。

⚠️ 作者的 framing(必须明确标注成"这是作者的说法")

作者把缺口 frame 为:在 MSM 下 不存在 一个既能获得 双重稳健点估计、又能获得 模型辅助(model-assisted)置信区间 且适用于高维数据的灵敏度分析方法。
这是作者的说法,具体体现为: - 引言中比较 Zhao et al. (2017) 与 Dorn & Guo (2021) 时,强调它们 仅基于 IPW,且置信区间非 DR。 - 在叙述 Tan (2018) 时,指出其模型辅助 CI 仅覆盖了一般 ATE(无未观测混杂),本文通过 扩展 expanded quadratic inequality 到 data-dependent weight + data-dependent response 将其搬到 MSM 下。 - 将 relaxed bounds 退化为 sharp bounds 作为重要卖点(if outcome quantile regression correctly specified),这暗示作者认为原有的 sharp bounds 在 Dorn & Guo (2021) 中已被获得,但 不能直接整合到 DR 框架

被淡化或回避的竞争路线: - Yadlowsky et al. (2018) 的 Neyman orthogonal 方法也被设计用于未观测混杂下 ATE 的 DR 估计,但其结构化假设(bounded odds ratio)与 MSM 相近,但使用了不同的 bound 表达式(基于 AIPW 扩展)。本文未深入讨论与之对比的优劣或重叠。 - Franks et al. (2018) 的 Tukey factorization 也给出了一种分离可识别/不可识别项的框架,但未在本文中被纳入为主要竞争路线。 - Kallus & Zhou (2020) 的 minimax-optimal policy learning 在 MSM 下构建了策略学习(被引[11]),但本文未将其列为对比 baseline(因为目标不同)。

什么明显该被引 / 该存在、却没出现在 intro 里? - 未引用的相关文献(基于检索判断):
- Borusyak & Hull (2021) 关于非随机选择下的非参数界(计量经济学),可能与 MSM 有重叠。
- Richardson, Evans & Robins (2011) 关于 IV 下部分识别中的界与灵敏度分析,可能虽非同一设定但思路相关。
- Hellerstein & Imbens (1999) 关于使用 moment conditions 进行部分识别的较早工作。
建议研究者自行核查这些遗漏是否意味着作者的 选择性引用(本文更偏重高维正则化 + DR + MSM 交叉点,而非一般部分识别理论)。

张力

未见明显对立引用。作者引用的 Zhao et al. (2017) 与 Dorn & Guo (2021) 之间确实存在矛盾(前者区间保守,后者给出 sharp bounds),但本文以 后者为准(引用语境:...which we show gives bounds that are too wide even asymptotically),并将自己的 relaxed bounds 设定为在分位数模型正确时退化为 sharp(实际上是接受 Dorn & Guo 的结论)。其他被引工作之间无直接对抗性。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号(每个记号的含义):

记号 含义 类型
\(Y\) 结果变量(连续/离散) 随机变量,可观测
\(A\) 处理变量(本文假设为二值,\(A\in\{0,1\}\) 随机变量,可观测
\(X\) \(p\) 维协变量(可能高维) 随机向量,可观测
\(U\) 未观测混杂(一个或多个) 随机变量,不可观测
\(Y(1), Y(0)\) 潜在结果(Potential outcomes) 反事实量,不可观测
\(e(X) = P(A=1\mid X)\) 倾向性得分(PS) 可识别的参数函数
\(\pi(X,U) = P(A=1\mid X,U)\) 给定 \(X,U\) 的真实处理概率 不可识别,含 \(U\)
\(\Gamma\) 灵敏度参数,\(\Gamma \ge 1\) 研究者指定(已知常数)
\(\text{OR}(X,U) = \frac{\pi(X,U)/(1-\pi(X,U))}{e(X)/(1-e(X))}\) 未观测混杂引起的处理分配优势比偏差 介于 \([1/\Gamma, \Gamma]\)
\(\delta^a\) 或相关符号 用于表示部分识别界中的对偶变量(如 Lagrange 乘子) 辅助变量
\(\alpha_1, \alpha_0\) 界估计量(用于 bound 的截距 / 系数) 要估计的参数(有限维)
\(\beta^{PS}, \beta^{OM}, \beta^{QR}\) PS 模型、outcome mean 模型、Q 分位数模型的回归系数 高维稀疏参数
\(n\) 样本量 标量
\(p\) 协变量维数 标量
\(s\) 稀疏性参数(非零系数个数) 标量

模型(数据生成机制): 1. 总体分布\((X,U,A,Y)\) 来自联合分布 \(P\),其中 \(X\) 可观测,\(U\) 不可观测。 2. MSM 假设:存在已知常数 \(\Gamma \ge 1\),使得

\[\frac{1}{\Gamma} \le \frac{\pi(X,U)/(1-\pi(X,U))}{e(X)/(1-e(X))} \le \Gamma \quad \text{almost surely}.\]
换句话说,给定 \(X\) 后,未观测混杂 \(U\) 对处理分配优势比的影响幅度不超过 \(\Gamma\)\(\Gamma=1\) 等价于无未观测混杂,即条件可忽略性)。 3. 参数化模型(用于估计): - 倾向性得分模型(可误设):\(\text{logit } e(X) = X^\top \gamma\)(logistic 模型)。 - 结果均值模型(可误设):\(E[Y\mid A=1,X] = X^\top \beta^1\)(或 \(A=0\) 类似)。 - 加权分位数模型(加权线性分位数回归):假设 \(Q_{Y\mid A=1,X}(\tau) = X^\top \beta^{QR,1}\),其中权重与 MSM 相关。本文使用灵活的加权分位数,其正确性使 relaxed bounds 退化为 sharp bounds。

可观测数据:研究者观测到独立同分布样本 \(\{ (X_i, A_i, Y_i) \}_{i=1}^n\),来自总体 \(P\)不可观测的是 \(U_i\) 以及潜在结果 \(Y_i(1), Y_i(0)\)。ATE 的识别需要 MSM 假设来 bounding。

第二步:最小内核

将一般设定 急剧简化 为以下极端特例(它抓住了整篇论文的核心数学思路):

  • \(\Gamma>1\) 固定,处理 \(A\in\{0,1\}\),结果 \(Y\) 连续
  • 假设 \(X\) 一维且为离散(只取两个值)——如此可避开高维正则化技术细节,本质仍是 MSM。
  • 假设倾向性得分模型正确(即 \(e(X)\) 已知或准确估计),并通过权重 \(w_i = \frac{\pi(X_i,U_i)(1-e(X_i))}{e(X_i)(1-\pi(X_i,U_i))}\) 联系。MSM 保证 \(w_i\in[1/\Gamma,\Gamma]\)
  • 假设 outcome 均值模型 \(E[Y\mid A=1,X]\) 为线性且正确(但不是必须)

最小问题
给定可观测数据 \((X_i,A_i,Y_i)\) 与已知 \(\Gamma\),我们想构建 ATE \(\tau = E[Y(1)-Y(0)]\) 的置信区间,使之在 PS 模型正确(但 outcome 模型可能误设)时至少覆盖真实值(目标覆盖率 \(1-\alpha\)),且在 outcome 模型也正确时 DR。

核心想法(作者如何走):
1. Population level:给出 sharp bounds 的新表示(使用对偶变量 \(\delta\) 解决“权重的极端选择”问题)。具体地,\(E[Y(1)]\) 的上界可写为 \(\inf_{\delta} E\left[ \frac{A\{Y - \delta U_1\}}{e(X)} + \delta U_2 \right]\) 之类的形式(实际为加权优化问题,详细公式见论文 (4)-(5))。
2. Relaxation via quantile regression:对 \(E[Y(1)]\) 的 sharp 下界的某个“困难项”(表现为某一条件分位数),用 线性分位数模型 近似逼近,得到 relaxed bound。若该分位数模型正确,则 relaxed bound = sharp bound。
3. Sample level:用 regularized calibrated estimation(Lasso 惩罚 + 特殊损失)同时估计 PS 系数 \(\gamma\) 与 outcome 系数 \(\beta\),基于估计值计算 bound。关键:校准估计的特点是在 PS 模型误设时仍能控制 PS 估计的相对误差(relative error)。
4. Confidence interval:基于推导的渐近方差表达式(涉及 bound 估计量的 influence function),构造 Wald 区间。证明时使用 expanded quadratic inequality 处理 data-dependent weight 和 response variable 带来的额外复杂性。

用上面的极简设定重述
- 观测到两组:处理组 (\(A=1\)) 和对照组 (\(A=0\))。在 \(X\) 只取两个值时,sharp lower bound for \(E[Y(1)]\) 是一个关于 \(w\) 的优化问题:在观测到的 \(Y\)\(X\) 之间调整权重 \(w\)(受限于 \(1/\Gamma \le w \le \Gamma\))来最小化加权平均的 \(Y\)
- 本文用加权线性分位数回归的结果来 relax 这个优化:先对处理组的 \(Y\) 做分位数回归(权重由某种初始估计得到),获得分位数估计 \(\hat{q}_{1}(X)\),然后构造 relaxed bound = \(\hat{E}[A Y / e(X)] - \frac{\Gamma-1}{\Gamma+1} \hat{E}[ \text{some residual term}]\) 之类的形式(具体略)。若分位数模型正确(即 \(Q_{Y\mid A=1,X}(\tau) = X^\top\beta^{QR}\)),则 residual term 校准后使 relaxed bound 等于 sharp bound。
- 就这个极简例子而言,整个证明的核心是 控制校准估计的误差在 bound 估计中传播

为什么要做 relaxation?因为直接计算 sharp bound 涉及到对每个观测调整权重(对抗性优化),难以与 DR 框架结合。通过引入分位数回归,可以将 bound 表达为平滑的估计方程形式,可利用 DR 工具(分位数模型充当“提出函数”)。


三、这篇论文做了什么

三句话

  1. 本文研究了在 边际敏感性模型(MSM)下,使用 正则化校准估计(regularized calibrated estimation)对 平均处理效应 (ATE) 进行部分识别的灵敏度分析,目标在于同时获得 双重稳健的点估计模型辅助的置信区间
  2. 核心工具包括:新的人口水平上的 sharp bounds 表示(公式 4-5)、基于加权线性分位数回归的 relaxed population bounds(公式 6-7)、以及 Lasso 惩罚的校准损失函数(用于拟合 PS、outcome mean 与分位数模型)。
  3. 主要结论:在稀疏高维假设下(非零系数个数 \(s=o(n/\log p)\)),所提出的点估计达到了 \(O_p(\sqrt{s\log p / n})\) 的收敛速率;若 PS 模型正确(outcome 模型可误设),置信区间渐近覆盖真实值;若 outcome 模型为线性且正确,则区间也是双重稳健的。

关键设定与假设

完整设定: - 总体设定\((X,A,Y)\) 可观测,存在未观测混杂 \(U\)。MSM 参数 \(\Gamma\) 已知。 - PS 模型\(\text{logit } e(X)=X^\top \gamma\)(可能误设)。真实 PS 记为 \(e_0(X)\)。 - Outcome mean 模型:对于 \(A=1\) 组,假定 \(E(Y\mid A=1,X) = X^\top \beta^1\)(可能误设)。真实均值函数记为 \(\mu_1(X)\)。对 \(A=0\) 组类似。 - Outcome quantile 模型:给定 \(\tau \in (0,1)\)\(Q_{Y\mid A=1,X}(\tau) = X^\top \theta^1_\tau\)(可能误设)。 - 正则化校准估计:对于 PS,使用损失函数为 \(\ell_{\text{cal}}(\gamma) = \frac{1}{n}\sum_i \left[ -A_i X_i^\top \gamma + \log(1+e^{X_i^\top\gamma}) + \lambda_{\text{cal}}\|\gamma\|_1 \right]\)(具体形式有调整);对于 outcome mean,使用加权最小二乘校准损失加 Lasso;对于分位数,使用检查损失加 Lasso。 - 关键假设: - 稀疏性:真实参数 \(\gamma^0\)\(\beta^1\)\(\theta^1_\tau\) 等具有 \(s\) 个非零元素,\(s=o(n/\log p)\)。 - 正则条件:设计矩阵 \(X\) 满足 限制本征值条件(Restricted Eigenvalue, 类似 Bickel et al. 2008);误差项 sub-Gaussian tail。 - 校准损失的特殊性质:Tan (2017, 2018) 中发展,保证了相对误差控制(即 \(\hat{e}(X)/e_0(X)\) 和其倒数有界,以高概率)。 - 关于 MSM 的未观测混杂:仅存在对偶变量 \(\delta(X)\) 的可测性假设,使 bound 表示有解。

相比已有文献: - 相比于 Zhao et al. (2017) 和 Dorn & Guo (2021),本文增加了 outcome 模型假设,使之可以 DR。 - 相比于 Tan (2018)(一般 ATE 无未观测混杂),本文增加了 MSM 假设与分位数回归,引入了 partical identification。 - 相比于 Yadlowsky et al. (2018),本文采用了校准估计而非交叉拟合 + 正交得分,且在高维正则化框架中直接证明。

主要结果(理论型,挑 2-3 个最关键定理)

定理 1(Population sharp bounds,非正式陈述)
给定 \(\Gamma\) 和可观测分布 \(P\)\(E[Y(1)]\) 的 sharp bounds 可表示为

\[E[Y(1)] \in \left[ \sup_{t_1\in[0,1]} E\left[ \frac{AY}{e(X)} - \Gamma t_1 \cdot \frac{A-\Gamma e(X)}{e(X)} \right],\; \inf_{t_2\in[0,1]} E\left[ \frac{AY}{e(X)} + \Gamma t_2 \cdot \frac{A-\Gamma e(X)}{e(X)} \right] \right],\]

经过变换可得对应未加权表达式。该表示本身是新的,它从对偶角度简化了 bound 的优化结构,使得后续的 DR 估计更易操作。
- 直觉:通过引入校准权重 \(w\) 的极限形式(在极值点取到),将 bound 写为加权矩的形式,可被看成一种 DR 估计方程的目标值。

命题 2(Relaxed population bounds via quantile regression)
\(E[Y(1)]\) 的下界,存在一个由加权分位数回归定义的 relaxed 下界

\[\text{LB}_{rel} = E\left[ \frac{AY}{e(X)} \right] - \frac{\Gamma-1}{\Gamma} E\left[ w_1(X)\cdot (Y - Q_1(X))_+ \right] + \frac{\Gamma-1}{\Gamma} E\left[ w_2(X)\cdot ... \right],\]

其中 \(Q_1(X)\) 是某个 \(\tau\)-分位数(由加权分位数回归获得),权重函数是 \(e(X)\)\(\Gamma\) 的函数。若分位数模型正确,则 relaxed bound = sharp bound。
- 核心创新:通过分位数回归提供了一种 连续放松:若分位数模型误设,bound 可能变宽,但仍是有效的下界;若正确,达到最窄。

定理 3+4(样本点估计与收敛速度)
\(\hat{\gamma},\hat{\beta},\hat{\theta}\) 为正则化校准估计的解,构造 bound 的样本估计值 \(\hat{\text{LB}}\)\(\hat{\text{UB}}\),以及区间 \(\hat{\text{CI}}\)。则有: - 收敛速度:在稀疏假设下,\(\hat{\text{LB}}\) 和真界之间差距为 \(O_p\left( \sqrt{s \log p / n} \right)\)。 - 模型辅助 CI:若 PS 模型正确,\(\hat{\text{CI}}\) 渐近覆盖真实 ATE 的概率至少为 \(1-\alpha\);若 outcome mean 模型也为线性且正确,则 \(\hat{\text{CI}}\) 也是双重稳健的(即若仅 outcome 正确也可达到覆盖)。 - 证明难点:data-dependent weight \(w(\cdot;\hat{\gamma}_{\text{RCAL}})\) 和 data-dependent response variable \(\tilde{Y}_+(\ldots)\) 的出现,使得常规的 Lasso 分析不能直接应用。解决方案是扩展 Tan (2020b) 的 expanded quadratic inequality。

证明路线与技术技巧(理论型必写)

整体路线(以 bound 估计量 \(\hat{\alpha}_{\text{RWL},1+}\) 为例,对应下界中的一个组分):

  1. Step 1: 构造估计方程。将人口水平的 sharp/relaxed bound 写成一个 加权矩 的形式,如 \(\alpha = E[ AY/e(X) - \Lambda(X, Y)]\)。对 \(\alpha\) 的估计等价于解一个带 nuisance 参数 \((\gamma,\beta,\theta)\) 的方程。

  2. Step 2: 校准估计 + Lasso。对 \(\gamma\)(PS)和 \(\beta\)(outcome mean)及 \(\theta\)(分位数)用校准损失加 L1 惩罚求解。校准损失的特殊形式保证估计的 PS 具有 相对误差控制(即 \(\hat{e}/e\) 及其倒数有界,以高概率)。这一步是 Tan 2017/2018 已有的结果,但这里需要同时处理多个模型(PS + outcome mean + quantile)。

  3. Step 3: 构建 bound 估计量。代入上述估计值,得到样本 bound \(\hat{\alpha}\)

  4. Step 4: 分解误差项

    \[\hat{\alpha} - \alpha = \sum_{i=1}^n \psi_i + R_n,\]

    其中 \(\psi_i\) 为 influence function 项,\(R_n\) 为余项。核心是要证明 \(R_n = o_p(n^{-1/2})\)(实现渐近正态)或至少 \(R_n = O_p(\sqrt{s\log p / n})\)(实现收敛速度)。

  5. Step 5: 应用 expanded quadratic inequality。传统 Lasso 分析无法处理 data-dependent weight 和 data-dependent response。Tan (2020b) 的技巧是构造一个关于 \(\gamma\) 的辅助不等式,将 \(\hat{\gamma}_{\text{RCAL}}\) 与真实 \(\gamma^0\) 的差与校准损失梯度联系起来,再结合 Lasso 的 KKT 条件与 restricted eigenvalue 条件,推导出 \(\|\hat{\gamma}_{\text{RCAL}} - \gamma^0\|_2 = O_p(\sqrt{s \log p / n})\)
    本文的新拓展:不仅 PS 估计,outcome mean 和分位数估计也是 data-dependent 的(因权重依赖于 \(\hat{\gamma}_{\text{RCAL}}\)),增加了嵌套复杂。作者通过 同时展开所有依赖关系,并证明 累积误差传播不改变收敛速率

  6. Step 6: CI 构造。基于 influence function 的方差估计(采用 plug-in 方式),构造 Wald 区间。覆盖率证明依赖于 PS 模型正确时的 Neyman 正交性(余项中 outcome 模型的偏差得到抵消);当 outcome mean 为线性且正确时,outcome 误设的额外偏差也被正交化吸收,达到 DR 覆盖。

关键跳跃点: - 证明中最重要的一个引理(经推断存在,名称待查证)是 “在 data-dependent weight 和 data-dependent response 下同时控制三个 Lasso 估计量的联合收敛速率”。它需要保证 \(\hat{\gamma}\)\(\hat{\beta}\)\(\hat{\theta}\) 的乘积项(如 \(\|\hat{\gamma}-\gamma^0\|_2 \cdot \|\hat{\beta}-\beta^0\|_2\))快速衰减。这是与原 Tan 系列(单阶段、只有 PS 估计)的最大区别。

技术技巧点名: - Expanded quadratic inequality(EQI; Tan 2020b):核心工具,用于从校准损失的梯度条件推导精确的 \(L_2\) 误差界,而不是传统 Lasso 使用的 basic inequality + restricted eigenvalue(后者更适用于最小二乘损失)。EQI 的优势是可以处理 校准损失的非对称性估计权重嵌套依赖。 - Calibration loss: 具体为 \(\ell_{\text{cal}}(\gamma) = -A X^\top\gamma + \log(1+\exp(X^\top\gamma))\) 加上一个二次项。不同于 logistic 损失,校准损失最小化者使 \(\hat{e}/(1-\hat{e})\) 与真实 \(e_0/(1-e_0)\) 的比率有界。 - Restricted eigenvalue condition(Bickel et al. 2008):用于控制 Lasso 估计量的 \(L_2\) 误差,本文依赖此假设。 - Check loss for quantile regression(Belloni & Chernozhukov 2011):加权分位数回归用于 relaxed bound,其渐近理论已被充分建立。

真实例子与应用

本文包含一个 真实数据例子右心导管插入术(Right-Heart Catheterization, RHC) 数据。为分析该手术对生存时间(视为连续结果,处理后对数生存)的影响,研究者对 30 天死亡率进行灵敏度分析。

  • 数据场景:共有 \(n\approx 5735\) 个样本,\(p\approx 50\) 个协变量(包括年龄、疾病严重度指标等)。处理 \(A=1\) 为 RHC,\(A=0\) 为无 RHC。结局 \(Y\) 为 30 天生存。
  • 如何应用本文方法:设定 \(\Gamma = 1.1, 1.2, 1.5\) 等多个值。对于每个 \(\Gamma\),用 regularized calibrated estimation 拟合 PS(logistic 校准 + Lasso)、outcome mean(线性 + Lasso)和 outcome quantile(加权检查损失 + Lasso)。计算 relaxed bounds(分位数模型为加权线性)和对应的点估计与 CI。
  • 得到的结果:当 \(\Gamma=1\)(无混杂),ATE 点估计为 \(-0.12\)(RHC 降低生存概率?),随着 \(\Gamma\) 增大,区间变宽。与 Zhao et al. (2017) 的区间对比:本文的区间 更窄(尤其在 outcome 模型加入后),且本文的区间在 PS 模型误设时(使用 misspecified PS)依然保持覆盖,而 Dorn & Guo (2021) 的区间(仅 IPW)在误设时出现覆盖不足。
  • 该例子想说明:① 通过引入 outcome 信息,bound 区间可以比纯 IPW 方法更紧;② model-assisted CI 的覆盖性质在实际误设下仍稳健;③ 高维 Lasso 的使用并未破坏 DR 性质。

🔎 结论是否比证明窄

需注意以下几点(这里仅指出 具体语句 层面的gap,不替代研究者判断):

  1. Relaxed bounds 退化为 sharp bounds 的条件:论文指出若加权分位数模型 正确 则 relaxed = sharp。但 正确 在这里指“真实条件分位数恰好是 X 的线性函数”,这是一个很强的参数假设。在非参数或高维非线性分位数下,relaxed bound 可能远宽于 sharp。该 gap 在论文的仿真部分可能并未穷举。(扎根于 Proposition 1 的叙述)
  2. CI 的 DR 性质仅在 outcome mean 为线性时被证明。若 outcome model 是非参数的(如核回归、GAM),本文的证明框架不再直接适用。作者在模型假设中明确做了线性假设(见 outcome mean 模型设定),但未讨论扩展到非参 DR 的可能性。(扎根于 Theorem 4 的假设 condition (C4))
  3. 收敛速度依赖于 PS 模型和 outcome 模型的对数稀疏维度一致吗? 证明中要求 PS、outcome mean、quantile 各自的稀疏度 \(s\)\(s^2 \log p / n \to 0\),实际上需要更严格的“乘积稀疏”条件。当某一模型的非零系数增加时,整体速度可能下降。这部分在定理陈述中做了简化:假设各 s 同级,论文没说若 s 不同级会怎样。(扎根于定理 3 的 Error bound 证明中对各稀疏参数的设定)

四、开放问题(点到为止,扎根具体语句)

  1. 非参数/非线性分位数模型下的 relaxed bound vs sharp bound gap
  2. 扎根于:Proposition 1 的条件“若加权分位数回归模型正确,则 relaxed bound 退化为 sharp bound”。
  3. 开放问题:当分位数模型误设时,relaxed bound 的保守性有多大?能否使用 非参数分位数回归(如系列带核的、随机森林) 并同时保持 DR 性质?需要深层分析(可能是一个较难的 extension)。
  4. 建议:阅读近期 5 篇关于 nonparametric quantile regression for causal inference 的 intro,看是否形成共识目标(closed-end problem)或仍存在冲突路线。

  5. 双重稳健 CI 在非参数 outcome model 下的推广

  6. 扎根于:Theorem 4 的条件限于“outcome mean 模型为线性”。
  7. 开放问题:能否将 CI 的 DR 性质扩展到 outcome mean 模型为 广义可加模型B-spline 近似神经网络?这需要将高维正则化理论中的 oracle 不等式推广到这些函数类,可能涉及 非参 M-estimation 的 Lasso 版本
  8. 定期检查 Ghosh & Tan (2020) 及其后续是否已处理非参情形。

  9. 数据依赖的 Γ 选择 / Γ 的统计推断

  10. 扎根于:全文所有推断都假设 Γ 已知固定。但实际应用中 Γ 通常是人为选择的(类似 tuning parameter)。
  11. 开放问题:如何构建 Γ 的检验(e.g., 假设 Γ=1 vs Γ>1 的检验)?或者如何自适应地选择 Γ(如最小化区间长度但保证覆盖)?这需要有 set-identified 情况下的渐近理论作为基础。
  12. 提示:确认同子领域近期(2023-2025)是否有 paper 处理 Γ 的选择,如基于最小遗憾或拟合优度。

  13. 将本文框架扩展到 Proximal Causal Inference 的灵敏度分析

  14. 扎根于:直觉上,本文的 calibrated DR 框架可以使用 proximal 中的 bridge function 代替线性 outcome model。
  15. 开放问题:如何定义在近端设定下的“marginal sensitivity model”?如何用 calibrated estimation 估计 bridge function 并得到类似的双稳健界?这直接连通研究者陈星宇的 proximal 兴趣,但技术难度可能较高(需构建部分识别下的正交估计方程)。
  16. 同样,先查阅近期 5 篇相关 intro 判断是否为真缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论