Model-assisted sensitivity analysis for treatment effects under unmeasured confounding via regularized calibrated estimation¶

作者: Zhiqiang Tan
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所处的子方向是：在 边际敏感性模型（Marginal Sensitivity Model, MSM） 框架下，对 平均处理效应 (ATE) 进行灵敏度分析（sensitivity analysis）。其根本统计问题是：当存在 未观测混杂（unmeasured confounding）时，ATE 不再点可识别；研究者通过设定一个 混杂强度参数 Γ（控制未观测混杂对处理分配优势比的影响幅度），将 ATE 的识别区域收窄成一个 部分识别区间（partial identification interval），并进一步构建在该区间上的 推断过程（点估计 + 置信区间）。当前该方向较为活跃，多种方法论并存（基于 IPW、基于 Outcome Regression、基于双重稳健等），但在 高维数据 下如何同时实现 双重稳健的点估计 与 模型辅助的置信区间 是一个尚未闭合的缺口。

发展脉络（history）¶

奠基工作： - Rosenbaum 的灵敏度模型（Rosenbaum 2002，被引于 Zhao et al. 2017）提出了用于匹配研究中处理分配受有界混杂影响的框架，但最初局限于配对设计，难以扩展到一般 IPW 情形。 - Zhao, Small & Bhattacharya (2017) 正式将 marginal sensitivity model 引入 IPW 估计，给出了一种基于 分位数自助法（percentile bootstrap）和 广义 min-max 不等式 的灵敏度分析方法，将区间估计转化为线性分式规划问题（被引[6]）。该文是 MSM 下 ATE 置信区间的开创性工作，但本文指出其 保守性（bounds 过宽），此后被 Dorn & Guo (2021) 通过新部分识别结果放缩。

主要进展： - Dorn & Guo (2021) 证明 Zhao et al. (2017) 的区间即便在渐近意义下也是过宽的，并通过 量化平衡（quantile balancing） 获得了 sharp 区间（被引[10]，引用语境：The estimated range converges to the narrowest possible interval）。该工作仅处理了 IPW 情况，未覆盖双重稳健（DR）设定。 - Yadlowsky, Namkoong, Basu, Duchi et al. (2018) 提出了基于 损失最小化 的 CATE 界估计，并给出 ATE 的间接 bound；使用 Neyman 正交 的打分函数，将 bound 估计量做成正则根号 n 比率（被引[9]）。该工作未在高维 PS 或 outcome 模型下处理 regularization。 - Franks, D'Amour & Feller (2018) 提出了基于 Tukey factorization 的灵敏度分析框架，将未观测分布分解为可识别部分与不可识别选择函数（被引[8]）。其灵活性在于允许任意模型用于观察数据，但未直接讨论 MSM 下的高维正则化问题。 - Kallus, Mao & Zhou (2018) 开发了 CATE 区间估计器，通过加权核估计（权重对抗性扰动）来达到 sharp bounds；但侧重个体级效应，点估计与高维正则化问题不同（被引[7]）。 - Yin, Shi, Wang & Blei (2021) 将 共形推断 引入 MSM 下个体处理效应（ITE）的灵敏度分析，在分布偏移下保证有限的 分布自由覆盖率（被引[12]）；但仅处理 ITE 而非 ATE，且不涉及双重稳健。

另一条独立的方法论线索（由本文作者主导）： - Tan (2017, 2018, 2020b) 系列：发展 正则化校准估计（regularized calibrated estimation），使用 Lasso 惩罚和特殊损失函数拟合倾向性得分（PS）或结果均值模型，在高维稀疏模型下得到 双重稳健（DR）的点估计量 和 模型辅助置信区间（当 PS 模型正确时成立）。其中 Tan (2020b) 是关键引理来源：expanded quadratic inequality 策略（本文引用语境：Our analysis extends the strategy of deriving and inverting an expanded quadratic inequality in Tan (2020b)……）。 - Ghosh & Tan (2020) 将这一框架推广到一般 半参数 DR 估计（部分线性、log-linear、logistic），并给出高维 Wald CI（被引[15]）。

本文的位置： - 本文 将「Tan 的正则化校准 DR 框架」移植到 MSM 下的灵敏度分析，在保持 双重稳健的点估计 和 模型辅助的 CI 性质的同时，通过 加权线性分位数回归 给出 relaxed population bounds（当分位数模型正确时退化为 sharp bounds）。这是首次在 MSM 下实现高维正则化的 DR 推断。

子线索聚类¶

根据被引文献，大致可分为 三条子线索：

基于 IPW 的 MSM 灵敏度分析（Zhao et al. 2017; Dorn & Guo 2021）
只使用 PS 进行 IPW 加权，通过优化权重构造 bound。核心工具：分位数自助法 / 量化平衡。重点：sharp bounds 的获得与保守性修正。短板：未引入 outcome 模型，无法实现双重稳健。
基于 Outcome Regression / DR / 正交化的灵敏度分析（Franks et al. 2018; Yadlowsky et al. 2018; Kallus et al. 2018; Yin et al. 2021）
引入 outcome 模型或正交得分（Neyman orthogonality），实现更灵活的界估计。部分工作（Yadlowsky et al. 2018）获得了正则根号 n 的 bound 估计。短板：通常未处理高维正则化，或假定无模型误设。
正则化校准估计与高维 DR 推断（Tan 2017, 2018, 2020b; Ghosh & Tan 2020）
这是一套独立于灵敏度分析的方法论，解决一般的 ATE / 半参模型的 DR 估计与置信区间在高维下的理论。短板：未涉及 MSM 下的部分识别设定。
本文 统一了线索 1/2 与线索 3：在 MSM 中使用线索 3 的工具（regularized calibrated estimation, expanded quadratic inequality），解决线索 1/2 中的高维 DR 推断缺口。

这个方向在追问的核心问题¶

sharp population bounds 的显式形式：在给定 Γ 下，ATE 的可识别区间（tightest possible bounds）是什么？如何用可观测分布量表示？
双稳健点估计：当 PS 或 outcome 模型（之一）错误时，bound 估计量是否仍相合？
置信区间的覆盖性质：能否只要求在 PS 模型正确下保证覆盖（model-assisted）？若同时 outcome 模型也正确，能否实现 DR 覆盖？
高维数据下的一致性：当 p >> n 且稀疏性假设成立时，以上性质能否保留？正则化如何设计与分析？

当前主流方法与已知瓶颈： - IPW 方法（Zhao 2017; Dorn 2021）简单但非 DR，且 CI 构造仅依赖 PS；DR 方法（Yadlowsky 2018）需要 nop_{n}^{-1/4} 率的高维 nuisance 估计，但尚未给出结合 Lasso 的完整高维理论。 - 高维 DR 框架（Tan 2018; Ghosh & Tan 2020）已有成熟理论，但未嵌入 MSM 的部分识别设定。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口 frame 为：在 MSM 下 不存在 一个既能获得 双重稳健点估计、又能获得 模型辅助（model-assisted）置信区间 且适用于高维数据的灵敏度分析方法。
这是作者的说法，具体体现为： - 引言中比较 Zhao et al. (2017) 与 Dorn & Guo (2021) 时，强调它们 仅基于 IPW，且置信区间非 DR。 - 在叙述 Tan (2018) 时，指出其模型辅助 CI 仅覆盖了一般 ATE（无未观测混杂），本文通过 扩展 expanded quadratic inequality 到 data-dependent weight + data-dependent response 将其搬到 MSM 下。 - 将 relaxed bounds 退化为 sharp bounds 作为重要卖点（if outcome quantile regression correctly specified），这暗示作者认为原有的 sharp bounds 在 Dorn & Guo (2021) 中已被获得，但 不能直接整合到 DR 框架。

被淡化或回避的竞争路线： - Yadlowsky et al. (2018) 的 Neyman orthogonal 方法也被设计用于未观测混杂下 ATE 的 DR 估计，但其结构化假设（bounded odds ratio）与 MSM 相近，但使用了不同的 bound 表达式（基于 AIPW 扩展）。本文未深入讨论与之对比的优劣或重叠。 - Franks et al. (2018) 的 Tukey factorization 也给出了一种分离可识别/不可识别项的框架，但未在本文中被纳入为主要竞争路线。 - Kallus & Zhou (2020) 的 minimax-optimal policy learning 在 MSM 下构建了策略学习（被引[11]），但本文未将其列为对比 baseline（因为目标不同）。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 未引用的相关文献（基于检索判断）：
- Borusyak & Hull (2021) 关于非随机选择下的非参数界（计量经济学），可能与 MSM 有重叠。
- Richardson, Evans & Robins (2011) 关于 IV 下部分识别中的界与灵敏度分析，可能虽非同一设定但思路相关。
- Hellerstein & Imbens (1999) 关于使用 moment conditions 进行部分识别的较早工作。
建议研究者自行核查这些遗漏是否意味着作者的 选择性引用（本文更偏重高维正则化 + DR + MSM 交叉点，而非一般部分识别理论）。

张力¶

未见明显对立引用。作者引用的 Zhao et al. (2017) 与 Dorn & Guo (2021) 之间确实存在矛盾（前者区间保守，后者给出 sharp bounds），但本文以 后者为准（引用语境：...which we show gives bounds that are too wide even asymptotically），并将自己的 relaxed bounds 设定为在分位数模型正确时退化为 sharp（实际上是接受 Dorn & Guo 的结论）。其他被引工作之间无直接对抗性。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（每个记号的含义）：

记号	含义	类型
\(Y\)	结果变量（连续/离散）	随机变量，可观测
\(A\)	处理变量（本文假设为二值，\(A\in\{0,1\}\)）	随机变量，可观测
\(X\)	\(p\) 维协变量（可能高维）	随机向量，可观测
\(U\)	未观测混杂（一个或多个）	随机变量，不可观测
\(Y(1), Y(0)\)	潜在结果（Potential outcomes）	反事实量，不可观测
\(e(X) = P(A=1\mid X)\)	倾向性得分（PS）	可识别的参数函数
\(\pi(X,U) = P(A=1\mid X,U)\)	给定 \(X,U\) 的真实处理概率	不可识别，含 \(U\)
\(\Gamma\)	灵敏度参数，\(\Gamma \ge 1\)	研究者指定（已知常数）
\(\text{OR}(X,U) = \frac{\pi(X,U)/(1-\pi(X,U))}{e(X)/(1-e(X))}\)	未观测混杂引起的处理分配优势比偏差	介于 \([1/\Gamma, \Gamma]\)
\(\delta^a\) 或相关符号	用于表示部分识别界中的对偶变量（如 Lagrange 乘子）	辅助变量
\(\alpha_1, \alpha_0\)	界估计量（用于 bound 的截距 / 系数）	要估计的参数（有限维）
\(\beta^{PS}, \beta^{OM}, \beta^{QR}\)	PS 模型、outcome mean 模型、Q 分位数模型的回归系数	高维稀疏参数
\(n\)	样本量	标量
\(p\)	协变量维数	标量
\(s\)	稀疏性参数（非零系数个数）	标量

模型（数据生成机制）： 1. 总体分布：\((X,U,A,Y)\) 来自联合分布 \(P\)，其中 \(X\) 可观测，\(U\) 不可观测。 2. MSM 假设：存在已知常数 \(\Gamma \ge 1\)，使得

\[\frac{1}{\Gamma} \le \frac{\pi(X,U)/(1-\pi(X,U))}{e(X)/(1-e(X))} \le \Gamma \quad \text{almost surely}.\]

换句话说，给定 \(X\) 后，未观测混杂 \(U\) 对处理分配优势比的影响幅度不超过 \(\Gamma\)（\(\Gamma=1\) 等价于无未观测混杂，即条件可忽略性）。 3. 参数化模型（用于估计）： - 倾向性得分模型（可误设）：\(\text{logit } e(X) = X^\top \gamma\)（logistic 模型）。 - 结果均值模型（可误设）：\(E[Y\mid A=1,X] = X^\top \beta^1\)（或 \(A=0\) 类似）。 - 加权分位数模型（加权线性分位数回归）：假设 \(Q_{Y\mid A=1,X}(\tau) = X^\top \beta^{QR,1}\)，其中权重与 MSM 相关。本文使用灵活的加权分位数，其正确性使 relaxed bounds 退化为 sharp bounds。

可观测数据：研究者观测到独立同分布样本 \(\{ (X_i, A_i, Y_i) \}_{i=1}^n\)，来自总体 \(P\)。不可观测的是 \(U_i\) 以及潜在结果 \(Y_i(1), Y_i(0)\)。ATE 的识别需要 MSM 假设来 bounding。

第二步：最小内核¶

将一般设定 急剧简化 为以下极端特例（它抓住了整篇论文的核心数学思路）：

令 \(\Gamma>1\) 固定，处理 \(A\in\{0,1\}\)，结果 \(Y\) 连续。
假设 \(X\) 一维且为离散（只取两个值）——如此可避开高维正则化技术细节，本质仍是 MSM。
假设倾向性得分模型正确（即 \(e(X)\) 已知或准确估计），并通过权重 \(w_i = \frac{\pi(X_i,U_i)(1-e(X_i))}{e(X_i)(1-\pi(X_i,U_i))}\) 联系。MSM 保证 \(w_i\in[1/\Gamma,\Gamma]\)。
假设 outcome 均值模型 \(E[Y\mid A=1,X]\) 为线性且正确（但不是必须）。

最小问题：
给定可观测数据 \((X_i,A_i,Y_i)\) 与已知 \(\Gamma\)，我们想构建 ATE \(\tau = E[Y(1)-Y(0)]\) 的置信区间，使之在 PS 模型正确（但 outcome 模型可能误设）时至少覆盖真实值（目标覆盖率 \(1-\alpha\)），且在 outcome 模型也正确时 DR。

核心想法（作者如何走）：
1. Population level：给出 sharp bounds 的新表示（使用对偶变量 \(\delta\) 解决“权重的极端选择”问题）。具体地，\(E[Y(1)]\) 的上界可写为 \(\inf_{\delta} E\left[ \frac{A\{Y - \delta U_1\}}{e(X)} + \delta U_2 \right]\) 之类的形式（实际为加权优化问题，详细公式见论文 (4)-(5)）。
2. Relaxation via quantile regression：对 \(E[Y(1)]\) 的 sharp 下界的某个“困难项”（表现为某一条件分位数），用 线性分位数模型 近似逼近，得到 relaxed bound。若该分位数模型正确，则 relaxed bound = sharp bound。
3. Sample level：用 regularized calibrated estimation（Lasso 惩罚 + 特殊损失）同时估计 PS 系数 \(\gamma\) 与 outcome 系数 \(\beta\)，基于估计值计算 bound。关键：校准估计的特点是在 PS 模型误设时仍能控制 PS 估计的相对误差（relative error）。
4. Confidence interval：基于推导的渐近方差表达式（涉及 bound 估计量的 influence function），构造 Wald 区间。证明时使用 expanded quadratic inequality 处理 data-dependent weight 和 response variable 带来的额外复杂性。

用上面的极简设定重述：
- 观测到两组：处理组 (\(A=1\)) 和对照组 (\(A=0\))。在 \(X\) 只取两个值时，sharp lower bound for \(E[Y(1)]\) 是一个关于 \(w\) 的优化问题：在观测到的 \(Y\) 和 \(X\) 之间调整权重 \(w\)（受限于 \(1/\Gamma \le w \le \Gamma\)）来最小化加权平均的 \(Y\)。
- 本文用加权线性分位数回归的结果来 relax 这个优化：先对处理组的 \(Y\) 做分位数回归（权重由某种初始估计得到），获得分位数估计 \(\hat{q}_{1}(X)\)，然后构造 relaxed bound = \(\hat{E}[A Y / e(X)] - \frac{\Gamma-1}{\Gamma+1} \hat{E}[ \text{some residual term}]\) 之类的形式（具体略）。若分位数模型正确（即 \(Q_{Y\mid A=1,X}(\tau) = X^\top\beta^{QR}\)），则 residual term 校准后使 relaxed bound 等于 sharp bound。
- 就这个极简例子而言，整个证明的核心是 控制校准估计的误差在 bound 估计中传播。

为什么要做 relaxation？因为直接计算 sharp bound 涉及到对每个观测调整权重（对抗性优化），难以与 DR 框架结合。通过引入分位数回归，可以将 bound 表达为平滑的估计方程形式，可利用 DR 工具（分位数模型充当“提出函数”）。

三、这篇论文做了什么¶

三句话¶

本文研究了在 边际敏感性模型（MSM）下，使用 正则化校准估计（regularized calibrated estimation）对 平均处理效应 (ATE) 进行部分识别的灵敏度分析，目标在于同时获得 双重稳健的点估计 与 模型辅助的置信区间。
核心工具包括：新的人口水平上的 sharp bounds 表示（公式 4-5）、基于加权线性分位数回归的 relaxed population bounds（公式 6-7）、以及 Lasso 惩罚的校准损失函数（用于拟合 PS、outcome mean 与分位数模型）。
主要结论：在稀疏高维假设下（非零系数个数 \(s=o(n/\log p)\)），所提出的点估计达到了 \(O_p(\sqrt{s\log p / n})\) 的收敛速率；若 PS 模型正确（outcome 模型可误设），置信区间渐近覆盖真实值；若 outcome 模型为线性且正确，则区间也是双重稳健的。

关键设定与假设¶

完整设定： - 总体设定：\((X,A,Y)\) 可观测，存在未观测混杂 \(U\)。MSM 参数 \(\Gamma\) 已知。 - PS 模型：\(\text{logit } e(X)=X^\top \gamma\)（可能误设）。真实 PS 记为 \(e_0(X)\)。 - Outcome mean 模型：对于 \(A=1\) 组，假定 \(E(Y\mid A=1,X) = X^\top \beta^1\)（可能误设）。真实均值函数记为 \(\mu_1(X)\)。对 \(A=0\) 组类似。 - Outcome quantile 模型：给定 \(\tau \in (0,1)\)，\(Q_{Y\mid A=1,X}(\tau) = X^\top \theta^1_\tau\)（可能误设）。 - 正则化校准估计：对于 PS，使用损失函数为 \(\ell_{\text{cal}}(\gamma) = \frac{1}{n}\sum_i \left[ -A_i X_i^\top \gamma + \log(1+e^{X_i^\top\gamma}) + \lambda_{\text{cal}}\|\gamma\|_1 \right]\)（具体形式有调整）；对于 outcome mean，使用加权最小二乘校准损失加 Lasso；对于分位数，使用检查损失加 Lasso。 - 关键假设： - 稀疏性：真实参数 \(\gamma^0\)、\(\beta^1\)、\(\theta^1_\tau\) 等具有 \(s\) 个非零元素，\(s=o(n/\log p)\)。 - 正则条件：设计矩阵 \(X\) 满足 限制本征值条件（Restricted Eigenvalue, 类似 Bickel et al. 2008）；误差项 sub-Gaussian tail。 - 校准损失的特殊性质：Tan (2017, 2018) 中发展，保证了相对误差控制（即 \(\hat{e}(X)/e_0(X)\) 和其倒数有界，以高概率）。 - 关于 MSM 的未观测混杂：仅存在对偶变量 \(\delta(X)\) 的可测性假设，使 bound 表示有解。

相比已有文献： - 相比于 Zhao et al. (2017) 和 Dorn & Guo (2021)，本文增加了 outcome 模型假设，使之可以 DR。 - 相比于 Tan (2018)（一般 ATE 无未观测混杂），本文增加了 MSM 假设与分位数回归，引入了 partical identification。 - 相比于 Yadlowsky et al. (2018)，本文采用了校准估计而非交叉拟合 + 正交得分，且在高维正则化框架中直接证明。

主要结果（理论型，挑 2-3 个最关键定理）¶

定理 1（Population sharp bounds，非正式陈述）
给定 \(\Gamma\) 和可观测分布 \(P\)，\(E[Y(1)]\) 的 sharp bounds 可表示为

\[E[Y(1)] \in \left[ \sup_{t_1\in[0,1]} E\left[ \frac{AY}{e(X)} - \Gamma t_1 \cdot \frac{A-\Gamma e(X)}{e(X)} \right],\; \inf_{t_2\in[0,1]} E\left[ \frac{AY}{e(X)} + \Gamma t_2 \cdot \frac{A-\Gamma e(X)}{e(X)} \right] \right],\]

经过变换可得对应未加权表达式。该表示本身是新的，它从对偶角度简化了 bound 的优化结构，使得后续的 DR 估计更易操作。
- 直觉：通过引入校准权重 \(w\) 的极限形式（在极值点取到），将 bound 写为加权矩的形式，可被看成一种 DR 估计方程的目标值。

命题 2（Relaxed population bounds via quantile regression）
对 \(E[Y(1)]\) 的下界，存在一个由加权分位数回归定义的 relaxed 下界：

\[\text{LB}_{rel} = E\left[ \frac{AY}{e(X)} \right] - \frac{\Gamma-1}{\Gamma} E\left[ w_1(X)\cdot (Y - Q_1(X))_+ \right] + \frac{\Gamma-1}{\Gamma} E\left[ w_2(X)\cdot ... \right],\]

其中 \(Q_1(X)\) 是某个 \(\tau\)-分位数（由加权分位数回归获得），权重函数是 \(e(X)\) 和 \(\Gamma\) 的函数。若分位数模型正确，则 relaxed bound = sharp bound。
- 核心创新：通过分位数回归提供了一种 连续放松：若分位数模型误设，bound 可能变宽，但仍是有效的下界；若正确，达到最窄。

定理 3+4（样本点估计与收敛速度）
设 \(\hat{\gamma},\hat{\beta},\hat{\theta}\) 为正则化校准估计的解，构造 bound 的样本估计值 \(\hat{\text{LB}}\) 和 \(\hat{\text{UB}}\)，以及区间 \(\hat{\text{CI}}\)。则有： - 收敛速度：在稀疏假设下，\(\hat{\text{LB}}\) 和真界之间差距为 \(O_p\left( \sqrt{s \log p / n} \right)\)。 - 模型辅助 CI：若 PS 模型正确，\(\hat{\text{CI}}\) 渐近覆盖真实 ATE 的概率至少为 \(1-\alpha\)；若 outcome mean 模型也为线性且正确，则 \(\hat{\text{CI}}\) 也是双重稳健的（即若仅 outcome 正确也可达到覆盖）。 - 证明难点：data-dependent weight \(w(\cdot;\hat{\gamma}_{\text{RCAL}})\) 和 data-dependent response variable \(\tilde{Y}_+(\ldots)\) 的出现，使得常规的 Lasso 分析不能直接应用。解决方案是扩展 Tan (2020b) 的 expanded quadratic inequality。

证明路线与技术技巧（理论型必写）¶

整体路线（以 bound 估计量 \(\hat{\alpha}_{\text{RWL},1+}\) 为例，对应下界中的一个组分）：

Step 1: 构造估计方程。将人口水平的 sharp/relaxed bound 写成一个 加权矩 的形式，如 \(\alpha = E[ AY/e(X) - \Lambda(X, Y)]\)。对 \(\alpha\) 的估计等价于解一个带 nuisance 参数 \((\gamma,\beta,\theta)\) 的方程。
Step 2: 校准估计 + Lasso。对 \(\gamma\)（PS）和 \(\beta\)（outcome mean）及 \(\theta\)（分位数）用校准损失加 L1 惩罚求解。校准损失的特殊形式保证估计的 PS 具有 相对误差控制（即 \(\hat{e}/e\) 及其倒数有界，以高概率）。这一步是 Tan 2017/2018 已有的结果，但这里需要同时处理多个模型（PS + outcome mean + quantile）。
Step 3: 构建 bound 估计量。代入上述估计值，得到样本 bound \(\hat{\alpha}\)。
Step 4: 分解误差项。

\[\hat{\alpha} - \alpha = \sum_{i=1}^n \psi_i + R_n,\]

其中 \(\psi_i\) 为 influence function 项，\(R_n\) 为余项。核心是要证明 \(R_n = o_p(n^{-1/2})\)（实现渐近正态）或至少 \(R_n = O_p(\sqrt{s\log p / n})\)（实现收敛速度）。
Step 5: 应用 expanded quadratic inequality。传统 Lasso 分析无法处理 data-dependent weight 和 data-dependent response。Tan (2020b) 的技巧是构造一个关于 \(\gamma\) 的辅助不等式，将 \(\hat{\gamma}_{\text{RCAL}}\) 与真实 \(\gamma^0\) 的差与校准损失梯度联系起来，再结合 Lasso 的 KKT 条件与 restricted eigenvalue 条件，推导出 \(\|\hat{\gamma}_{\text{RCAL}} - \gamma^0\|_2 = O_p(\sqrt{s \log p / n})\)。
本文的新拓展：不仅 PS 估计，outcome mean 和分位数估计也是 data-dependent 的（因权重依赖于 \(\hat{\gamma}_{\text{RCAL}}\)），增加了嵌套复杂。作者通过 同时展开所有依赖关系，并证明 累积误差传播不改变收敛速率。
Step 6: CI 构造。基于 influence function 的方差估计（采用 plug-in 方式），构造 Wald 区间。覆盖率证明依赖于 PS 模型正确时的 Neyman 正交性（余项中 outcome 模型的偏差得到抵消）；当 outcome mean 为线性且正确时，outcome 误设的额外偏差也被正交化吸收，达到 DR 覆盖。

关键跳跃点： - 证明中最重要的一个引理（经推断存在，名称待查证）是 “在 data-dependent weight 和 data-dependent response 下同时控制三个 Lasso 估计量的联合收敛速率”。它需要保证 \(\hat{\gamma}\) 和 \(\hat{\beta}\) 和 \(\hat{\theta}\) 的乘积项（如 \(\|\hat{\gamma}-\gamma^0\|_2 \cdot \|\hat{\beta}-\beta^0\|_2\)）快速衰减。这是与原 Tan 系列（单阶段、只有 PS 估计）的最大区别。

技术技巧点名： - Expanded quadratic inequality（EQI; Tan 2020b）：核心工具，用于从校准损失的梯度条件推导精确的 \(L_2\) 误差界，而不是传统 Lasso 使用的 basic inequality + restricted eigenvalue（后者更适用于最小二乘损失）。EQI 的优势是可以处理 校准损失的非对称性 和 估计权重嵌套依赖。 - Calibration loss: 具体为 \(\ell_{\text{cal}}(\gamma) = -A X^\top\gamma + \log(1+\exp(X^\top\gamma))\) 加上一个二次项。不同于 logistic 损失，校准损失最小化者使 \(\hat{e}/(1-\hat{e})\) 与真实 \(e_0/(1-e_0)\) 的比率有界。 - Restricted eigenvalue condition（Bickel et al. 2008）：用于控制 Lasso 估计量的 \(L_2\) 误差，本文依赖此假设。 - Check loss for quantile regression（Belloni & Chernozhukov 2011）：加权分位数回归用于 relaxed bound，其渐近理论已被充分建立。

真实例子与应用¶

本文包含一个 真实数据例子：右心导管插入术（Right-Heart Catheterization, RHC） 数据。为分析该手术对生存时间（视为连续结果，处理后对数生存）的影响，研究者对 30 天死亡率进行灵敏度分析。

数据场景：共有 \(n\approx 5735\) 个样本，\(p\approx 50\) 个协变量（包括年龄、疾病严重度指标等）。处理 \(A=1\) 为 RHC，\(A=0\) 为无 RHC。结局 \(Y\) 为 30 天生存。
如何应用本文方法：设定 \(\Gamma = 1.1, 1.2, 1.5\) 等多个值。对于每个 \(\Gamma\)，用 regularized calibrated estimation 拟合 PS（logistic 校准 + Lasso）、outcome mean（线性 + Lasso）和 outcome quantile（加权检查损失 + Lasso）。计算 relaxed bounds（分位数模型为加权线性）和对应的点估计与 CI。
得到的结果：当 \(\Gamma=1\)（无混杂），ATE 点估计为 \(-0.12\)（RHC 降低生存概率？），随着 \(\Gamma\) 增大，区间变宽。与 Zhao et al. (2017) 的区间对比：本文的区间更窄（尤其在 outcome 模型加入后），且本文的区间在 PS 模型误设时（使用 misspecified PS）依然保持覆盖，而 Dorn & Guo (2021) 的区间（仅 IPW）在误设时出现覆盖不足。
该例子想说明：① 通过引入 outcome 信息，bound 区间可以比纯 IPW 方法更紧；② model-assisted CI 的覆盖性质在实际误设下仍稳健；③ 高维 Lasso 的使用并未破坏 DR 性质。

🔎 结论是否比证明窄¶

需注意以下几点（这里仅指出 具体语句 层面的gap，不替代研究者判断）：

Relaxed bounds 退化为 sharp bounds 的条件：论文指出若加权分位数模型正确则 relaxed = sharp。但正确在这里指“真实条件分位数恰好是 X 的线性函数”，这是一个很强的参数假设。在非参数或高维非线性分位数下，relaxed bound 可能远宽于 sharp。该 gap 在论文的仿真部分可能并未穷举。(扎根于 Proposition 1 的叙述)
CI 的 DR 性质仅在 outcome mean 为线性时被证明。若 outcome model 是非参数的（如核回归、GAM），本文的证明框架不再直接适用。作者在模型假设中明确做了线性假设（见 outcome mean 模型设定），但未讨论扩展到非参 DR 的可能性。(扎根于 Theorem 4 的假设 condition (C4))
收敛速度依赖于 PS 模型和 outcome 模型的对数稀疏维度一致吗？ 证明中要求 PS、outcome mean、quantile 各自的稀疏度 \(s\) 有 \(s^2 \log p / n \to 0\)，实际上需要更严格的“乘积稀疏”条件。当某一模型的非零系数增加时，整体速度可能下降。这部分在定理陈述中做了简化：假设各 s 同级，论文没说若 s 不同级会怎样。(扎根于定理 3 的 Error bound 证明中对各稀疏参数的设定)

四、开放问题（点到为止，扎根具体语句）¶

非参数/非线性分位数模型下的 relaxed bound vs sharp bound gap
扎根于：Proposition 1 的条件“若加权分位数回归模型正确，则 relaxed bound 退化为 sharp bound”。
开放问题：当分位数模型误设时，relaxed bound 的保守性有多大？能否使用 非参数分位数回归（如系列带核的、随机森林） 并同时保持 DR 性质？需要深层分析（可能是一个较难的 extension）。
建议：阅读近期 5 篇关于 nonparametric quantile regression for causal inference 的 intro，看是否形成共识目标（closed-end problem）或仍存在冲突路线。
双重稳健 CI 在非参数 outcome model 下的推广
扎根于：Theorem 4 的条件限于“outcome mean 模型为线性”。
开放问题：能否将 CI 的 DR 性质扩展到 outcome mean 模型为 广义可加模型、B-spline 近似 或 神经网络？这需要将高维正则化理论中的 oracle 不等式推广到这些函数类，可能涉及 非参 M-estimation 的 Lasso 版本。
定期检查 Ghosh & Tan (2020) 及其后续是否已处理非参情形。
数据依赖的 Γ 选择 / Γ 的统计推断
扎根于：全文所有推断都假设 Γ 已知固定。但实际应用中 Γ 通常是人为选择的（类似 tuning parameter）。
开放问题：如何构建 Γ 的检验（e.g., 假设 Γ=1 vs Γ>1 的检验）？或者如何自适应地选择 Γ（如最小化区间长度但保证覆盖）？这需要有 set-identified 情况下的渐近理论作为基础。
提示：确认同子领域近期（2023-2025）是否有 paper 处理 Γ 的选择，如基于最小遗憾或拟合优度。
将本文框架扩展到 Proximal Causal Inference 的灵敏度分析
扎根于：直觉上，本文的 calibrated DR 框架可以使用 proximal 中的 bridge function 代替线性 outcome model。
开放问题：如何定义在近端设定下的“marginal sensitivity model”？如何用 calibrated estimation 估计 bridge function 并得到类似的双稳健界？这直接连通研究者陈星宇的 proximal 兴趣，但技术难度可能较高（需构建部分识别下的正交估计方程）。
同样，先查阅近期 5 篇相关 intro 判断是否为真缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub