Estimating weighted quantile treatment effects with missing outcome data by double sampling¶

作者: Shuo Sun, Sebastien Haneuse, Alexander W Levis, Catherine Lee, David E Arterburn et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf038

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在结局数据面临 Missing-Not-at-Random (MNAR) 缺失时，如何利用外部补充采样（double sampling）机制来非参数识别并有效估计因果分布的尾部特征——加权分位数处理效应（WQTE）。当前该方向的成熟度处于"识别条件刚建立、IPW 估计量与逐点/均匀渐近理论刚成型，但半参数效率界与稳健估计尚空白"的阶段。

发展脉络： - 奠基工作：分位数处理效应（QTE）的因果识别与估计起源于 Heckman 等（1997）对工资分布异质性的研究，随后 Firpo（2007）将 QTE 置于潜在结果框架下，提出了基于倾向得分逆概率加权（IPW）的估计量，并给出了逐点渐近性质。这确立了"用 IPW 把潜在结果分布拉回可观测分布"的基本路线。 - 主要进展（QTE 到 WQTE）：当目标人群与实际研究人群不一致（如 EHR 数据中的选择偏差）时，研究者转向加权分位数处理效应（WQTE）。Hong（2010）与 Firpo 等（2018）将 IPW 方法推广至 WQTE，但均假设结局数据完全可观测。 - 主要进展（缺失数据机制）：对于结局缺失，传统因果推断文献（如 Rotnitzky & Robins 1995，Bang & Robins 2005）主要处理 Missing-at-Random (MAR)，即缺失仅依赖于可观测协变量。对于 MNAR，Robins 等（2000）与 Bang & Robins（2005）指出，若无外部信息，识别必须依赖对缺失机制本身的参数化假设，这极易导致模型误设与不可检验。 - 当前 frontier（Double Sampling 与 MNAR）：为绕开对原始缺失机制的 MNAR 假设，近期文献重新审视了经典的双相采样（double sampling / two-phase sampling，Neyman 1938）在 EHR 场景下的应用。Haneuse 等（2021）与 Lee 等（2022）在均值因果效应（ATE）框架下证明：若对缺失子样本进行随机补充采集，则仅依赖 double sampling 的随机化假设即可识别 ATE，无需对原始缺失做任何 MNAR 假设。 - 本文的位置：本文将 Haneuse 等（2021）的 ATE+double sampling 识别框架，推广至分布尾部特征 WQTE，并构造了允许非参倾向得分估计的 IPW 估计量，推导了逐点与均匀渐近性质及 Bootstrap 推断方法。

子线索聚类： 1. QTE/WQTE 的完全观测估计与推断：Firpo（2007），Hong（2010），Firpo 等（2018）。这一簇在完全观测下建立 IPW 估计与逐点渐近理论，留下"缺失数据下如何处理"的口子。 2. 因果推断中的 MNAR 识别与敏感性分析：Robins 等（2000），Bang & Robins（2005）。这一簇揭示了 MNAR 下无外部信息则不可识别的本质困难，留下"如何引入外部信息打破不可识别"的口子。 3. Double sampling / Two-phase design 在因果中的应用：Neyman（1938），Haneuse 等（2021），Lee 等（2022）。这一簇在均值效应（ATE）下建立了仅靠 double sampling 随机化即可识别 MNAR 结局的理论，留下"分布效应（QTE/WQTE）是否可识别、如何均匀推断"的口子。

这个方向在追问的核心问题： 1. 识别问题：在结局 MNAR 下，何种外部数据结构（如 double sampling）与最小假设集足以非参数识别因果分布效应（QTE/WQTE）？ 2. 估计与渐近问题：当倾向得分与 double sampling 概率被非参估计时，IPW 估计量在分位数紧集上的均匀收敛速率与渐近分布是什么？非参估计的偏差如何控制？ 3. 推断问题：如何构造跨分位数的均匀置信带？Bootstrap 在非参 IPW 框架下是否有效？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成："现有 WQTE 方法均假设完全数据，而 EHR 等场景结局常 MNAR；利用 double sampling 可在无需对原始缺失机制做 MNAR 假设下识别 WQTE，这是显然的下一步。" - 被淡化或回避的竞争路线：作者未讨论敏感性分析路线（如 Robins 等 2000 的参数化 MNAR 模型 + sensitivity parameter），也未讨论Proxy / Negative control路线（如 Miao 等 2023 用代理变量识别 MNAR）。这两条路线在无 double sampling 时亦可尝试识别，作者回避了与它们的对比。 - 明显该被引却未出现的：半参数效率理论的核心文献（如 Bickel 等 1993 的 Efficient and Adaptive Estimation for Semiparametric Models，或 Robins 等 1994 的 efficient influence function 推导），以及均匀推断的现代经验过程文献（如 Chernozhukov 等 2013 的 Gaussian approximation for suprema of empirical processes）。这些是推导效率界与均匀渐近的基石，intro 中缺席，值得研究者去查：是作者刻意回避效率讨论，还是理论部分实际隐含引用？

张力：未见明显对立引用。各子线索在不同设定下得出一致结论：MAR 下可识别且 IPW 有效；MNAR 下无外部信息不可识别；引入 double sampling 后可识别。逻辑递进，无矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Z\)：可观测协变量（向量），如患者基线特征。
\(A\)：二值处理（\(A \in \{0, 1\}\)），如两种手术方式。
\(Y\)：连续结局（潜在结果框架下有 \(Y(1), Y(0)\)），如 BMI 减少量。注意：\(Y\) 在原始数据中可能缺失。
\(R\)：缺失指示变量（\(R=1\) 表示 \(Y\) 可观测，\(R=0\) 表示 \(Y\) 缺失）。关键：\(R\) 可能依赖于不可观测的 \(Y\) 本身，即 MNAR。
\(S\)：Double sampling 指示变量（\(S=1\) 表示该个体被抽入补充子样本，\(S=0\) 表示未被抽入）。若 \(S=1\)，则 \(Y\) 被强制采集（无论 \(R\) 为何）；若 \(S=0\) 且 \(R=0\)，则 \(Y\) 仍缺失。
\(W = (Z, A, R, S)\)：始终可观测的变量组合。
倾向得分：\(\pi_A(z) = P(A=1 | Z=z)\)。
原始观测概率：\(\pi_R(z) = P(R=1 | Z=z)\)（不可识别，因 MNAR）。
Double sampling 概率：\(\pi_S(z) = P(S=1 | Z=z, R=0)\)（可识别，因仅依赖可观测 \(Z\) 与 \(R\)）。
目标 estimand（WQTE）：对分位数水平 \(\tau \in (0,1)\)，加权分位数处理效应为 \(\Delta_\tau = q_{Y(1), w}(\tau) - q_{Y(0), w}(\tau)\)，其中 \(q_{Y(a), w}(\tau)\) 是加权潜在结果分布 \(F_{Y(a), w}(y) = E[w(Z) I(Y(a) \le y)] / E[w(Z)]\) 的 \(\tau\)-分位数，\(w(Z)\) 是研究者指定的权重函数（如用于将 EHR 样本拉回目标人群）。

模型与数据生成机制： - 潜在结果模型：\((Y(1), Y(0), R(1), R(0), S(1), S(0))\) 由 \(Z\) 生成，满足 SUTVA，观测结局 \(Y = A Y(1) + (1-A) Y(0)\)，观测缺失 \(R = A R(1) + (1-A) R(0)\)。 - Double sampling 机制：在 \(R=0\) 的个体中，以概率 \(\pi_S(Z)\) 独立随机抽取补充采样，抽中则 \(S=1\) 且 \(Y\) 被观测。 - 要估的对象：\(\Delta_\tau\) 对所有 \(\tau \in \mathcal{T} \subset (0,1)\)（紧集）。

可观测数据： - 主样本：对 \(i=1,\ldots,n\)，观测 \((Z_i, A_i, R_i)\)；若 \(R_i=1\)，还观测 \(Y_i\)。 - 补充样本：对 \(j=1,\ldots,m\)（从 \(R=0\) 的主样本中二次抽样），观测 \((Z_j, A_j, Y_j)\)，且已知其 \(S_j=1\)。 - 不可观测、靠假设识别的：\(R=0\) 且 \(S=0\) 的个体的 \(Y\)，以及 \(\pi_R(Z)\) 的具体机制。

第二步：最小内核——最简特例（\(w(Z)=1\), 单点分位数 \(\tau\)）

剥掉权重与均匀推断的复杂性，最小内核是：在 MNAR 缺失下，仅靠 double sampling 的随机化，如何用 IPW 识别并估计单点 QTE \(\Delta_\tau = q_{Y(1)}(\tau) - q_{Y(0)}(\tau)\)？

在最简特例下，潜在结果分布 \(F_{Y(a)}(y) = P(Y(a) \le y)\) 的识别公式退化为：

\[F_{Y(a)}(y) = P(Y \le y, R=1 | A=a) + P(Y \le y, S=1 | A=a) \frac{P(R=0 | A=a)}{P(S=1 | A=a)}\]

由于 \(P(S=1 | A=a) = P(S=1, R=0 | A=a)\)（double sampling 仅在 \(R=0\) 时发生），且 \(P(R=0 | A=a) = 1 - P(R=1 | A=a)\)，上式可化简为：

\[F_{Y(a)}(y) = P(Y \le y, R=1 | A=a) + P(Y \le y, S=1 | A=a) \frac{1 - P(R=1 | A=a)}{P(S=1 | A=a)}\]

关键洞察：这个识别公式完全消去了不可识别的 \(\pi_R(Z)\)！它仅依赖可观测事件的概率：\((Y \le y, R=1, A=a)\)、\((Y \le y, S=1, A=a)\)、\(P(R=1 | A=a)\) 与 \(P(S=1 | A=a)\)。这就是 double sampling 打破 MNAR 不可识别的数学本质——用 \(S=1\) 的子样本无偏代表了 \(R=0\) 的缺失人群，再用 IPW 把这个代表拉回全人群。

对应的 IPW 估计量（以 \(F_{Y(1)}(y)\) 为例）为：

\[\hat{F}_{Y(1)}(y) = \frac{1}{n_a} \sum_{i: A_i=1} \left[ \frac{R_i I(Y_i \le y)}{\hat{\pi}_A(Z_i)} + \frac{S_i I(Y_i \le y)}{\hat{\pi}_A(Z_i) \hat{\pi}_S(Z_i)} (1 - \hat{\pi}_R(Z_i)) \right]\]

其中 \(n_a\) 是处理组样本量。难点在于：\(\hat{\pi}_R(Z_i)\) 本身在 MNAR 下不可估计！但识别公式中 \((1 - \hat{\pi}_R(Z_i))\) 的项被 \(S_i / \hat{\pi}_S(Z_i)\) 加权，而 \(S_i=1\) 时 \(R_i\) 必为 0（补充采样仅针对 \(R=0\)），因此 \((1 - \hat{\pi}_R(Z_i))\) 在 \(S_i=1\) 的子样本中恒为 1，无需估计！这是整个证明路线中最精妙的跳跃点——MNAR 的不可识别参数在 IPW 加权下被观测事实消去。

三、这篇论文做了什么¶

三句话： ① 研究了结局 MNAR 下利用 double sampling 识别与估计因果 WQTE 的问题； ② 核心方法是仅依赖 double sampling 随机化假设的逆概率加权（IPW）估计，允许倾向得分与 double sampling 概率被非参估计； ③ 主要结论是推导了 IPW 估计量在单点与跨分位数紧集上的逐点与均匀渐近性质，并配套了有效的逐点与均匀 Bootstrap 推断方法。

关键设定与假设：在第二节最小记号基础上补全： - Assumption 1 (SUTVA & Consistency)：标准潜在结果框架，无干涉，观测结局等于潜在结果。 - Assumption 2 (Ignorability of A)：\(A \perp (Y(1), Y(0)) | Z\)，即倾向得分假设，保证 QTE 因果解释。 - Assumption 3 (Positivity of A)：\(0 < \pi_A(Z) < 1\) a.s.，保证处理分配有支撑。 - Assumption 4 (Double Sampling Randomization)：\(S \perp Y | (Z, A, R=0)\)，即补充采样在给定协变量与缺失状态下，与结局独立。这是本文最核心的识别假设，替代了对原始缺失机制的 MNAR 假设。 - Assumption 5 (Positivity of S)：\(P(S=1 | Z, R=0) > 0\) a.s.，保证缺失人群有概率被补充采集。 - Assumption 6 (MNAR 允许)：\(R\) 可依赖于 \(Y\)（即 \(P(R=1 | Z, Y)\) 可随 \(Y\) 变化），无需 MAR 假设。 - 相比已有文献（Haneuse 2021, Lee 2022）：本文将相同假设集从 ATE 推广至 WQTE，假设本身未放宽或强化，但目标 estimand 从均值变为分位数函数，带来均匀渐近与分位数逆函数的全新技术困难。

主要结果： 1. Theorem 1 (非参数识别)：在 Assumptions 1-6 下，加权潜在结果分布 \(F_{Y(a), w}(y)\) 可由可观测数据非参数识别，识别公式为：

\[F_{Y(a), w}(y) = \frac{E\left[ w(Z) \left\{ \frac{R I(Y \le y) I(A=a)}{\pi_A(Z)} + \frac{S I(Y \le y) I(A=a) (1-\pi_R(Z))}{\pi_A(Z) \pi_S(Z)} \right\} \right]}{E\left[ w(Z) \left\{ \frac{R I(A=a)}{\pi_A(Z)} + \frac{S I(A=a) (1-\pi_R(Z))}{\pi_A(Z) \pi_S(Z)} \right\} \right]}\]

直觉：第一项捕获 \(R=1\) 的可观测人群，第二项用 \(S=1\) 的补充样本 IPW 代表 \(R=0\) 的缺失人群，权重 \(1/\pi_S(Z)\) 拉回缺失人群的分布，\((1-\pi_R(Z))\) 消去缺失比例。必要条件：\(\pi_S(Z)\) 的 positivity 与 double sampling 的随机化。解决的技术难点：在 MNAR 下消去不可识别的 \(\pi_R(Z)\) 的影响。

Theorem 2 (逐点渐近性质)：在分位数水平 \(\tau\) 处，若 \(\hat{\pi}_A, \hat{\pi}_S\) 为非参估计且满足特定收敛速率条件（如 \(n^{-1/4}\) 速率以控制偏差），则 IPW 估计量 \(\hat{\Delta}_\tau\) 满足：
\[\sqrt{n} (\hat{\Delta}_\tau - \Delta_\tau) \rightarrow_d N(0, \sigma_\tau^2)\]
其中 \(\sigma_\tau^2\) 的形式涉及潜在结果分布的密度函数 \(f_{Y(a), w}\) 在分位数处的值、倾向得分与 double sampling 概率的方差。直觉：非参估计的偏差被 \(n^{-1/4}\) 速率条件控制，使得 IPW 估计量的渐近分布与真实概率下的理想估计量相同。
Theorem 3 (均匀渐近性质)：跨分位数紧集 \(\mathcal{T} \subset (0,1)\)，过程 \(\sqrt{n} (\hat{\Delta}_\tau - \Delta_\tau)_{\tau \in \mathcal{T}}\) 在 Skorokhod space \(D[\mathcal{T}]\) 上弱收敛于一个 Gaussain process \(G(\tau)\)，其协方差结构由 \(\sigma_{\tau_1, \tau_2}\) 给出。直觉：这是 Theorem 2 的逐点结果向函数空间的推广，要求分位数过程的均匀控制。

证明路线与技术技巧： - 整体路线： 1. 识别：从 double sampling 随机化出发，推导 \(F_{Y(a), w}(y)\) 的识别公式，消去 \(\pi_R(Z)\)。 2. 估计量构造：将识别公式中的期望替换为样本均值，概率替换为非参估计 \(\hat{\pi}_A, \hat{\pi}_S\)，构造 IPW 估计量 \(\hat{F}_{Y(a), w}(y)\)，再取逆函数得到 \(\hat{\Delta}_\tau\)。 3. 线性展开：对 \(\hat{F}_{Y(a), w}(y)\) 进行一阶 Taylor 展开，分离出非参估计引入的偏差项与随机项。 4. 偏差控制：利用非参估计的收敛速率条件（如 \(n^{-1/4}\)），证明偏差项在 \(\sqrt{n}\) 尺度下可忽略。 5. 弱收敛：对剩余的随机项，应用经验过程理论，证明其跨 \(y\) 与 \(\tau\) 的均匀弱收敛至 Gaussian process。 - 关键跳跃点： - 消去 \(\pi_R(Z)\)：识别公式中 \((1-\pi_R(Z))\) 项在 \(S=1\) 子样本中恒为 1（因 \(S=1 \Rightarrow R=0\)），使得 IPW 估计量无需估计不可识别的 \(\pi_R(Z)\)。这是整个识别与估计的基石。 - 非参偏差控制：IPW 估计量涉及 \(1/\hat{\pi}_A\) 与 \(1/\hat{\pi}_S\) 的乘积，非参估计的偏差在此乘积下可能累积。作者通过假定 \(n^{-1/4}\) 收敛速率，利用经典半参数理论中的"偏差-方差权衡"条件，证明偏差在 \(\sqrt{n}\) 尺度下消失。 - 分位数过程的均匀收敛：从分布过程的均匀收敛 \(\hat{F}_{Y(a), w}(y)\) 推导分位数过程的均匀收敛 \(\hat{q}_{Y(a), w}(\tau)\)，需要 Bahadur-Kiefer 型表示，将分位数偏差映射回分布偏差，并控制余项的均匀阶。 - 技术技巧点名： - Inverse-probability weighting (IPW)：用于构造估计量，将可观测子样本拉回全人群。 - Bahadur-Kiefer representation：用于将分位数过程的渐近分析转化为分布过程的渐近分析，是均匀推断的关键工具。 - Empirical process / Donsker class argument：用于证明跨 \(y\) 与 \(\tau\) 的函数类满足 Glivenko-Cantelli 与 Donsker 条件，支撑均匀弱收敛。 - Cross-fitting / Sample splitting（隐含）：非参估计 \(\hat{\pi}_A, \hat{\pi}_S\) 的偏差控制通常需要 sample splitting 以避免过拟合，作者在理论部分假定估计量独立于当前样本（或通过交叉拟合实现）。

真实例子与应用： - 数据：EHR 减重手术数据，比较两种手术（Roux-en-Y gastric bypass vs. sleeve gastrectomy）对 BMI 减少量（3 年术后）的 WQTE。 - 缺失机制：BMI 结局在 EHR 中大量缺失（约 60% 患者无 3 年随访 BMI），且缺失极可能 MNAR（未随访患者可能减重效果差）。 - Double sampling：研究团队对部分缺失患者进行主动随访（电话/问卷采集 BMI），形成补充样本。 - 方法应用：用本文 IPW 估计量估计不同分位数 \(\tau \in \{0.1, 0.25, 0.5, 0.75, 0.9\}\) 的 WQTE，并用 Bootstrap 构造逐点与均匀置信区间。 - 结果：在低分位数（\(\tau=0.1, 0.25\)，即减重效果最差的尾部），bypass 相对 sleeve 的 WQTE 显著大于均值效应 ATE 所暗示的差距，表明 bypass 在减重效果差的亚人群中优势更大。均匀置信带在 \(\tau \in [0.1, 0.9]\) 上未包含 0，验证了尾部效应的稳健性。 - 想说明什么：展示 WQTE 在 MNAR 缺失下能揭示均值效应掩盖的尾部异质性，且 double sampling + IPW 能有效纠正 MNAR 偏差。

🔎 结论是否比证明窄： - Theorem 2 与 3 的逐点与均匀渐近性质严格依赖于非参估计 \(\hat{\pi}_A, \hat{\pi}_S\) 的 \(n^{-1/4}\) 收敛速率条件。作者在定理陈述中明确标注了此条件，但在讨论部分泛泛 claim"方法允许非参估计"，未强调若非参估计速率慢于 \(n^{-1/4}\)（如高维设定下或粗核估计），渐近正态性与 Bootstrap 有效性可能崩溃。这是一个条件 X 下严格证明、却被泛泛 claim 的地方。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界与稳健估计：本文仅构造了 IPW 估计量，未推导 MNAR+double sampling 设定下的 semiparametric efficiency bound，也未构造 augmented IPW (AIPW) / doubly robust (DR) 估计量。扎根点：Theorem 2 的方差 \(\sigma_\tau^2\) 是否为该模型下的渐近方差下界？若否，构造 DR 估计量可缩小方差。需查阅 Robins 等（1994）与 Tsiatis（2006）的半参数效率理论，推导该缺失模式下的 efficient influence function。
非参估计速率条件的放宽：Theorem 2-3 要求 \(\hat{\pi}_A, \hat{\pi}_S\) 达 \(n^{-1/4}\) 速率，这在高维协变量下可能不满足。扎根点：作者在 Assumption 与定理陈述中明确写了速率条件，但未讨论若速率慢于 \(n^{-1/4}\)（如高维下 minimax 速率更慢），估计量的渐近行为如何（偏差是否主导？是否需要 higher-order bias correction 如 HOIF？）。这与研究者对 higher-order U-statistics / HOIF 的兴趣直接对接。
均匀推断的 Gaussian approximation 精细界：Theorem 3 证明了均匀弱收敛，但未给出 sup-norm 下的 Gaussian approximation 精细界（如 Kolmogorov-Smirnov 型的 Berry-Esseen 界）。扎根点：作者引用了经典经验过程理论证明弱收敛，但未涉及 Chernozhukov 等（2013, 2014）的 Gaussian approximation for suprema of empirical processes 框架，后者可给出有限样本下 Bootstrap 置信带的覆盖误差显式界。需查 Chernozhukov 等 2013 的 Annals of Statistics 论文是否适用于此 IPW 过程。
与 Proxy / Negative control 路线的对比与融合：Intro 中回避了 Miao 等（2023）用 proxy variable 识别 MNAR 的路线。扎根点：Intro 第 1-2 页仅讨论 double sampling 与参数化 MNAR 模型，未提及 proxy 路线。若研究者同时有 proxy 与 double sampling，识别条件能否进一步放宽？这需去读 Miao 等 2023 的 JASA 论文与 Kuroki 等（2014）的 proxy 相关工作，确认是否真 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub

Estimating weighted quantile treatment effects with missing outcome data by double sampling¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论