跳转至

Estimating weighted quantile treatment effects with missing outcome data by double sampling

作者: Shuo Sun, Sebastien Haneuse, Alexander W Levis, Catherine Lee, David E Arterburn et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Harvard University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf038


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在结局数据面临 Missing-Not-at-Random (MNAR) 缺失时,如何利用外部补充采样(double sampling)机制来非参数识别有效估计因果分布的尾部特征——加权分位数处理效应(WQTE)。当前该方向的成熟度处于"识别条件刚建立、IPW 估计量与逐点/均匀渐近理论刚成型,但半参数效率界与稳健估计尚空白"的阶段。

发展脉络: - 奠基工作:分位数处理效应(QTE)的因果识别与估计起源于 Heckman 等(1997)对工资分布异质性的研究,随后 Firpo(2007)将 QTE 置于潜在结果框架下,提出了基于倾向得分逆概率加权(IPW)的估计量,并给出了逐点渐近性质。这确立了"用 IPW 把潜在结果分布拉回可观测分布"的基本路线。 - 主要进展(QTE 到 WQTE):当目标人群与实际研究人群不一致(如 EHR 数据中的选择偏差)时,研究者转向加权分位数处理效应(WQTE)。Hong(2010)与 Firpo 等(2018)将 IPW 方法推广至 WQTE,但均假设结局数据完全可观测。 - 主要进展(缺失数据机制):对于结局缺失,传统因果推断文献(如 Rotnitzky & Robins 1995,Bang & Robins 2005)主要处理 Missing-at-Random (MAR),即缺失仅依赖于可观测协变量。对于 MNAR,Robins 等(2000)与 Bang & Robins(2005)指出,若无外部信息,识别必须依赖对缺失机制本身的参数化假设,这极易导致模型误设与不可检验。 - 当前 frontier(Double Sampling 与 MNAR):为绕开对原始缺失机制的 MNAR 假设,近期文献重新审视了经典的双相采样(double sampling / two-phase sampling,Neyman 1938)在 EHR 场景下的应用。Haneuse 等(2021)与 Lee 等(2022)在均值因果效应(ATE)框架下证明:若对缺失子样本进行随机补充采集,则仅依赖 double sampling 的随机化假设即可识别 ATE,无需对原始缺失做任何 MNAR 假设。 - 本文的位置:本文将 Haneuse 等(2021)的 ATE+double sampling 识别框架,推广至分布尾部特征 WQTE,并构造了允许非参倾向得分估计的 IPW 估计量,推导了逐点与均匀渐近性质及 Bootstrap 推断方法。

子线索聚类: 1. QTE/WQTE 的完全观测估计与推断:Firpo(2007),Hong(2010),Firpo 等(2018)。这一簇在完全观测下建立 IPW 估计与逐点渐近理论,留下"缺失数据下如何处理"的口子。 2. 因果推断中的 MNAR 识别与敏感性分析:Robins 等(2000),Bang & Robins(2005)。这一簇揭示了 MNAR 下无外部信息则不可识别的本质困难,留下"如何引入外部信息打破不可识别"的口子。 3. Double sampling / Two-phase design 在因果中的应用:Neyman(1938),Haneuse 等(2021),Lee 等(2022)。这一簇在均值效应(ATE)下建立了仅靠 double sampling 随机化即可识别 MNAR 结局的理论,留下"分布效应(QTE/WQTE)是否可识别、如何均匀推断"的口子。

这个方向在追问的核心问题: 1. 识别问题:在结局 MNAR 下,何种外部数据结构(如 double sampling)与最小假设集足以非参数识别因果分布效应(QTE/WQTE)? 2. 估计与渐近问题:当倾向得分与 double sampling 概率被非参估计时,IPW 估计量在分位数紧集上的均匀收敛速率与渐近分布是什么?非参估计的偏差如何控制? 3. 推断问题:如何构造跨分位数的均匀置信带?Bootstrap 在非参 IPW 框架下是否有效?

⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:"现有 WQTE 方法均假设完全数据,而 EHR 等场景结局常 MNAR;利用 double sampling 可在无需对原始缺失机制做 MNAR 假设下识别 WQTE,这是显然的下一步。" - 被淡化或回避的竞争路线:作者未讨论敏感性分析路线(如 Robins 等 2000 的参数化 MNAR 模型 + sensitivity parameter),也未讨论Proxy / Negative control路线(如 Miao 等 2023 用代理变量识别 MNAR)。这两条路线在无 double sampling 时亦可尝试识别,作者回避了与它们的对比。 - 明显该被引却未出现的:半参数效率理论的核心文献(如 Bickel 等 1993 的 Efficient and Adaptive Estimation for Semiparametric Models,或 Robins 等 1994 的 efficient influence function 推导),以及均匀推断的现代经验过程文献(如 Chernozhukov 等 2013 的 Gaussian approximation for suprema of empirical processes)。这些是推导效率界与均匀渐近的基石,intro 中缺席,值得研究者去查:是作者刻意回避效率讨论,还是理论部分实际隐含引用?

张力: 未见明显对立引用。各子线索在不同设定下得出一致结论:MAR 下可识别且 IPW 有效;MNAR 下无外部信息不可识别;引入 double sampling 后可识别。逻辑递进,无矛盾。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(Z\):可观测协变量(向量),如患者基线特征。
  • \(A\):二值处理(\(A \in \{0, 1\}\)),如两种手术方式。
  • \(Y\):连续结局(潜在结果框架下有 \(Y(1), Y(0)\)),如 BMI 减少量。注意:\(Y\) 在原始数据中可能缺失。
  • \(R\):缺失指示变量(\(R=1\) 表示 \(Y\) 可观测,\(R=0\) 表示 \(Y\) 缺失)。关键:\(R\) 可能依赖于不可观测的 \(Y\) 本身,即 MNAR。
  • \(S\):Double sampling 指示变量(\(S=1\) 表示该个体被抽入补充子样本,\(S=0\) 表示未被抽入)。\(S=1\),则 \(Y\) 被强制采集(无论 \(R\) 为何);若 \(S=0\)\(R=0\),则 \(Y\) 仍缺失。
  • \(W = (Z, A, R, S)\):始终可观测的变量组合。
  • 倾向得分\(\pi_A(z) = P(A=1 | Z=z)\)
  • 原始观测概率\(\pi_R(z) = P(R=1 | Z=z)\)不可识别,因 MNAR)。
  • Double sampling 概率\(\pi_S(z) = P(S=1 | Z=z, R=0)\)可识别,因仅依赖可观测 \(Z\)\(R\))。
  • 目标 estimand(WQTE):对分位数水平 \(\tau \in (0,1)\),加权分位数处理效应为 \(\Delta_\tau = q_{Y(1), w}(\tau) - q_{Y(0), w}(\tau)\),其中 \(q_{Y(a), w}(\tau)\) 是加权潜在结果分布 \(F_{Y(a), w}(y) = E[w(Z) I(Y(a) \le y)] / E[w(Z)]\)\(\tau\)-分位数,\(w(Z)\) 是研究者指定的权重函数(如用于将 EHR 样本拉回目标人群)。

模型与数据生成机制: - 潜在结果模型:\((Y(1), Y(0), R(1), R(0), S(1), S(0))\)\(Z\) 生成,满足 SUTVA,观测结局 \(Y = A Y(1) + (1-A) Y(0)\),观测缺失 \(R = A R(1) + (1-A) R(0)\)。 - Double sampling 机制:在 \(R=0\) 的个体中,以概率 \(\pi_S(Z)\) 独立随机抽取补充采样,抽中则 \(S=1\)\(Y\) 被观测。 - 要估的对象\(\Delta_\tau\) 对所有 \(\tau \in \mathcal{T} \subset (0,1)\)(紧集)。

可观测数据: - 主样本:对 \(i=1,\ldots,n\),观测 \((Z_i, A_i, R_i)\);若 \(R_i=1\),还观测 \(Y_i\)。 - 补充样本:对 \(j=1,\ldots,m\)(从 \(R=0\) 的主样本中二次抽样),观测 \((Z_j, A_j, Y_j)\),且已知其 \(S_j=1\)。 - 不可观测、靠假设识别的\(R=0\)\(S=0\) 的个体的 \(Y\),以及 \(\pi_R(Z)\) 的具体机制。

第二步:最小内核——最简特例(\(w(Z)=1\), 单点分位数 \(\tau\)

剥掉权重与均匀推断的复杂性,最小内核是:在 MNAR 缺失下,仅靠 double sampling 的随机化,如何用 IPW 识别并估计单点 QTE \(\Delta_\tau = q_{Y(1)}(\tau) - q_{Y(0)}(\tau)\)

在最简特例下,潜在结果分布 \(F_{Y(a)}(y) = P(Y(a) \le y)\) 的识别公式退化为:

\[F_{Y(a)}(y) = P(Y \le y, R=1 | A=a) + P(Y \le y, S=1 | A=a) \frac{P(R=0 | A=a)}{P(S=1 | A=a)}\]
由于 \(P(S=1 | A=a) = P(S=1, R=0 | A=a)\)(double sampling 仅在 \(R=0\) 时发生),且 \(P(R=0 | A=a) = 1 - P(R=1 | A=a)\),上式可化简为:
\[F_{Y(a)}(y) = P(Y \le y, R=1 | A=a) + P(Y \le y, S=1 | A=a) \frac{1 - P(R=1 | A=a)}{P(S=1 | A=a)}\]
关键洞察:这个识别公式完全消去了不可识别的 \(\pi_R(Z)\)!它仅依赖可观测事件的概率:\((Y \le y, R=1, A=a)\)\((Y \le y, S=1, A=a)\)\(P(R=1 | A=a)\)\(P(S=1 | A=a)\)。这就是 double sampling 打破 MNAR 不可识别的数学本质——用 \(S=1\) 的子样本无偏代表\(R=0\) 的缺失人群,再用 IPW 把这个代表拉回全人群。

对应的 IPW 估计量(以 \(F_{Y(1)}(y)\) 为例)为:

\[\hat{F}_{Y(1)}(y) = \frac{1}{n_a} \sum_{i: A_i=1} \left[ \frac{R_i I(Y_i \le y)}{\hat{\pi}_A(Z_i)} + \frac{S_i I(Y_i \le y)}{\hat{\pi}_A(Z_i) \hat{\pi}_S(Z_i)} (1 - \hat{\pi}_R(Z_i)) \right]\]
其中 \(n_a\) 是处理组样本量。难点在于\(\hat{\pi}_R(Z_i)\) 本身在 MNAR 下不可估计!但识别公式中 \((1 - \hat{\pi}_R(Z_i))\) 的项被 \(S_i / \hat{\pi}_S(Z_i)\) 加权,而 \(S_i=1\)\(R_i\) 必为 0(补充采样仅针对 \(R=0\)),因此 \((1 - \hat{\pi}_R(Z_i))\)\(S_i=1\) 的子样本中恒为 1,无需估计!这是整个证明路线中最精妙的跳跃点——MNAR 的不可识别参数在 IPW 加权下被观测事实消去。


三、这篇论文做了什么

三句话: ① 研究了结局 MNAR 下利用 double sampling 识别与估计因果 WQTE 的问题; ② 核心方法是仅依赖 double sampling 随机化假设的逆概率加权(IPW)估计,允许倾向得分与 double sampling 概率被非参估计; ③ 主要结论是推导了 IPW 估计量在单点与跨分位数紧集上的逐点与均匀渐近性质,并配套了有效的逐点与均匀 Bootstrap 推断方法。

关键设定与假设: 在第二节最小记号基础上补全: - Assumption 1 (SUTVA & Consistency):标准潜在结果框架,无干涉,观测结局等于潜在结果。 - Assumption 2 (Ignorability of A)\(A \perp (Y(1), Y(0)) | Z\),即倾向得分假设,保证 QTE 因果解释。 - Assumption 3 (Positivity of A)\(0 < \pi_A(Z) < 1\) a.s.,保证处理分配有支撑。 - Assumption 4 (Double Sampling Randomization)\(S \perp Y | (Z, A, R=0)\),即补充采样在给定协变量与缺失状态下,与结局独立。这是本文最核心的识别假设,替代了对原始缺失机制的 MNAR 假设。 - Assumption 5 (Positivity of S)\(P(S=1 | Z, R=0) > 0\) a.s.,保证缺失人群有概率被补充采集。 - Assumption 6 (MNAR 允许)\(R\) 可依赖于 \(Y\)(即 \(P(R=1 | Z, Y)\) 可随 \(Y\) 变化),无需 MAR 假设。 - 相比已有文献(Haneuse 2021, Lee 2022):本文将相同假设集从 ATE 推广至 WQTE,假设本身未放宽或强化,但目标 estimand 从均值变为分位数函数,带来均匀渐近与分位数逆函数的全新技术困难。

主要结果: 1. Theorem 1 (非参数识别):在 Assumptions 1-6 下,加权潜在结果分布 \(F_{Y(a), w}(y)\) 可由可观测数据非参数识别,识别公式为:

\[F_{Y(a), w}(y) = \frac{E\left[ w(Z) \left\{ \frac{R I(Y \le y) I(A=a)}{\pi_A(Z)} + \frac{S I(Y \le y) I(A=a) (1-\pi_R(Z))}{\pi_A(Z) \pi_S(Z)} \right\} \right]}{E\left[ w(Z) \left\{ \frac{R I(A=a)}{\pi_A(Z)} + \frac{S I(A=a) (1-\pi_R(Z))}{\pi_A(Z) \pi_S(Z)} \right\} \right]}\]
直觉:第一项捕获 \(R=1\) 的可观测人群,第二项用 \(S=1\) 的补充样本 IPW 代表 \(R=0\) 的缺失人群,权重 \(1/\pi_S(Z)\) 拉回缺失人群的分布,\((1-\pi_R(Z))\) 消去缺失比例。必要条件:\(\pi_S(Z)\) 的 positivity 与 double sampling 的随机化。解决的技术难点:在 MNAR 下消去不可识别的 \(\pi_R(Z)\) 的影响。

  1. Theorem 2 (逐点渐近性质):在分位数水平 \(\tau\) 处,若 \(\hat{\pi}_A, \hat{\pi}_S\) 为非参估计且满足特定收敛速率条件(如 \(n^{-1/4}\) 速率以控制偏差),则 IPW 估计量 \(\hat{\Delta}_\tau\) 满足:

    \[\sqrt{n} (\hat{\Delta}_\tau - \Delta_\tau) \rightarrow_d N(0, \sigma_\tau^2)\]
    其中 \(\sigma_\tau^2\) 的形式涉及潜在结果分布的密度函数 \(f_{Y(a), w}\) 在分位数处的值、倾向得分与 double sampling 概率的方差。直觉:非参估计的偏差被 \(n^{-1/4}\) 速率条件控制,使得 IPW 估计量的渐近分布与真实概率下的理想估计量相同。

  2. Theorem 3 (均匀渐近性质):跨分位数紧集 \(\mathcal{T} \subset (0,1)\),过程 \(\sqrt{n} (\hat{\Delta}_\tau - \Delta_\tau)_{\tau \in \mathcal{T}}\) 在 Skorokhod space \(D[\mathcal{T}]\) 上弱收敛于一个 Gaussain process \(G(\tau)\),其协方差结构由 \(\sigma_{\tau_1, \tau_2}\) 给出。直觉:这是 Theorem 2 的逐点结果向函数空间的推广,要求分位数过程的均匀控制。

证明路线与技术技巧: - 整体路线: 1. 识别:从 double sampling 随机化出发,推导 \(F_{Y(a), w}(y)\) 的识别公式,消去 \(\pi_R(Z)\)。 2. 估计量构造:将识别公式中的期望替换为样本均值,概率替换为非参估计 \(\hat{\pi}_A, \hat{\pi}_S\),构造 IPW 估计量 \(\hat{F}_{Y(a), w}(y)\),再取逆函数得到 \(\hat{\Delta}_\tau\)。 3. 线性展开:对 \(\hat{F}_{Y(a), w}(y)\) 进行一阶 Taylor 展开,分离出非参估计引入的偏差项与随机项。 4. 偏差控制:利用非参估计的收敛速率条件(如 \(n^{-1/4}\)),证明偏差项在 \(\sqrt{n}\) 尺度下可忽略。 5. 弱收敛:对剩余的随机项,应用经验过程理论,证明其跨 \(y\)\(\tau\) 的均匀弱收敛至 Gaussian process。 - 关键跳跃点: - 消去 \(\pi_R(Z)\):识别公式中 \((1-\pi_R(Z))\) 项在 \(S=1\) 子样本中恒为 1(因 \(S=1 \Rightarrow R=0\)),使得 IPW 估计量无需估计不可识别的 \(\pi_R(Z)\)。这是整个识别与估计的基石。 - 非参偏差控制:IPW 估计量涉及 \(1/\hat{\pi}_A\)\(1/\hat{\pi}_S\) 的乘积,非参估计的偏差在此乘积下可能累积。作者通过假定 \(n^{-1/4}\) 收敛速率,利用经典半参数理论中的"偏差-方差权衡"条件,证明偏差在 \(\sqrt{n}\) 尺度下消失。 - 分位数过程的均匀收敛:从分布过程的均匀收敛 \(\hat{F}_{Y(a), w}(y)\) 推导分位数过程的均匀收敛 \(\hat{q}_{Y(a), w}(\tau)\),需要 Bahadur-Kiefer 型表示,将分位数偏差映射回分布偏差,并控制余项的均匀阶。 - 技术技巧点名: - Inverse-probability weighting (IPW):用于构造估计量,将可观测子样本拉回全人群。 - Bahadur-Kiefer representation:用于将分位数过程的渐近分析转化为分布过程的渐近分析,是均匀推断的关键工具。 - Empirical process / Donsker class argument:用于证明跨 \(y\)\(\tau\) 的函数类满足 Glivenko-Cantelli 与 Donsker 条件,支撑均匀弱收敛。 - Cross-fitting / Sample splitting(隐含):非参估计 \(\hat{\pi}_A, \hat{\pi}_S\) 的偏差控制通常需要 sample splitting 以避免过拟合,作者在理论部分假定估计量独立于当前样本(或通过交叉拟合实现)。

真实例子与应用: - 数据:EHR 减重手术数据,比较两种手术(Roux-en-Y gastric bypass vs. sleeve gastrectomy)对 BMI 减少量(3 年术后)的 WQTE。 - 缺失机制:BMI 结局在 EHR 中大量缺失(约 60% 患者无 3 年随访 BMI),且缺失极可能 MNAR(未随访患者可能减重效果差)。 - Double sampling:研究团队对部分缺失患者进行主动随访(电话/问卷采集 BMI),形成补充样本。 - 方法应用:用本文 IPW 估计量估计不同分位数 \(\tau \in \{0.1, 0.25, 0.5, 0.75, 0.9\}\) 的 WQTE,并用 Bootstrap 构造逐点与均匀置信区间。 - 结果:在低分位数(\(\tau=0.1, 0.25\),即减重效果最差的尾部),bypass 相对 sleeve 的 WQTE 显著大于均值效应 ATE 所暗示的差距,表明 bypass 在减重效果差的亚人群中优势更大。均匀置信带在 \(\tau \in [0.1, 0.9]\) 上未包含 0,验证了尾部效应的稳健性。 - 想说明什么:展示 WQTE 在 MNAR 缺失下能揭示均值效应掩盖的尾部异质性,且 double sampling + IPW 能有效纠正 MNAR 偏差。

🔎 结论是否比证明窄: - Theorem 2 与 3 的逐点与均匀渐近性质严格依赖于非参估计 \(\hat{\pi}_A, \hat{\pi}_S\)\(n^{-1/4}\) 收敛速率条件。作者在定理陈述中明确标注了此条件,但在讨论部分泛泛 claim"方法允许非参估计",未强调若非参估计速率慢于 \(n^{-1/4}\)(如高维设定下或粗核估计),渐近正态性与 Bootstrap 有效性可能崩溃。这是一个条件 X 下严格证明、却被泛泛 claim 的地方。


四、开放问题(点到为止,扎根具体语句)

  1. 半参数效率界与稳健估计:本文仅构造了 IPW 估计量,未推导 MNAR+double sampling 设定下的 semiparametric efficiency bound,也未构造 augmented IPW (AIPW) / doubly robust (DR) 估计量。扎根点:Theorem 2 的方差 \(\sigma_\tau^2\) 是否为该模型下的渐近方差下界?若否,构造 DR 估计量可缩小方差。需查阅 Robins 等(1994)与 Tsiatis(2006)的半参数效率理论,推导该缺失模式下的 efficient influence function。

  2. 非参估计速率条件的放宽:Theorem 2-3 要求 \(\hat{\pi}_A, \hat{\pi}_S\)\(n^{-1/4}\) 速率,这在高维协变量下可能不满足。扎根点:作者在 Assumption 与定理陈述中明确写了速率条件,但未讨论若速率慢于 \(n^{-1/4}\)(如高维下 minimax 速率更慢),估计量的渐近行为如何(偏差是否主导?是否需要 higher-order bias correction 如 HOIF?)。这与研究者对 higher-order U-statistics / HOIF 的兴趣直接对接。

  3. 均匀推断的 Gaussian approximation 精细界:Theorem 3 证明了均匀弱收敛,但未给出 sup-norm 下的 Gaussian approximation 精细界(如 Kolmogorov-Smirnov 型的 Berry-Esseen 界)。扎根点:作者引用了经典经验过程理论证明弱收敛,但未涉及 Chernozhukov 等(2013, 2014)的 Gaussian approximation for suprema of empirical processes 框架,后者可给出有限样本下 Bootstrap 置信带的覆盖误差显式界。需查 Chernozhukov 等 2013 的 Annals of Statistics 论文是否适用于此 IPW 过程。

  4. 与 Proxy / Negative control 路线的对比与融合:Intro 中回避了 Miao 等(2023)用 proxy variable 识别 MNAR 的路线。扎根点:Intro 第 1-2 页仅讨论 double sampling 与参数化 MNAR 模型,未提及 proxy 路线。若研究者同时有 proxy 与 double sampling,识别条件能否进一步放宽?这需去读 Miao 等 2023 的 JASA 论文与 Kuroki 等(2014)的 proxy 相关工作,确认是否真 gap。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论