Estimating weighted quantile treatment effects with missing outcome data by double sampling¶
作者: Shuo Sun, Sebastien Haneuse, Alexander W Levis, Catherine Lee, David E Arterburn et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Harvard University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf038
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在结局数据面临 Missing-Not-at-Random (MNAR) 缺失时,如何利用外部补充采样(double sampling)机制来非参数识别并有效估计因果分布的尾部特征——加权分位数处理效应(WQTE)。当前该方向的成熟度处于"识别条件刚建立、IPW 估计量与逐点/均匀渐近理论刚成型,但半参数效率界与稳健估计尚空白"的阶段。
发展脉络: - 奠基工作:分位数处理效应(QTE)的因果识别与估计起源于 Heckman 等(1997)对工资分布异质性的研究,随后 Firpo(2007)将 QTE 置于潜在结果框架下,提出了基于倾向得分逆概率加权(IPW)的估计量,并给出了逐点渐近性质。这确立了"用 IPW 把潜在结果分布拉回可观测分布"的基本路线。 - 主要进展(QTE 到 WQTE):当目标人群与实际研究人群不一致(如 EHR 数据中的选择偏差)时,研究者转向加权分位数处理效应(WQTE)。Hong(2010)与 Firpo 等(2018)将 IPW 方法推广至 WQTE,但均假设结局数据完全可观测。 - 主要进展(缺失数据机制):对于结局缺失,传统因果推断文献(如 Rotnitzky & Robins 1995,Bang & Robins 2005)主要处理 Missing-at-Random (MAR),即缺失仅依赖于可观测协变量。对于 MNAR,Robins 等(2000)与 Bang & Robins(2005)指出,若无外部信息,识别必须依赖对缺失机制本身的参数化假设,这极易导致模型误设与不可检验。 - 当前 frontier(Double Sampling 与 MNAR):为绕开对原始缺失机制的 MNAR 假设,近期文献重新审视了经典的双相采样(double sampling / two-phase sampling,Neyman 1938)在 EHR 场景下的应用。Haneuse 等(2021)与 Lee 等(2022)在均值因果效应(ATE)框架下证明:若对缺失子样本进行随机补充采集,则仅依赖 double sampling 的随机化假设即可识别 ATE,无需对原始缺失做任何 MNAR 假设。 - 本文的位置:本文将 Haneuse 等(2021)的 ATE+double sampling 识别框架,推广至分布尾部特征 WQTE,并构造了允许非参倾向得分估计的 IPW 估计量,推导了逐点与均匀渐近性质及 Bootstrap 推断方法。
子线索聚类: 1. QTE/WQTE 的完全观测估计与推断:Firpo(2007),Hong(2010),Firpo 等(2018)。这一簇在完全观测下建立 IPW 估计与逐点渐近理论,留下"缺失数据下如何处理"的口子。 2. 因果推断中的 MNAR 识别与敏感性分析:Robins 等(2000),Bang & Robins(2005)。这一簇揭示了 MNAR 下无外部信息则不可识别的本质困难,留下"如何引入外部信息打破不可识别"的口子。 3. Double sampling / Two-phase design 在因果中的应用:Neyman(1938),Haneuse 等(2021),Lee 等(2022)。这一簇在均值效应(ATE)下建立了仅靠 double sampling 随机化即可识别 MNAR 结局的理论,留下"分布效应(QTE/WQTE)是否可识别、如何均匀推断"的口子。
这个方向在追问的核心问题: 1. 识别问题:在结局 MNAR 下,何种外部数据结构(如 double sampling)与最小假设集足以非参数识别因果分布效应(QTE/WQTE)? 2. 估计与渐近问题:当倾向得分与 double sampling 概率被非参估计时,IPW 估计量在分位数紧集上的均匀收敛速率与渐近分布是什么?非参估计的偏差如何控制? 3. 推断问题:如何构造跨分位数的均匀置信带?Bootstrap 在非参 IPW 框架下是否有效?
⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:"现有 WQTE 方法均假设完全数据,而 EHR 等场景结局常 MNAR;利用 double sampling 可在无需对原始缺失机制做 MNAR 假设下识别 WQTE,这是显然的下一步。" - 被淡化或回避的竞争路线:作者未讨论敏感性分析路线(如 Robins 等 2000 的参数化 MNAR 模型 + sensitivity parameter),也未讨论Proxy / Negative control路线(如 Miao 等 2023 用代理变量识别 MNAR)。这两条路线在无 double sampling 时亦可尝试识别,作者回避了与它们的对比。 - 明显该被引却未出现的:半参数效率理论的核心文献(如 Bickel 等 1993 的 Efficient and Adaptive Estimation for Semiparametric Models,或 Robins 等 1994 的 efficient influence function 推导),以及均匀推断的现代经验过程文献(如 Chernozhukov 等 2013 的 Gaussian approximation for suprema of empirical processes)。这些是推导效率界与均匀渐近的基石,intro 中缺席,值得研究者去查:是作者刻意回避效率讨论,还是理论部分实际隐含引用?
张力: 未见明显对立引用。各子线索在不同设定下得出一致结论:MAR 下可识别且 IPW 有效;MNAR 下无外部信息不可识别;引入 double sampling 后可识别。逻辑递进,无矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(Z\):可观测协变量(向量),如患者基线特征。
- \(A\):二值处理(\(A \in \{0, 1\}\)),如两种手术方式。
- \(Y\):连续结局(潜在结果框架下有 \(Y(1), Y(0)\)),如 BMI 减少量。注意:\(Y\) 在原始数据中可能缺失。
- \(R\):缺失指示变量(\(R=1\) 表示 \(Y\) 可观测,\(R=0\) 表示 \(Y\) 缺失)。关键:\(R\) 可能依赖于不可观测的 \(Y\) 本身,即 MNAR。
- \(S\):Double sampling 指示变量(\(S=1\) 表示该个体被抽入补充子样本,\(S=0\) 表示未被抽入)。若 \(S=1\),则 \(Y\) 被强制采集(无论 \(R\) 为何);若 \(S=0\) 且 \(R=0\),则 \(Y\) 仍缺失。
- \(W = (Z, A, R, S)\):始终可观测的变量组合。
- 倾向得分:\(\pi_A(z) = P(A=1 | Z=z)\)。
- 原始观测概率:\(\pi_R(z) = P(R=1 | Z=z)\)(不可识别,因 MNAR)。
- Double sampling 概率:\(\pi_S(z) = P(S=1 | Z=z, R=0)\)(可识别,因仅依赖可观测 \(Z\) 与 \(R\))。
- 目标 estimand(WQTE):对分位数水平 \(\tau \in (0,1)\),加权分位数处理效应为 \(\Delta_\tau = q_{Y(1), w}(\tau) - q_{Y(0), w}(\tau)\),其中 \(q_{Y(a), w}(\tau)\) 是加权潜在结果分布 \(F_{Y(a), w}(y) = E[w(Z) I(Y(a) \le y)] / E[w(Z)]\) 的 \(\tau\)-分位数,\(w(Z)\) 是研究者指定的权重函数(如用于将 EHR 样本拉回目标人群)。
模型与数据生成机制: - 潜在结果模型:\((Y(1), Y(0), R(1), R(0), S(1), S(0))\) 由 \(Z\) 生成,满足 SUTVA,观测结局 \(Y = A Y(1) + (1-A) Y(0)\),观测缺失 \(R = A R(1) + (1-A) R(0)\)。 - Double sampling 机制:在 \(R=0\) 的个体中,以概率 \(\pi_S(Z)\) 独立随机抽取补充采样,抽中则 \(S=1\) 且 \(Y\) 被观测。 - 要估的对象:\(\Delta_\tau\) 对所有 \(\tau \in \mathcal{T} \subset (0,1)\)(紧集)。
可观测数据: - 主样本:对 \(i=1,\ldots,n\),观测 \((Z_i, A_i, R_i)\);若 \(R_i=1\),还观测 \(Y_i\)。 - 补充样本:对 \(j=1,\ldots,m\)(从 \(R=0\) 的主样本中二次抽样),观测 \((Z_j, A_j, Y_j)\),且已知其 \(S_j=1\)。 - 不可观测、靠假设识别的:\(R=0\) 且 \(S=0\) 的个体的 \(Y\),以及 \(\pi_R(Z)\) 的具体机制。
第二步:最小内核——最简特例(\(w(Z)=1\), 单点分位数 \(\tau\))
剥掉权重与均匀推断的复杂性,最小内核是:在 MNAR 缺失下,仅靠 double sampling 的随机化,如何用 IPW 识别并估计单点 QTE \(\Delta_\tau = q_{Y(1)}(\tau) - q_{Y(0)}(\tau)\)?
在最简特例下,潜在结果分布 \(F_{Y(a)}(y) = P(Y(a) \le y)\) 的识别公式退化为:
对应的 IPW 估计量(以 \(F_{Y(1)}(y)\) 为例)为:
三、这篇论文做了什么¶
三句话: ① 研究了结局 MNAR 下利用 double sampling 识别与估计因果 WQTE 的问题; ② 核心方法是仅依赖 double sampling 随机化假设的逆概率加权(IPW)估计,允许倾向得分与 double sampling 概率被非参估计; ③ 主要结论是推导了 IPW 估计量在单点与跨分位数紧集上的逐点与均匀渐近性质,并配套了有效的逐点与均匀 Bootstrap 推断方法。
关键设定与假设: 在第二节最小记号基础上补全: - Assumption 1 (SUTVA & Consistency):标准潜在结果框架,无干涉,观测结局等于潜在结果。 - Assumption 2 (Ignorability of A):\(A \perp (Y(1), Y(0)) | Z\),即倾向得分假设,保证 QTE 因果解释。 - Assumption 3 (Positivity of A):\(0 < \pi_A(Z) < 1\) a.s.,保证处理分配有支撑。 - Assumption 4 (Double Sampling Randomization):\(S \perp Y | (Z, A, R=0)\),即补充采样在给定协变量与缺失状态下,与结局独立。这是本文最核心的识别假设,替代了对原始缺失机制的 MNAR 假设。 - Assumption 5 (Positivity of S):\(P(S=1 | Z, R=0) > 0\) a.s.,保证缺失人群有概率被补充采集。 - Assumption 6 (MNAR 允许):\(R\) 可依赖于 \(Y\)(即 \(P(R=1 | Z, Y)\) 可随 \(Y\) 变化),无需 MAR 假设。 - 相比已有文献(Haneuse 2021, Lee 2022):本文将相同假设集从 ATE 推广至 WQTE,假设本身未放宽或强化,但目标 estimand 从均值变为分位数函数,带来均匀渐近与分位数逆函数的全新技术困难。
主要结果: 1. Theorem 1 (非参数识别):在 Assumptions 1-6 下,加权潜在结果分布 \(F_{Y(a), w}(y)\) 可由可观测数据非参数识别,识别公式为:
-
Theorem 2 (逐点渐近性质):在分位数水平 \(\tau\) 处,若 \(\hat{\pi}_A, \hat{\pi}_S\) 为非参估计且满足特定收敛速率条件(如 \(n^{-1/4}\) 速率以控制偏差),则 IPW 估计量 \(\hat{\Delta}_\tau\) 满足:
\[\sqrt{n} (\hat{\Delta}_\tau - \Delta_\tau) \rightarrow_d N(0, \sigma_\tau^2)\]其中 \(\sigma_\tau^2\) 的形式涉及潜在结果分布的密度函数 \(f_{Y(a), w}\) 在分位数处的值、倾向得分与 double sampling 概率的方差。直觉:非参估计的偏差被 \(n^{-1/4}\) 速率条件控制,使得 IPW 估计量的渐近分布与真实概率下的理想估计量相同。 -
Theorem 3 (均匀渐近性质):跨分位数紧集 \(\mathcal{T} \subset (0,1)\),过程 \(\sqrt{n} (\hat{\Delta}_\tau - \Delta_\tau)_{\tau \in \mathcal{T}}\) 在 Skorokhod space \(D[\mathcal{T}]\) 上弱收敛于一个 Gaussain process \(G(\tau)\),其协方差结构由 \(\sigma_{\tau_1, \tau_2}\) 给出。直觉:这是 Theorem 2 的逐点结果向函数空间的推广,要求分位数过程的均匀控制。
证明路线与技术技巧: - 整体路线: 1. 识别:从 double sampling 随机化出发,推导 \(F_{Y(a), w}(y)\) 的识别公式,消去 \(\pi_R(Z)\)。 2. 估计量构造:将识别公式中的期望替换为样本均值,概率替换为非参估计 \(\hat{\pi}_A, \hat{\pi}_S\),构造 IPW 估计量 \(\hat{F}_{Y(a), w}(y)\),再取逆函数得到 \(\hat{\Delta}_\tau\)。 3. 线性展开:对 \(\hat{F}_{Y(a), w}(y)\) 进行一阶 Taylor 展开,分离出非参估计引入的偏差项与随机项。 4. 偏差控制:利用非参估计的收敛速率条件(如 \(n^{-1/4}\)),证明偏差项在 \(\sqrt{n}\) 尺度下可忽略。 5. 弱收敛:对剩余的随机项,应用经验过程理论,证明其跨 \(y\) 与 \(\tau\) 的均匀弱收敛至 Gaussian process。 - 关键跳跃点: - 消去 \(\pi_R(Z)\):识别公式中 \((1-\pi_R(Z))\) 项在 \(S=1\) 子样本中恒为 1(因 \(S=1 \Rightarrow R=0\)),使得 IPW 估计量无需估计不可识别的 \(\pi_R(Z)\)。这是整个识别与估计的基石。 - 非参偏差控制:IPW 估计量涉及 \(1/\hat{\pi}_A\) 与 \(1/\hat{\pi}_S\) 的乘积,非参估计的偏差在此乘积下可能累积。作者通过假定 \(n^{-1/4}\) 收敛速率,利用经典半参数理论中的"偏差-方差权衡"条件,证明偏差在 \(\sqrt{n}\) 尺度下消失。 - 分位数过程的均匀收敛:从分布过程的均匀收敛 \(\hat{F}_{Y(a), w}(y)\) 推导分位数过程的均匀收敛 \(\hat{q}_{Y(a), w}(\tau)\),需要 Bahadur-Kiefer 型表示,将分位数偏差映射回分布偏差,并控制余项的均匀阶。 - 技术技巧点名: - Inverse-probability weighting (IPW):用于构造估计量,将可观测子样本拉回全人群。 - Bahadur-Kiefer representation:用于将分位数过程的渐近分析转化为分布过程的渐近分析,是均匀推断的关键工具。 - Empirical process / Donsker class argument:用于证明跨 \(y\) 与 \(\tau\) 的函数类满足 Glivenko-Cantelli 与 Donsker 条件,支撑均匀弱收敛。 - Cross-fitting / Sample splitting(隐含):非参估计 \(\hat{\pi}_A, \hat{\pi}_S\) 的偏差控制通常需要 sample splitting 以避免过拟合,作者在理论部分假定估计量独立于当前样本(或通过交叉拟合实现)。
真实例子与应用: - 数据:EHR 减重手术数据,比较两种手术(Roux-en-Y gastric bypass vs. sleeve gastrectomy)对 BMI 减少量(3 年术后)的 WQTE。 - 缺失机制:BMI 结局在 EHR 中大量缺失(约 60% 患者无 3 年随访 BMI),且缺失极可能 MNAR(未随访患者可能减重效果差)。 - Double sampling:研究团队对部分缺失患者进行主动随访(电话/问卷采集 BMI),形成补充样本。 - 方法应用:用本文 IPW 估计量估计不同分位数 \(\tau \in \{0.1, 0.25, 0.5, 0.75, 0.9\}\) 的 WQTE,并用 Bootstrap 构造逐点与均匀置信区间。 - 结果:在低分位数(\(\tau=0.1, 0.25\),即减重效果最差的尾部),bypass 相对 sleeve 的 WQTE 显著大于均值效应 ATE 所暗示的差距,表明 bypass 在减重效果差的亚人群中优势更大。均匀置信带在 \(\tau \in [0.1, 0.9]\) 上未包含 0,验证了尾部效应的稳健性。 - 想说明什么:展示 WQTE 在 MNAR 缺失下能揭示均值效应掩盖的尾部异质性,且 double sampling + IPW 能有效纠正 MNAR 偏差。
🔎 结论是否比证明窄: - Theorem 2 与 3 的逐点与均匀渐近性质严格依赖于非参估计 \(\hat{\pi}_A, \hat{\pi}_S\) 的 \(n^{-1/4}\) 收敛速率条件。作者在定理陈述中明确标注了此条件,但在讨论部分泛泛 claim"方法允许非参估计",未强调若非参估计速率慢于 \(n^{-1/4}\)(如高维设定下或粗核估计),渐近正态性与 Bootstrap 有效性可能崩溃。这是一个条件 X 下严格证明、却被泛泛 claim 的地方。
四、开放问题(点到为止,扎根具体语句)¶
-
半参数效率界与稳健估计:本文仅构造了 IPW 估计量,未推导 MNAR+double sampling 设定下的 semiparametric efficiency bound,也未构造 augmented IPW (AIPW) / doubly robust (DR) 估计量。扎根点:Theorem 2 的方差 \(\sigma_\tau^2\) 是否为该模型下的渐近方差下界?若否,构造 DR 估计量可缩小方差。需查阅 Robins 等(1994)与 Tsiatis(2006)的半参数效率理论,推导该缺失模式下的 efficient influence function。
-
非参估计速率条件的放宽:Theorem 2-3 要求 \(\hat{\pi}_A, \hat{\pi}_S\) 达 \(n^{-1/4}\) 速率,这在高维协变量下可能不满足。扎根点:作者在 Assumption 与定理陈述中明确写了速率条件,但未讨论若速率慢于 \(n^{-1/4}\)(如高维下 minimax 速率更慢),估计量的渐近行为如何(偏差是否主导?是否需要 higher-order bias correction 如 HOIF?)。这与研究者对 higher-order U-statistics / HOIF 的兴趣直接对接。
-
均匀推断的 Gaussian approximation 精细界:Theorem 3 证明了均匀弱收敛,但未给出 sup-norm 下的 Gaussian approximation 精细界(如 Kolmogorov-Smirnov 型的 Berry-Esseen 界)。扎根点:作者引用了经典经验过程理论证明弱收敛,但未涉及 Chernozhukov 等(2013, 2014)的 Gaussian approximation for suprema of empirical processes 框架,后者可给出有限样本下 Bootstrap 置信带的覆盖误差显式界。需查 Chernozhukov 等 2013 的 Annals of Statistics 论文是否适用于此 IPW 过程。
-
与 Proxy / Negative control 路线的对比与融合:Intro 中回避了 Miao 等(2023)用 proxy variable 识别 MNAR 的路线。扎根点:Intro 第 1-2 页仅讨论 double sampling 与参数化 MNAR 模型,未提及 proxy 路线。若研究者同时有 proxy 与 double sampling,识别条件能否进一步放宽?这需去读 Miao 等 2023 的 JASA 论文与 Kuroki 等(2014)的 proxy 相关工作,确认是否真 gap。
Maintained by 陈星宇 · Homepage · Source on GitHub