跳转至

Efficient multiple‐robust estimation for nonresponse data under informative sampling

作者: Kosuke Morikawa, Kenji Beppu, Wataru Aida
来源: Scandinavian Journal of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向处理的是概率抽样下存在无响应的统计推断问题。其根本科学问题在于:当研究者从总体中抽取样本时,抽样机制本身可能带有信息(informative sampling,即抽样权重与目标变量相关,导致样本偏差);同时,被抽中的个体可能拒绝提供部分或全部数据(nonresponse,导致选择偏差)。传统 Horvitz-Thompson 估计量虽能纠正抽样偏差,但效率极低;而若直接丢弃无响应数据,则会引入不可忽略的偏差。该方向当前已从纯设计基推断走向模型辅助/半参数推断,成熟度处于“已有局部效率界与双重鲁棒估计,但多重模型误设下的鲁棒性与数据整合框架尚未统一”的阶段。

发展脉络: - 奠基工作:Horvitz-Thompson (1952) 提出逆概率加权(IPW)消除抽样偏差,但仅用权重倒数作加权,效率低下且对极端权重敏感;Little & Rubin (2019) 与 Kim & Shao (2013) 系统化了缺失数据机制(MCAR/MAR/MNAR)的分类与似然/矩推断框架。 - 主要进展(半参数效率与鲁棒性):Robins, Rotnitzky & Zhao (1994) 在缺失数据下引入半参数效率界与双重鲁棒(DR)估计;Qin, Zhang & Leung (2009) 将经验似然(EL)引入缺失数据,通过合并过多无偏估计方程实现半参数有效性(前提是缺失模型正确指定)。 - 当前 frontier(Informative Sampling + 数据整合):Morikawa, Terada & Kim (2022) 首次将抽样权重视为随机变量,推导了 informative sampling 下的半参数效率界,并构造了自适应最优估计量;Chatterjee (2016), Kundu et al. (2019), Zhang et al. (2020) 开发了利用外部汇总统计量(均值/方差)提升内部个体数据推断效率的数据整合方法。 - 本文的位置:在 Morikawa et al. (2022) 的基础上,引入无响应机制(两步单调缺失),推导联合偏差下的半参数效率界;进一步将 Qin et al. (2009) 的 EL 思想扩展为两步 EL,把 DR 推向多重鲁棒(MR),并允许整合外部汇总数据。

子线索聚类: 1. 抽样偏差纠正与效率提升:从 HT 估计量到伪似然/加权似然(Beaumont 2008, Pfeffermann 1993),再到 Morikawa et al. (2022) 的半参数自适应最优估计。这一簇关注“如何把抽样权重吸收进模型,使得在抽样机制正确时达到效率界”。 2. 缺失数据下的鲁棒推断:从 IPW 到 DR(Robins et al. 1994),再到 EL 整合多余估计方程(Qin et al. 2009)。这一簇关注“如何同时指定缺失与结果模型,只要一个正确即无偏,两者正确即有效”。 3. 数据整合与外部信息借用:从传统元分析到约束极大似然/矩方程(Chatterjee 2016, Kundu 2019, Zhang 2020)。这一簇关注“内部个体数据 + 外部汇总统计量如何联合推断,提升效率而不引入偏差”。

这个方向在追问的核心问题: 1. 联合偏差下的效率界是什么?当抽样偏差与无响应偏差同时存在且可能 MNAR 时,半参数效率界的显式表达如何推导? 2. 如何构造 DR/MR 估计量?在多个工作模型(抽样权重模型、响应概率模型、结果回归模型)中,如何保证只要子集正确即无偏,且在全部正确时达到效率界? 3. 外部汇总信息如何安全借用?当外部数据仅有 \(\bar{X}, \bar{Y}\) 等统计量时,如何将其作为额外无偏估计方程嵌入,不破坏一致性且提升效率?

当前主流方法瓶颈:DR 估计量在任一模型误设时虽无偏,但效率受损;若多个模型均误设,偏差无法消除;传统 EL 在缺失数据下虽能提升效率,但要求缺失模型正确,且未处理抽样权重随机性。

⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“现有 DR 估计量要求所有工作模型正确才能达到完全效率,一旦部分误设则效率下降或偏差残留;而本文的两步 EL 方法通过引入多个候选模型,将 DR 扩展为 MR,允许在多个候选中只要存在一个正确模型即可消除偏差,且在全部正确时达到效率界”。这使得本文成为“显然的下一步”:从 DR 到 MR 的跨越,且在 informative sampling + nonresponse 联合设定下完成。 - 被淡化或回避的竞争路线:作者未讨论Higher-Order Influence Functions (HOIF) 路线(Robins et al. 2008, 2017)——HOIF 通过高阶项在部分模型误设下仍能逼近效率界,且不依赖 EL 的凸优化约束;也未讨论贝叶斯 EL(Zhao et al. 2019)在复杂抽样下的适用性。此外,对 MNAR 无响应的识别依赖“非响应工具变量”(\(Z\)),作者假设 \(Z\) 满足条件独立性,但未与灵敏度分析路线对比。 - 明显该被引却未出现的:Robins et al. (2008) 关于 HOIF 与 DR 误设下效率的奠基工作;Bang & Robins (2005) 关于 DR 估计量在所有模型正确下达到效率界的构造方法;Smucler & Rotnitzky (2019) 关于部分模型误设下最小偏差估计量的近期工作。这些缺失使得“MR 是唯一鲁棒化路径”的 framing 缺少对照。

张力: 未见明显对立引用。但存在隐含张力:Morikawa et al. (2022) 假设抽样后协变量完全观测,本文引入无响应后假设 \(X\) 完全观测而 \(Y\) 部分缺失——若未来设定中 \(X\) 也部分缺失,当前框架是否仍成立?此外,EL 路线要求估计方程数量不超过样本量以保证凸优化可行,而 HOIF 路线在高阶时方程数可超样本量——两者在“如何处理过多估计方程”上存在技术路线张力。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 参数 / estimand\(\tau\):总体目标参数。本文主要考虑总体均值 \(\mu = E(Y)\),但也涵盖回归系数等。
  • 随机变量 / 样本
  • \((X, Z, Y)\):总体变量。\(X\) 为完全观测的协变量,\(Z\) 为非响应工具变量(instrument for nonresponse,影响响应但不直接影响 \(Y\)),\(Y\) 为目标变量(部分缺失)。
  • \(\pi_i\):抽样权重,\(i \in \{1, \dots, N\}\) 为总体指标,\(\pi_i = P(\delta_i = 1 \mid X_i, Z_i, Y_i)\) 为个体被抽入样本的概率。
  • \(\delta_i\):抽样指示变量,\(\delta_i = 1\) 表示个体 \(i\) 被抽入样本。
  • \(R_i\):响应指示变量,\(R_i = 1\) 表示若被抽入样本则 \(Y_i\) 可观测,\(R_i = 0\)\(Y_i\) 缺失。
  • 维数 / 样本量\(N\) 为总体大小(通常未知或极大),\(n\) 为样本量(\(\sum \delta_i = n\)),\(n_r\) 为响应样本量(\(\sum \delta_i R_i = n_r\))。
  • 潜在量\(Y_i(0)\):若个体 \(i\) 不响应时的潜在结果(不可观测);\(Y_i\) 本身可视为响应后的结果。更准确地说,缺失机制意味着我们观测到 \(Y_i^{\text{obs}} = R_i Y_i + (1-R_i) \times \text{NA}\)
  • 模型
  • 抽样机制:\(\pi(x, z, y) = P(\delta = 1 \mid X=x, Z=z, Y=y)\),informative sampling 意味着 \(\pi\) 依赖 \(Y\)
  • 响应机制:\(p(x, z) = P(R=1 \mid X=x, Z=z, \delta=1)\),假设 MAR(给定 \(X, Z\)\(R\) 不依赖 \(Y\))或 MNAR(依赖 \(Y\)),本文通过工具变量 \(Z\) 处理 MNAR:假设 \(Z \perp Y \mid X\)\(Z\) 影响 \(R\)
  • 结果模型:\(m(x) = E(Y \mid X=x)\)
  • 抽样权重模型:\(w(x, z) = E(\pi^{-1} \mid X=x, Z=z)\)(条件期望权重倒数)。
  • 可观测数据
  • 对于被抽入且响应的个体(\(\delta_i = 1, R_i = 1\)):观测到 \((X_i, Z_i, Y_i, \pi_i)\)
  • 对于被抽入但不响应的个体(\(\delta_i = 1, R_i = 0\)):观测到 \((X_i, Z_i, \pi_i)\)\(Y_i\) 缺失。
  • 对于未被抽入的个体(\(\delta_i = 0\)):完全不可观测。
  • 外部数据:从其他数据源(如 NHIS)可获得 \((X, Y)\) 的汇总统计量(如 \(\bar{X}_{\text{ext}}, \bar{Y}_{\text{ext}}\)),但无个体数据。

第二步:最小内核——最简特例(总体均值 \(\mu\),无外部数据,单候选模型)

剥掉所有一般性设定(回归参数、外部汇总、多候选模型),核心数学困难在于:如何在抽样偏差与无响应偏差联合存在时,构造一个估计量,使得在三个工作模型(\(w, p, m\))中任意一个误设时仍无偏,且全部正确时达到半参数效率界?

最简特例:估计 \(\mu = E(Y)\),无外部数据,假设响应机制 MAR(\(p(x)\) 仅依赖 \(X\),无 \(Z\)),抽样权重模型 \(w(x)\) 与结果模型 \(m(x)\) 各有一个候选。

  1. 半参数效率界:在正则估计量类中,\(\mu\) 的效率界信息函数为:

    \[\mathcal{I}(\mu) = E\left[ \delta \left\{ \frac{R}{p(X)} \frac{Y - m(X)}{w(X)} + \frac{m(X) - \mu}{w(X)} + \mu \right\}^2 \right]\]
    对应的有效得分函数为:
    \[S_{\text{eff}} = \frac{\delta R}{p(X) w(X)} (Y - m(X)) + \frac{\delta}{w(X)} (m(X) - \mu) + \mu - \text{常数}\]
    直觉:第一项利用响应者的残差 \((Y - m(X))\),通过 \(1/p\) 逆概率加权纠正无响应,通过 \(1/w\) 纠正抽样偏差;第二项利用所有被抽入者(含不响应者)的预测 \(m(X)\),通过 \(1/w\) 纠正抽样偏差;第三项为常数修正。

  2. DR 估计量构造:解有效得分方程 \(P_n[S_{\text{eff}}(\hat{w}, \hat{p}, \hat{m}; \mu)] = 0\),得:

    \[\hat{\mu}_{\text{DR}} = \frac{1}{n} \sum_{i=1}^n \left\{ \frac{\delta_i R_i}{\hat{p}(X_i) \hat{w}(X_i)} (Y_i - \hat{m}(X_i)) + \frac{\delta_i}{\hat{w}(X_i)} \hat{m}(X_i) \right\}\]

  3. \(\hat{p}\)\(\hat{m}\) 正确(\(p = p_0\)\(m = m_0\)),则 \(E[\hat{\mu}_{\text{DR}}] = \mu\)(双重鲁棒)。
  4. \(\hat{w}\) 正确(\(w = w_0\)),且 \(\hat{p}, \hat{m}\) 均正确,则 \(\hat{\mu}_{\text{DR}}\) 达到效率界。
  5. 问题:若 \(\hat{w}\) 误设,即使 \(\hat{p}, \hat{m}\) 正确,\(\hat{\mu}_{\text{DR}}\) 仍有偏差(因为 \(1/\hat{w}\) 加权不正确);若 \(\hat{p}, \hat{m}\) 均误设,偏差更大。

  6. MR 的核心想法(两步 EL)

  7. 第一步:对抽样权重,引入多个候选模型 \(w^{(1)}, \dots, w^{(K)}\)。构造 EL 约束:
    \[\sum_{i=1}^n p_i \frac{\delta_i}{w^{(k)}(X_i)} (X_i - E[X]) = 0, \quad k=1,\dots,K\]
    其中 \(p_i\) 为分配给每个样本点的经验概率(\(\sum p_i = 1\)),\(E[X]\) 可用外部汇总或样本均值替代。EL 最大化 \(\sum \log p_i\),解出 \(\hat{p}_i\)。若任一 \(w^{(k)}\) 正确,则约束无偏,EL 解自动“选择”正确模型(赋予其高权重),消除偏差。
  8. 第二步:将第一步的 \(\hat{p}_i\) 代入响应/结果模型的估计方程,类似地引入多个候选 \(p^{(1)}, \dots, p^{(L)}\)\(m^{(1)}, \dots, m^{(M)}\),构造第二步 EL:
    \[\sum_{i: R_i=1} q_i \left\{ \frac{1}{p^{(l)}(X_i)} (Y_i - m^{(m)}(X_i)) \right\} = 0, \quad l=1,\dots,L; m=1,\dots,M\]
    其中 \(q_i\) 为第二步经验概率。最终 \(\hat{\mu}_{\text{MR}} = \sum q_i Y_i / p^{(l^*)}(X_i)\)(经两步加权)。
  9. 为什么成立:EL 的凸优化性质保证,只要约束集中存在一个无偏约束(即某个候选模型正确),则 EL 解满足所有无偏约束,从而估计量无偏。若所有候选均正确,则利用了所有信息,逼近效率界。

最小内核总结:本文在数学上干的事,就是把“DR 估计量依赖三个模型全部正确才有效”的问题,通过“两步 EL 将多个候选模型转化为无偏约束集,利用 EL 的自动模型选择性质”解决,使得在 \(K+L+M\) 个候选中只要各有一个正确,估计量即无偏且高效。


三、这篇论文做了什么

三句话: ①研究了 informative sampling 下存在无响应(可能 MNAR)时总体参数的半参数推断问题,并同时处理外部汇总统计量的数据整合。 ②核心工具是半参数效率界推导 + 两步经验似然(EL)将多个候选工作模型转化为无偏约束。 ③主要结论是推导了联合偏差下的效率界,构造了 DR 估计量,并通过两步 EL 将 DR 扩展为 MR,允许在多个候选模型中只要各有一个正确即消除偏差,且在全部正确时达到效率界。

关键设定与假设: 在第二节最小记号基础上补全: - 设定:两步单调缺失——第一步为抽样(\(\delta\)),第二步为无响应(\(R\))。抽样后 \(X, Z\) 完全观测,\(Y\) 仅在 \(R=1\) 时观测。 - 假设 1(抽样权重随机性)\(\pi(X, Z, Y)\) 为随机变量,给定 \((X, Z, Y)\)\(\delta\) 独立。这是 Morikawa et al. (2022) 的核心设定,本文沿用,允许 informative sampling(\(\pi\) 依赖 \(Y\))。 - 假设 2(非响应工具变量)\(Z \perp Y \mid X\),且 \(p(x, z)\) 依赖 \(Z\)。这用于识别 MNAR 无响应:\(Z\) 作为工具,影响响应但不直接影响 \(Y\),使得即使 \(R\) 依赖 \(Y\)(MNAR),通过 \(Z\) 的条件独立性仍可识别 \(p\)\(m\)。 - 假设 3(MAR 情形简化):若无 MNAR,则 \(p(x)\) 仅依赖 \(X\)\(Z\) 可省略。 - 假设 4(外部数据一致性):外部汇总统计量(如 \(E_{\text{ext}}[X], E_{\text{ext}}[Y]\))与总体期望一致,即 \(E_{\text{ext}}[X] = E[X], E_{\text{ext}}[Y] = E[Y]\)。这允许将外部汇总作为额外无偏估计方程嵌入 EL。 - 与已有文献对比:相比 Morikawa et al. (2022),本文增加了无响应机制与工具变量 \(Z\);相比 Qin et al. (2009),本文处理了抽样权重随机性与外部汇总整合,且从一步 EL 扩展为两步 EL 以分离抽样与响应偏差纠正。

主要结果: 1. 定理 3.1(半参数效率界): - 陈述:在 informative sampling + nonresponse(含 MNAR 通过 \(Z\) 识别)下,\(\tau\) 的半参数效率界为:

\[V_{\text{eff}}(\tau) = \left\{ E\left[ \delta \left( S_{\text{eff}}^{\tau} \right)^2 \right] \right\}^{-1}\]
其中 \(S_{\text{eff}}^{\tau}\) 为有效得分函数,显式表达为:
\[S_{\text{eff}}^{\tau} = \frac{\delta R}{p(X,Z) w(X,Z)} (Y - m(X)) + \frac{\delta}{w(X,Z)} (m(X) - \tau) + \tau - E[\tau]\]
(对 \(\mu = E(Y)\)\(E[\tau] = \mu\),最后一项消去)。 - 直觉:效率界由三部分贡献——响应者的逆概率加权残差、全部被抽入者的逆概率加权预测、常数修正。信息量随 \(p, w\) 减小而增大(越稀有信息越宝贵)。 - 必要条件:\(\pi, p, m\) 的真实模型已知;\(Z\) 满足工具变量条件;正则估计量类。 - 技术难点:在 MNAR 下,\(p(x, z, y)\) 依赖 \(Y\),但 \(Y\) 缺失——通过 \(Z \perp Y \mid X\),将 \(p(x, z)\)\(Y\) 解耦,使得 \(p\) 可仅用 \((X, Z, R)\) 估计。

  1. 定理 4.1(DR 估计量的双重鲁棒性与效率)
  2. 陈述:\(\hat{\tau}_{\text{DR}}\) 解有效得分方程,在以下条件下无偏且有效:
    • (i) \(w\) 正确,且 \(p\)\(m\) 正确 → 无偏(双重鲁棒)。
    • (ii) \(w, p, m\) 全部正确 → 达到效率界。
  3. 直觉:DR 的本质是残差 \((Y - m(X))\)\(p\) 正确时期望为零,而 \((m(X) - \tau)\)\(w\) 正确时通过逆概率加权还原总体期望。
  4. 局限:若 \(w\) 误设,即使 \(p, m\) 正确,偏差仍存在(因为 \(1/w\) 加权不正确)。

  5. 定理 5.1(MR 估计量的多重鲁棒性与效率)

  6. 陈述:两步 EL 估计量 \(\hat{\tau}_{\text{MR}}\) 在以下条件下无偏且有效:
    • (i) 在 \(K\) 个候选 \(w^{(k)}\) 中至少一个正确,且在 \(L\) 个候选 \(p^{(l)}\) 中至少一个正确,或在 \(M\) 个候选 \(m^{(m)}\) 中至少一个正确 → 无偏(多重鲁棒)。
    • (ii) 所有候选均正确 → 达到效率界。
  7. 直觉:EL 的凸约束保证只要约束集中有一个无偏约束,解即满足所有无偏约束;多个正确模型提供更多信息,逼近效率界。
  8. 技术难点:两步 EL 的第一步(抽样权重)与第二步(响应/结果)需分离处理,因为第一步涉及所有被抽入者(\(\delta=1\)),第二步仅涉及响应者(\(\delta=1, R=1\))——若合并为一步 EL,约束可能不可行(凸优化无解)。

证明路线与技术技巧: - 整体路线: 1. 定义 tangent space 与正则估计量类:在 informative sampling + nonresponse 下,定义干扰参数空间(\(\pi, p, m\) 的无穷维空间),计算得分函数。 2. 投影到干扰参数空间的正交补:找到 \(S_{\text{eff}}^{\tau}\) 使得 \(E[S_{\text{eff}}^{\tau} \cdot S_{\eta}] = 0\) 对所有干扰参数得分 \(S_{\eta}\) 成立,从而 \(S_{\text{eff}}^{\tau}\) 为有效得分。 3. 构造 DR 估计量:解 \(P_n[S_{\text{eff}}^{\tau}(\hat{w}, \hat{p}, \hat{m}; \tau)] = 0\),证明在 \(p\)\(m\) 正确时无偏。 4. 构造两步 EL:第一步对抽样权重候选模型构造 EL 约束(利用外部汇总或样本均值),解出 \(\hat{p}_i\);第二步对响应/结果候选模型构造 EL 约束(利用第一步的 \(\hat{p}_i\)),解出 \(\hat{q}_i\)\(\hat{\tau}_{\text{MR}}\)。 5. 证明 MR 性质:利用 EL 的凸优化性质(Lagrange 乘子法),证明只要约束集含一个无偏约束,EL 解满足所有无偏约束;利用经验过程理论证明渐近正态性与效率。

  • 关键跳跃点
  • 跳跃 1:MNAR 下 \(p\) 的识别。传统 MAR 假设 \(p(x)\) 不依赖 \(Y\),但 MNAR 下 \(p(x, y)\) 依赖 \(Y\)(缺失)。本文通过 \(Z \perp Y \mid X\)\(Z\) 影响 \(R\),将 \(p(x, z)\)\(Y\) 解耦——这是识别的关键跳跃,否则 \(p\) 不可估。
  • 跳跃 2:两步 EL 的分离构造。若合并抽样与响应约束为一步 EL,约束可能矛盾(抽样约束涉及 \(\delta=1\) 全样本,响应约束仅涉及 \(R=1\) 子样本),凸优化可能无解。两步分离保证每步约束可行。
  • 跳跃 3:MR 的无偏性证明。需证明 EL 解在“约束集含一个无偏约束”时满足所有无偏约束——这依赖 EL 的凸优化性质(Lagrange 乘子存在性)与约束函数的线性结构。

  • 技术技巧点名

  • 半参数效率界计算:用 tangent space 投影法(Bickel et al. 1993, Tsiatis 2006),计算 \(S_{\text{eff}}^{\tau}\) 为干扰参数得分的正交补投影。用于定理 3.1。
  • 经验似然(EL):用 Owen (2001) 的 EL 框架,最大化 \(\sum \log p_i\) 服从线性约束 \(\sum p_i g(X_i) = 0\)。用于定理 5.1 的两步构造。
  • Lagrange 乘子法:用于 EL 约束优化的解存在性与唯一性证明,保证凸优化可行。
  • 经验过程理论:用于证明 EL 估计量的渐近正态性与一致性(van der Vaart 1998 的 empirical process 技术)。
  • 数据整合的矩方程嵌入:将外部汇总统计量(\(E_{\text{ext}}[X], E_{\text{ext}}[Y]\))转化为无偏估计方程 \(\sum p_i (X_i - E_{\text{ext}}[X]) = 0\),嵌入第一步 EL 约束。用于定理 5.1 的外部数据整合部分。

真实例子与应用: - 数据 / 场景:NHANES(National Health and Nutrition Examination Survey)数据作为内部数据(含抽样权重 \(\pi_i\)、协变量 \(X_i\)、无响应 \(R_i\)、部分观测 \(Y_i\));NHIS(National Health Interview Survey)数据作为外部数据(仅提供汇总统计量 \(\bar{X}_{\text{ext}}, \bar{Y}_{\text{ext}}\))。 - 怎么用上去: 1. 从 NHANES 中抽取被抽入且响应的子样本,估计候选模型 \(w^{(k)}(X)\)(用 \(\pi_i\)\(X_i\))、\(p^{(l)}(X)\)(用 \(R_i\)\(X_i\))、\(m^{(m)}(X)\)(用 \(Y_i\)\(X_i\))。 2. 从 NHIS 中提取 \(\bar{X}_{\text{ext}}, \bar{Y}_{\text{ext}}\),作为外部无偏约束嵌入第一步 EL。 3. 构造两步 EL 估计量 \(\hat{\mu}_{\text{MR}}\),与纯 NHANES 的 HT 估计量、DR 估计量对比。 - 得到什么结果: - HT 估计量标准误最大(效率低)。 - DR 估计量在模型正确时标准误减小,但若 \(w\) 误设则偏差明显。 - MR 估计量在多个候选模型中自动选择正确模型,偏差最小且标准误接近 DR 在全部正确时的水平。 - 整合 NHIS 汇总数据后,MR 估计量标准误进一步减小(外部信息提升效率)。 - 想说明什么:验证 MR 在有限样本下的鲁棒性(多候选中自动选正确)与效率提升(外部数据整合有效),展示相对于 DR 与 HT 的优势。

🔎 结论是否比证明窄: - 定理 5.1 的 MR 无偏性:严格证明在“约束集含一个无偏约束”条件下成立,但泛泛 claim 为“多重鲁棒”——实际上若所有候选均误设,MR 仍有偏差,且偏差可能比 DR 更复杂(多个误设模型的 EL 加权可能放大偏差)。作者在讨论中提及此局限,但未给出误设下偏差的显式界。 - 外部数据整合的一致性:假设 \(E_{\text{ext}}[X] = E[X]\)(外部汇总与总体一致),但若外部数据有选择偏差(如 NHIS 与 NHANES 总体不同),则约束有偏,MR 可能引入额外偏差——作者未讨论此情形,仅在假设 4 下证明。


四、开放问题(点到为止,扎根具体语句)

  1. MNAR 下工具变量 \(Z\) 的灵敏度分析:本文假设 \(Z \perp Y \mid X\)(假设 2),若此条件轻微违反(如 \(Z\) 有残余依赖 \(Y\)),偏差如何量化?扎根在本文假设 2 的陈述与定理 3.1 的证明中——\(S_{\text{eff}}^{\tau}\) 的构造直接依赖 \(Z \perp Y \mid X\),违反时有效得分函数不再正交于干扰参数空间。可追问:能否构造对 \(Z\) 条件独立性违反鲁棒的 MR 估计量?

  2. 所有候选模型均误设下的偏差界:定理 5.1 证明 MR 在“至少一个正确”时无偏,但若所有 \(w^{(k)}, p^{(l)}, m^{(m)}\) 均误设,EL 解的偏差如何随误设程度增长?扎根在定理 5.1 的条件——作者仅考虑“至少一个正确”情形,未给出误设界。可追问:能否推导 MR 在全误设下的最小偏差界(类比 Smucler & Rotnitzky 2019 的部分误设最小偏差结果)?

  3. 高维候选模型下的 EL 计算可行性:本文假设候选模型数量 \(K, L, M\) 固定,但若引入高维候选(如数百个机器学习模型),EL 的凸优化约束数超过样本量,Lagrange 乘子可能不存在——扎根在定理 5.1 的 EL 构造中(约束数 \(\leq n\) 保证凸优化可行)。可追问:能否用 HOIF 或正则化 EL 处理 \(K \gg n\) 的情形?

  4. 外部数据选择偏差的校正:假设 4 要求 \(E_{\text{ext}}[X] = E[X]\),但实际外部数据(如 NHIS)可能与内部数据(NHANES)总体不同——扎根在假设 4 的陈述与数据整合部分。可追问:能否将外部汇总的偏差也作为候选约束嵌入 MR,允许“至少一个外部数据源无偏”时仍有效?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论