跳转至

Beyond Exchangeability: Distribution-Shift-Aware Integration of External Control Data in Randomized Trials

作者: Jiawei Shan, Yiteng Tu, Guanbo Wang, Chao Ying, Jiwei Zhao
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.28785


一、领域脉络与小综述

这个方向是什么 这个子方向要解决的根本统计问题是:在随机对照试验(RCT)样本量受限、估计精度不足时,如何安全且高效地引入外部对照数据(ECD,如历史试验、电子病历、登记库)来提升平均因果效应(ATE)的估计效率。其核心张力在于:ECD 蕴含方差缩减的潜力,但两者人群在入组标准、护理水平、测量协议上的差异几乎必然导致分布偏移,使得传统的"可交换性"(exchangeability)假设失效;直接借用会引入偏倚,保守弃用则损失效率。当前该方向的成熟度处于"方法爆发期":半参数效率界与双重稳健估计器已被引入,各种 guarded borrowing(选择、降权、收缩)策略层出不穷,但对偏移本身的显式建模与理论刻画仍处于起步阶段。

发展脉络 - 奠基工作:Pocock (1976) 开创了历史对照合并设计;Viele et al. (2014) 与 Hobbs et al. (2012) 系统化了贝叶斯动态借用与 commensurate prior,核心思路是"先检验兼容性再借用"或"以方差-偏倚权衡指导收缩",但均以可交换性或近似可交换性为前提。 - 主要进展(可交换性下的效率理论):Dahabreh et al. (2019) 与 Li et al. (2023) 在可交换性下推导了借用 ECD 的半参数效率界,证明 ECD 可严格降低 ATE 的效率界;Valancius et al. (2024) 进一步给出了双重稳健估计器。 - 当前 frontier(打破可交换性的防御性借用):意识到可交换性在现实中常失效,近三年涌现了 guarded approaches:Rosenman et al. (2023) 与 Oberst et al. (2022) 提出基于 Stein shrinkage 的无偏-有偏估计器合并,刻画了 bias threshold;Gao et al. (2024) 与 Yang et al. (2025) 发展了 data-adaptive 选择兼容子集的借用;Schuler et al. (2022) 与 Liao et al. (2025) 提出预后协变量调整,用 ECD 训练预后模型再在 RCT 内做协变量调整,完全避免直接混合结局;Karlsson et al. (2025) 与 Wang et al. (2024a) 提出 randomization-aware 组合,保证即使 ECD 不可靠也能退回 RCT 估计器。 - 本文的位置:作者声称上述 guarded approaches 均是"防御性地衰减或弃用 ECD 信息",而本文是"进攻性地显式建模偏移",通过校准方程将偏移参数转化为权重,直接把 ECD 校准到试验人群上,再通过 adaptive shrinkage 保证一致性下效率占优。

子线索聚类 1. 贝叶斯动态借用与兼容性检验:Viele (2014), Hobbs (2012), Schmidli (2014)。做的是:先验地设定历史与当前数据的兼容性参数,通过后验自适应调整借用程度。瓶颈:仍需条件可交换性,且频率派推断性质难以严格保证。 2. 频率派半参数效率与双重稳健(可交换性下):Li (2023), Dahabreh (2019), Valancius (2024)。做的是:在可交换性下推导效率界、构造 DR 估计器。瓶颈:可交换性一旦失效,一致性即破。 3. 防御性收缩与选择(偏移下):Rosenman (2023), Oberst (2022), Gao (2024), Yang (2025)。做的是:不假设可交换性,但通过 shrinkage 或子集选择来控制偏倚风险。瓶颈:作者声称这些方法"仍依赖兼容子集的存在,且只借用对照组信息,忽略了 ECD 协变量信息对处理组的潜在提升"。 4. 预后调整与随机化感知组合(偏移下):Schuler (2022), Liao (2025), Karlsson (2025), Wang (2024a)。做的是:用 ECD 训练预后模型作为 RCT 协变量,或构造即使 ECD 不可靠也退回 RCT 的估计器。瓶颈:预后调整只利用了 ECD 的协变量-结局关系,未利用 ECD 的结局本身;随机化感知组合未显式建模偏移结构。

这个方向在追问的核心问题 1. 偏移下 ECD 借用的效率界是什么?(可交换性下已有 Li & Luedtke 2023 的界;偏移下界如何随偏移度量 \(a(x), b(x,y_0)\) 变化?) 2. 如何构造偏移下的一致且尽可能高效的估计器?(当前主流是 shrinkage/选择,牺牲部分效率保一致性;本文声称通过显式建模偏移可"全量"利用 ECD。) 3. 偏移模型的误设定风险如何控制?(本文用 adaptive shrinkage 退回 RCT 估计器;但误设定下的效率损失量化仍开放。) 4. ECD 信息能否提升处理组 \(\tau_1\) 的推断?(传统只借用对照组;本文通过协变量偏移 \(k(x)\) 校准,声称可提升处理组。)

⚠️ 作者的 framing - 作者把缺口 frame 成:现有 guarded approaches 是"防御性衰减",浪费了 ECD 信息;本文是"进攻性校准",通过显式建模偏移实现"全量利用",且 shrinkage 保证了"不比 RCT 差"。这使本文成为"在偏移下追求最大效率的显然下一步"。 - 被淡化的竞争路线:Schuler et al. (2022) / Liao et al. (2025) 的预后调整路线也被作者归入"避免直接混合结局"的防御路线,但预后调整实际上也利用了 ECD 的协变量-结局关系(通过训练预后模型),且不需要建模 \(b(x,y_0)\) 这种高维条件密度比,鲁棒性可能更强。作者对此路线的效率比较仅在模拟中给出,未在理论上严格证明本文的 augmented estimator 在偏移模型正确时严格优于预后调整。 - 缺失的引用:Intro 与 Related Work 中未出现任何关于 covariate shift / concept shift 下的密度比估计(如 KLIEP, uLSIF, Bregman divergence 方法)或 条件密度估计 的文献。本文的核心操作是估计 \(k(x)\)\(\rho(x,y_0)\),这两个是高维密度比/条件密度比,其估计的收敛速率与误设定后果直接决定本文估计器的实际表现,但作者对此完全沉默。此外,半参数效率界在偏移下的泛化理论(如 Li & Luedtke 2023 的 data fusion 效率界在非可交换性下的形式)也未引用,作者直接跳到了构造估计器。

张力 - 未见明显对立引用。但存在隐含张力:Rosenman/Oberst 的 shrinkage 路线声称在偏倚未知时"保守权衡"是最优的,本文则声称"显式建模偏移+收缩"能比纯保守更好——这两者在不同偏移结构下的 MSE 对比尚未有理论定论,本文仅在模拟中展示了特定 DGP 下的优势。


二、这篇论文做了什么

类型:理论+方法型(有定理、渐近理论、模拟与真实数据)。

三句话 ①研究了 RCT 借用外部对照数据(ECD)时,在可交换性失效、存在协变量偏移 \(a(x)=q(x)/p(x)\) 与概念偏移 \(b(x,y_0)=q(y_0|x)/p(y_0|x)\) 的设定下,如何高效估计 ATE。 ②核心工具是将偏移转化为校准权重 \(k(x)\)\(\rho(x,y_0)\),用其将仅基于 RCT 的 efficient influence function (EIF) 扩充为包含 ECD 信息的 augmented estimating function,再构造 adaptive shrinkage estimator 融合 augmented 与 trial-only 估计器。 ③主要结论是:augmented estimator 在偏移模型正确时一致且渐近方差严格小于 trial-only EIF 的方差(Proposition 1);adaptive shrinkage estimator 在偏移模型误设定时仍一致且退回 trial-only,在正确时保证效率占优(Theorem 3, Corollary 1)。

关键设定与假设 - 数据结构\((R,T,X,Y)\)\(R=1\) 为 RCT,\(R=0\) 为 ECD(仅含 \(T=0\));\(n/N \to \kappa \in (0,1)\)。 - Assumption 1:RCT 内 \(T \perp (X,Y^0,Y^1) | R=1\)\(0<\pi=P(T=1|R=1)<1\)。统计含义:标准 RCT 无混杂假设,保证 \(\tau_t\) 从 RCT 可识别。 - 偏移定义\(a(x)=q(x)/p(x)\)(协变量偏移密度比),\(b(x,y_0)=q(y_0|x)/p(y_0|x)\)(概念偏移密度比)。转化为 \(k(x)=P(R=1|X)\)\(\rho(x,y_0)=P(R=1|X,Y^0,T=0)\)(Lemma 1 的校准权重)。 - 相比已有文献的假设变化:不假设 \(b(x,y_0)=1\)(即不假设可交换性),显式允许概念偏移;但一致性仍依赖 \(k(x)\)\(\rho(x,y_0)\) 的正确建模(Theorem 1),这比预后调整路线(只需正确预后模型)的假设更强。

主要结果 - Proposition 1(效率增益的刻画)\(E(\psi_t^2) - E(\tilde{\psi}_t^2) \leq 0\),等号成立当且仅当 \(\kappa=1\)(即无 ECD)。直觉:ECD 通过校准权重提供了额外的协变量与结局信息,严格缩减了 EIF 的方差。技术难点:将 ECD 的信息贡献分解为协变量校准项(\(k(X)\{1-k(X)\}\))与结局校准项(\(\rho(X,Y)\{1-\rho(X,Y)\}\)),前者对 \(\tau_1\)\(\tau_0\) 均有效,后者仅对 \(\tau_0\) 有效。 - Theorem 1(一致性条件)\(\hat{\tau}_1\) 一致需 \(k(x;\alpha^*)=k(x)\)\(\hat{\tau}_0\) 一致需 \(k(x;\alpha^*)=k(x)\)\(\rho(y_0,x;\beta^*)=\rho(y_0,x)\)。直觉:偏移模型必须正确,结局模型 \(\mu_t(x)\) 可误设定(类似 DR 的鲁棒性)。必要条件:偏移密度比的可识别性与正确参数化。 - Theorem 3 + Corollary 1(Adaptive Shrinkage 的效率占优):Shrinkage 估计器 \(\hat{\tau}_t^{(s)} = \hat{\tau}_t + \hat{\lambda}_{t,N}(\hat{\tau}_t - \tilde{\tau}_t)\),其中 \(\hat{\lambda}_{t,N} = \hat{\delta}_{t,N} \hat{\lambda}_t^*\)\(\delta_{t,N} = \text{var}(\hat{\tau}_t - \tilde{\tau}_t) / [\text{var}(\hat{\tau}_t - \tilde{\tau}_t) + (\hat{\tau}_t - \tilde{\tau}_t)^4]\)。结论:若 \(\hat{\tau}_t\) 不一致,\(\delta_{t,N} = O_p(N^{-1})\),shrinkage 退回 \(\tilde{\tau}_t\);若一致,\(\delta_{t,N} \to 1\),shrinkage 达到最优线性组合方差 \(\sigma_t^2 \leq \min\{\text{var}(\tilde{\tau}_t), \text{var}(\hat{\tau}_t)\}\)。直觉:用 \((\hat{\tau}_t - \tilde{\tau}_t)^4\) 作为不一致性的信号检测器,自适应调整收缩权重。

方法/证明骨架 1. 定义偏移密度比 \(a(x), b(x,y_0)\),转化为校准概率 \(k(x), \rho(x,y_0)\)(Lemma 1)。 2. 用 \(k, \rho\) 构造 augmented estimating function \(\psi_t\),证明 \(E(\psi_t)=0\) 且方差严格小于 trial-only EIF(Proposition 1)。 3. 参数化 \(k(x;\alpha), \rho(x,y_0;\beta), \mu_t(x;\gamma_t)\),构造 Z-估计器 \(\hat{\tau}_t\),证明在偏移模型正确时 CAN(Theorem 1-2)。 4. 构造 shrinkage 估计器,用 \(\delta_{t,N}\) 检测不一致性,证明无论偏移模型是否正确,shrinkage 均一致且效率占优(Theorem 3)。

🔎 结论是否比证明窄 - Proposition 1 的效率增益声明:作者声称"ECD 数据可改善处理组和对照组的推断",但 Proposition 1 的方差缩减公式中,\(\tau_1\) 的缩减项为 \(-\kappa^{-2} E[\{\mu_1(X)-\tau_1\}^2 k(X)\{1-k(X)\}]\)。这要求 \(\mu_1(X)\) 不是常数(即处理组结局有协变量异质性)。若 \(\mu_1(X)=\tau_1\)(常数效应),该项为 0,ECD 对 \(\tau_1\) 无效率增益。作者在 Remark 1 和正文中未明确强调这一必要条件,泛泛 claim 了"双臂提升"。 - Theorem 3 的 \(\delta_{t,N}\) 定义:用 \((\hat{\tau}_t - \tilde{\tau}_t)^4\) 检测不一致性,理论上要求不一致时 \(\hat{\tau}_t - \tilde{\tau}_t \to c_t^* \neq 0\),但若偏移模型误设定导致的偏倚恰好与 RCT 估计器的偏倚(如有限样本偏倚)抵消,或偏倚量级为 \(O_p(N^{-1/2})\)(如局部误设定),则 \(\delta_{t,N}\) 的行为未在定理中严格刻画,作者直接 claim 了"无论模型是否正确均一致且效率占优"。


三、值不值得做 / 研究者能做什么

领域层面的判断材料 - 反复出现的开放问题:从被引文献看,"偏移下如何保证一致性同时追求效率"是近 3 年该子方向的核心关切(Rosenman 2023, Oberst 2022, Gao 2024, Karlsson 2025 均在解决此问题)。本文的 adaptive shrinkage 是这一关切的新解法,但并非唯一解法。 - 是否真 gap:作者声称的"现有方法只借用对照组、未利用 ECD 协变量信息提升处理组"——这确实在 Rosenman/Oberst 的 shrinkage 路线中成立,但在 Schuler/Liao 的预后调整路线中不成立(预后调整也利用了 ECD 的协变量-结局关系来提升双臂)。需自查同子领域近期 5 篇 intro:若它们均只讨论对照组借用,则本文的"双臂提升"是真 gap;若预后调整已被广泛承认为双臂提升路线,则本文的 framing 有夸大。 - 作者一家之言:"显式建模偏移优于防御性衰减"——这仅在偏移模型正确或近似正确时成立;在高维或复杂偏移下,密度比估计本身可能引入巨大方差或偏倚,此时预后调整(只需正确预后模型)可能更鲁棒。这一权衡未在本文中理论化。

问题种子清单

(A) 立即可做 1. 问题表述:证明在局部误设定(\(k(x;\alpha^*) = k(x) + O(N^{-1/2})\)\(\rho(x,y_0;\beta^*) = \rho(x,y_0) + O(N^{-1/2})\))下,augmented estimator \(\hat{\tau}_t\) 的渐近偏倚与方差表达式,以及 shrinkage 估计器 \(\hat{\tau}_t^{(s)}\)\(\delta_{t,N}\) 行为与效率占优是否仍成立。 - 扎根在本文哪里:Theorem 3 假设 \(\hat{\tau}_t\) 要么一致(\(b\tau_t - \tilde{\tau}_t = O_p(N^{-1/2})\)),要么不一致(\(\to c_t^* \neq 0\)),未覆盖局部误设定(偏倚为 \(O_p(N^{-1/2})\))这一中间情形;Corollary 1 泛泛 claim"无论工作模型如何选择均效率占优"。 - 攻它需要什么:very_familiar 的 minimax bounds / 高维渐近 + moderately_familiar 的 M-estimation 理论(局部误设定下的渐近展开)。无需额外数据或算力,纯理论推导。 - 谁已经在附近做:Rosenman et al. (2023) 讨论了 bias threshold,但未做局部误设定渐近分析;需自查拥挤度。 - 武器库匹配 + 独特角度:用 very_familiar 的 minimax 思维,将局部误设定视为"偏倚-方差权衡的连续谱",而非"0 或 \(c_t^*\)"的二分,可给出更精细的效率占优条件。

  1. 问题表述:将本文的 augmented estimating function \(\psi_t\) 推广到 高维协变量 (\(p \gg n\)) 设定,用 DML 或 debiased ML 估计 \(\mu_t(x), k(x), \rho(x,y_0)\),推导偏移模型误设定下 debiased augmented estimator 的渐近分布与效率占优条件。
  2. 扎根在本文哪里:第 4 节假设参数化工作模型 \(k(x;\alpha), \rho(x,y_0;\beta)\),且 Theorem 2 的渐近展开依赖 \(\sqrt{N}\)-一致 nuisance 估计;高维下参数化模型易误设定,且 nuisance 估计速率常为 \(o_p(N^{-1/4})\) 而非 \(\sqrt{N}\)-一致。
  3. 攻它需要什么:very_familiar 的高维渐近 / estimation theory in causal inference + moderately_familiar 的 semiparametric theory (DML 框架)。需复现本文模拟并加入高维 DGP(\(p=100, n=500\))。
  4. 谁已经在附近做:Parikh et al. (2025) 提出了 DML 融合 RCT 与观察数据,但未显式建模概念偏移;需自查拥挤度。
  5. 武器库匹配 + 独特角度:用 very_familiar 的高维渐近推导 DML-augmented estimator 的偏倚-方差界,特别关注 \(\rho(x,y_0)\) 的高维条件密度比估计的收敛速率对最终 ATE 估计的影响——这是本文完全未触及的技术难点。

(B) 中期可做 1. 问题表述:用 HOIF (Higher-Order Influence Functions) 分析偏移下 ATE 估计的高阶偏倚,推导在 \(\rho(x,y_0)\) 估计有 \(o_p(N^{-1/4})\) 速率但非参数收敛时,augmented estimator 的二阶偏倚表达式,并构造 HOIF-augmented estimator 以消除该偏倚。 - 扎根在本文哪里:Theorem 2 的 \(R_1, R_2, R_3\) 项是 nuisance 估计偏倚的一阶贡献;当 nuisance 估计速率不足 \(N^{-1/4}\) 时,这些余项非 \(o_p(1)\),本文未提供二阶修正。Robins et al. (1994) 的 EIF 在 nuisance 速率不足时也有此问题,HOIF 正是为此设计。 - 攻它需要什么:moderately_familiar 的 HOIF 高阶偏倚表达式 + 补 1-2 网络文献(Robins et al. 2008 "Higher order influence functions and minimax estimation of nonlinear functionals" / Liu et al. 2021 "Minimax estimation of nonlinear functionals via HOIF")。补完后接回:构造 \(\psi_t\) 的 HOIF 扩充,推导偏移模型非参数估计下的二阶偏倚与 minimax 速率。 - 谁已经在附近做:Li & Luedtke (2023) 在可交换性下用了 HOIF 分析 data fusion 效率界;偏移下的 HOIF 尚无人做。拥挤度低。 - 武器库匹配 + 独特角度:用 moderately_familiar 的 HOIF 理论,将本文的校准权重 \(k(x), \rho(x,y_0)\) 视为新的 nuisance 参数,推导其对 ATE 估计的高阶偏倚贡献——这是 HOIF 在偏移校准场景的新应用,研究者对 HOIF 的熟悉度可提供独特角度。

  1. 问题表述:在 纵向/时间序列 RCT 设定下,将本文的协变量偏移 \(a(x)\) 与概念偏移 \(b(x,y_0)\) 扩展为 时变偏移 \(a_t(x_t), b_t(x_t, y_t)\),推导纵向 ATE 的偏移校准 augmented estimating function 与 shrinkage 估计器。
  2. 扎根在本文哪里:本文仅考虑单时间点结局 \(Y\);Intro 提到"长期效应"引用了 Ghassami et al. (2022),但未做纵向扩展。纵向设定下偏移可能随时间演化,校准方程需动态更新。
  3. 攻它需要什么:moderately_familiar 的 identification theory in causal inference (纵向 G-formula / IPCW) + 补 1-2 网络文献(Bang & Robins 2005 "Doubly robust estimation in missing data and causal inference models" / Hernan & Robins 2020 Causal Inference Book Ch 19-21)。补完后接回:构造纵向偏移下的校准权重序列,推导 augmented EIF。
  4. 谁已经在附近做:Ghassami et al. (2022) 做了长期效应的数据融合,但用 proxy variables 而非显式偏移建模;纵向偏移校准尚无人做。拥挤度低。
  5. 武器库匹配 + 独特角度:用 moderately_familiar 的纵向因果识别理论,将时变偏移纳入校准框架,结合 very_familiar 的 estimation theory 推导纵向 ATE 的效率界。

(C) 暂不建议 1. 问题表述:在 无参数化假设 下,构造 \(\rho(x,y_0) = P(R=1|X,Y^0,T=0)\)非参数 minimax 估计器,并推导其收敛速率对 ATE 估计最终效率的定量影响(偏倚-方差界)。 - 核心机器缺什么\(\rho(x,y_0)\)\(p+1\) 维条件密度比,其非参数估计的 minimax 速率在光滑度 \(s\) 下为 \(N^{-s/(2s+p+1)}\),当 \(p\) 大时速率极慢;要推导此慢速率 nuisance 对 ATE 估计的定量影响,需要 特定函数空间精细分析(如 Holder 空间下非线性泛函的 minimax 速率与 HOIF 的交互),这超出了武器库内 very_familiar 的非参数统计(主要做估计问题的 minimax,而非泛函估计的 nuisance 速率影响分析)与 moderately_familiar 的 HOIF(需更深的二阶展开技术)。 - 为何不易绕过\(\rho(x,y_0)\) 的高维性是本质瓶颈,无法通过降维或选择绕过(除非假设稀疏,但那又回到参数化假设);要严格证明非参数下 augmented estimator 的效率占优,必须解决此慢速率问题,目前武器库不足以支撑此分析。

迁移视角 - 方法 T:本文的 校准权重 augmented estimating function(用密度比 \(k(x), \rho(x,y_0)\) 扩充 EIF)。 - 目标领域Proximal Causal Inference (Proximal CI)。Proximal CI 用 negative control outcomes \(W\) 和 negative control exposures \(Z\) 替代不可测混杂 \(U\),核心估计器是 proxy outcome bridge function \(\tilde{q}(W,Z,X)\) 的 G-estimation,其 EIF 也涉及高维条件密度/密度比的估计。当前 Proximal CI 的估计器在 bridge function 误设定或高维下有偏倚-方差问题,且无 shrinkage 保护。 - 为什么可行:研究者 moderately_familiar Proximal CI 的 identification theory,且 very_familiar estimation theory in causal inference。可将本文的"偏移校准+shrinkage"思路迁移到 Proximal CI:将 bridge function 的误设定视为一种"概念偏移",构造 augmented EIF(用 bridge function 的密度比校准 negative control 信息),再加 adaptive shrinkage 保证退回无 proxy 的 RCT 估计器。这解决了 Proximal CI 的鲁棒性痛点,且研究者对 Proximal CI 的熟悉度提供了独特角度。


四、延伸与下一步

沿引用链的阅读路线 - 地基(先读): 1. Li, Miao, Lu, Zhou (2023) "Improving efficiency of inference in clinical trials with external control data":掌握可交换性下 ECD 借用的半参数效率界与 DR 估计器,这是本文的起点。 2. Robins, Rotnitzky, Zhao (1994) "Estimation of regression coefficients when some regressors are not always observed":掌握 EIF 与 DR 估计器的经典框架,本文的 augmented estimating function 直接基于此。 - Frontier(再读): 3. Rosenman, Basse, Owen, Baiocchi (2023) "Combining observational and experimental datasets using shrinkage estimators":理解 shrinkage 路线的 bias threshold 与效率占优,与本文 shrinkage 对比。 4. Oberst et al. (2022) "Understanding the risks and rewards of combining unbiased and possibly biased estimators":理解偏倚-方差权衡的有限样本视角,补充本文的渐近视角。 5. Schuler et al. (2022) "Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score":理解预后调整路线,评估其与本文 augmented 路线的效率-鲁棒性权衡。 6. Karlsson et al. (2025) "Robust integration of external control data in randomized trials":理解 randomization-aware 组合,这是本文 shrinkage 的最直接竞争者。 7. Li & Luedtke (2023) "Efficient estimation under data fusion":理解 data fusion 的通用效率界框架,为偏移下效率界拓展做准备。

假设扰动 - 改动假设:将本文的 参数化偏移模型 \(k(x;\alpha), \rho(x,y_0;\beta)\) 改为 非参数/机器学习估计(如用 random forest / DNN 估计 \(k(x), \rho(x,y_0)\))。 - 结论变化:Theorem 1 的一致性仍可能成立(若 ML 估计一致),但 Theorem 2 的渐近分布不再适用(因 ML 估计速率非 \(\sqrt{N}\));Theorem 3 的 shrinkage 仍可能效率占优,但 \(\delta_{t,N}\) 的行为需重新推导(因 \(\hat{\tau}_t - \tilde{\tau}_t\) 的分布可能非渐近正态)。需要新工具:DML 框架下的 nuisance 速率条件与 cross-fitting。 - 扰动后的问题落入(B) 中期可做(需补 DML 文献如 Chernozhukov et al. 2018 "Double/debiased machine learning",然后可构造 DML-augmented estimator 并推导其渐近分布)。

理解检测题 - 练习题:在本文的设定下,假设协变量偏移 \(a(x)\) 存在但概念偏移 \(b(x,y_0)=1\)(即条件可交换性成立),且你有一个参数化工作模型 \(k(x;\alpha)\) 但无验证数据(需用主数据估计 \(\alpha\))。请推导此时 \(\hat{\tau}_1\) 的 augmented estimator 的渐近方差表达式(参考 Theorem 2 的 \(R_1\) 项),并证明:若 \(k(x;\alpha)\) 正确且 \(\mu_1(X)\) 有异质性,则 \(\hat{\tau}_1\) 的渐近方差严格小于 trial-only EIF 的方差;若 \(k(x;\alpha)\) 误设定,\(\hat{\tau}_1\) 的偏倚量级是什么?最后,构造此设定下的 adaptive shrinkage 估计器 \(\hat{\tau}_1^{(s)}\),写出 \(\delta_{1,N}\) 的表达式,并说明它在 \(k(x;\alpha)\) 误设定时的行为。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论