Beyond Exchangeability: Distribution-Shift-Aware Integration of External Control Data in Randomized Trials¶

作者: Jiawei Shan, Yiteng Tu, Guanbo Wang, Chao Ying, Jiwei Zhao
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.28785

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：在随机对照试验（RCT）样本量受限、估计精度不足时，如何安全且高效地引入外部对照数据（ECD，如历史试验、电子病历、登记库）来提升平均因果效应（ATE）的估计效率。其核心张力在于：ECD 蕴含方差缩减的潜力，但两者人群在入组标准、护理水平、测量协议上的差异几乎必然导致分布偏移，使得传统的"可交换性"（exchangeability）假设失效；直接借用会引入偏倚，保守弃用则损失效率。当前该方向的成熟度处于"方法爆发期"：半参数效率界与双重稳健估计器已被引入，各种 guarded borrowing（选择、降权、收缩）策略层出不穷，但对偏移本身的显式建模与理论刻画仍处于起步阶段。

发展脉络 - 奠基工作：Pocock (1976) 开创了历史对照合并设计；Viele et al. (2014) 与 Hobbs et al. (2012) 系统化了贝叶斯动态借用与 commensurate prior，核心思路是"先检验兼容性再借用"或"以方差-偏倚权衡指导收缩"，但均以可交换性或近似可交换性为前提。 - 主要进展（可交换性下的效率理论）：Dahabreh et al. (2019) 与 Li et al. (2023) 在可交换性下推导了借用 ECD 的半参数效率界，证明 ECD 可严格降低 ATE 的效率界；Valancius et al. (2024) 进一步给出了双重稳健估计器。 - 当前 frontier（打破可交换性的防御性借用）：意识到可交换性在现实中常失效，近三年涌现了 guarded approaches：Rosenman et al. (2023) 与 Oberst et al. (2022) 提出基于 Stein shrinkage 的无偏-有偏估计器合并，刻画了 bias threshold；Gao et al. (2024) 与 Yang et al. (2025) 发展了 data-adaptive 选择兼容子集的借用；Schuler et al. (2022) 与 Liao et al. (2025) 提出预后协变量调整，用 ECD 训练预后模型再在 RCT 内做协变量调整，完全避免直接混合结局；Karlsson et al. (2025) 与 Wang et al. (2024a) 提出 randomization-aware 组合，保证即使 ECD 不可靠也能退回 RCT 估计器。 - 本文的位置：作者声称上述 guarded approaches 均是"防御性地衰减或弃用 ECD 信息"，而本文是"进攻性地显式建模偏移"，通过校准方程将偏移参数转化为权重，直接把 ECD 校准到试验人群上，再通过 adaptive shrinkage 保证一致性下效率占优。

子线索聚类 1. 贝叶斯动态借用与兼容性检验：Viele (2014), Hobbs (2012), Schmidli (2014)。做的是：先验地设定历史与当前数据的兼容性参数，通过后验自适应调整借用程度。瓶颈：仍需条件可交换性，且频率派推断性质难以严格保证。 2. 频率派半参数效率与双重稳健（可交换性下）：Li (2023), Dahabreh (2019), Valancius (2024)。做的是：在可交换性下推导效率界、构造 DR 估计器。瓶颈：可交换性一旦失效，一致性即破。 3. 防御性收缩与选择（偏移下）：Rosenman (2023), Oberst (2022), Gao (2024), Yang (2025)。做的是：不假设可交换性，但通过 shrinkage 或子集选择来控制偏倚风险。瓶颈：作者声称这些方法"仍依赖兼容子集的存在，且只借用对照组信息，忽略了 ECD 协变量信息对处理组的潜在提升"。 4. 预后调整与随机化感知组合（偏移下）：Schuler (2022), Liao (2025), Karlsson (2025), Wang (2024a)。做的是：用 ECD 训练预后模型作为 RCT 协变量，或构造即使 ECD 不可靠也退回 RCT 的估计器。瓶颈：预后调整只利用了 ECD 的协变量-结局关系，未利用 ECD 的结局本身；随机化感知组合未显式建模偏移结构。

这个方向在追问的核心问题 1. 偏移下 ECD 借用的效率界是什么？（可交换性下已有 Li & Luedtke 2023 的界；偏移下界如何随偏移度量 \(a(x), b(x,y_0)\) 变化？） 2. 如何构造偏移下的一致且尽可能高效的估计器？（当前主流是 shrinkage/选择，牺牲部分效率保一致性；本文声称通过显式建模偏移可"全量"利用 ECD。） 3. 偏移模型的误设定风险如何控制？（本文用 adaptive shrinkage 退回 RCT 估计器；但误设定下的效率损失量化仍开放。） 4. ECD 信息能否提升处理组 \(\tau_1\) 的推断？（传统只借用对照组；本文通过协变量偏移 \(k(x)\) 校准，声称可提升处理组。）

⚠️ 作者的 framing - 作者把缺口 frame 成：现有 guarded approaches 是"防御性衰减"，浪费了 ECD 信息；本文是"进攻性校准"，通过显式建模偏移实现"全量利用"，且 shrinkage 保证了"不比 RCT 差"。这使本文成为"在偏移下追求最大效率的显然下一步"。 - 被淡化的竞争路线：Schuler et al. (2022) / Liao et al. (2025) 的预后调整路线也被作者归入"避免直接混合结局"的防御路线，但预后调整实际上也利用了 ECD 的协变量-结局关系（通过训练预后模型），且不需要建模 \(b(x,y_0)\) 这种高维条件密度比，鲁棒性可能更强。作者对此路线的效率比较仅在模拟中给出，未在理论上严格证明本文的 augmented estimator 在偏移模型正确时严格优于预后调整。 - 缺失的引用：Intro 与 Related Work 中未出现任何关于 covariate shift / concept shift 下的密度比估计（如 KLIEP, uLSIF, Bregman divergence 方法）或 条件密度估计 的文献。本文的核心操作是估计 \(k(x)\) 与 \(\rho(x,y_0)\)，这两个是高维密度比/条件密度比，其估计的收敛速率与误设定后果直接决定本文估计器的实际表现，但作者对此完全沉默。此外，半参数效率界在偏移下的泛化理论（如 Li & Luedtke 2023 的 data fusion 效率界在非可交换性下的形式）也未引用，作者直接跳到了构造估计器。

张力 - 未见明显对立引用。但存在隐含张力：Rosenman/Oberst 的 shrinkage 路线声称在偏倚未知时"保守权衡"是最优的，本文则声称"显式建模偏移+收缩"能比纯保守更好——这两者在不同偏移结构下的 MSE 对比尚未有理论定论，本文仅在模拟中展示了特定 DGP 下的优势。

二、这篇论文做了什么¶

类型：理论+方法型（有定理、渐近理论、模拟与真实数据）。

三句话 ①研究了 RCT 借用外部对照数据（ECD）时，在可交换性失效、存在协变量偏移 \(a(x)=q(x)/p(x)\) 与概念偏移 \(b(x,y_0)=q(y_0|x)/p(y_0|x)\) 的设定下，如何高效估计 ATE。 ②核心工具是将偏移转化为校准权重 \(k(x)\) 与 \(\rho(x,y_0)\)，用其将仅基于 RCT 的 efficient influence function (EIF) 扩充为包含 ECD 信息的 augmented estimating function，再构造 adaptive shrinkage estimator 融合 augmented 与 trial-only 估计器。 ③主要结论是：augmented estimator 在偏移模型正确时一致且渐近方差严格小于 trial-only EIF 的方差（Proposition 1）；adaptive shrinkage estimator 在偏移模型误设定时仍一致且退回 trial-only，在正确时保证效率占优（Theorem 3, Corollary 1）。

关键设定与假设 - 数据结构：\((R,T,X,Y)\)，\(R=1\) 为 RCT，\(R=0\) 为 ECD（仅含 \(T=0\)）；\(n/N \to \kappa \in (0,1)\)。 - Assumption 1：RCT 内 \(T \perp (X,Y^0,Y^1) | R=1\) 且 \(0<\pi=P(T=1|R=1)<1\)。统计含义：标准 RCT 无混杂假设，保证 \(\tau_t\) 从 RCT 可识别。 - 偏移定义：\(a(x)=q(x)/p(x)\)（协变量偏移密度比），\(b(x,y_0)=q(y_0|x)/p(y_0|x)\)（概念偏移密度比）。转化为 \(k(x)=P(R=1|X)\) 与 \(\rho(x,y_0)=P(R=1|X,Y^0,T=0)\)（Lemma 1 的校准权重）。 - 相比已有文献的假设变化：不假设 \(b(x,y_0)=1\)（即不假设可交换性），显式允许概念偏移；但一致性仍依赖 \(k(x)\) 与 \(\rho(x,y_0)\) 的正确建模（Theorem 1），这比预后调整路线（只需正确预后模型）的假设更强。

主要结果 - Proposition 1（效率增益的刻画）：\(E(\psi_t^2) - E(\tilde{\psi}_t^2) \leq 0\)，等号成立当且仅当 \(\kappa=1\)（即无 ECD）。直觉：ECD 通过校准权重提供了额外的协变量与结局信息，严格缩减了 EIF 的方差。技术难点：将 ECD 的信息贡献分解为协变量校准项（\(k(X)\{1-k(X)\}\)）与结局校准项（\(\rho(X,Y)\{1-\rho(X,Y)\}\)），前者对 \(\tau_1\) 和 \(\tau_0\) 均有效，后者仅对 \(\tau_0\) 有效。 - Theorem 1（一致性条件）：\(\hat{\tau}_1\) 一致需 \(k(x;\alpha^*)=k(x)\)；\(\hat{\tau}_0\) 一致需 \(k(x;\alpha^*)=k(x)\) 且 \(\rho(y_0,x;\beta^*)=\rho(y_0,x)\)。直觉：偏移模型必须正确，结局模型 \(\mu_t(x)\) 可误设定（类似 DR 的鲁棒性）。必要条件：偏移密度比的可识别性与正确参数化。 - Theorem 3 + Corollary 1（Adaptive Shrinkage 的效率占优）：Shrinkage 估计器 \(\hat{\tau}_t^{(s)} = \hat{\tau}_t + \hat{\lambda}_{t,N}(\hat{\tau}_t - \tilde{\tau}_t)\)，其中 \(\hat{\lambda}_{t,N} = \hat{\delta}_{t,N} \hat{\lambda}_t^*\)，\(\delta_{t,N} = \text{var}(\hat{\tau}_t - \tilde{\tau}_t) / [\text{var}(\hat{\tau}_t - \tilde{\tau}_t) + (\hat{\tau}_t - \tilde{\tau}_t)^4]\)。结论：若 \(\hat{\tau}_t\) 不一致，\(\delta_{t,N} = O_p(N^{-1})\)，shrinkage 退回 \(\tilde{\tau}_t\)；若一致，\(\delta_{t,N} \to 1\)，shrinkage 达到最优线性组合方差 \(\sigma_t^2 \leq \min\{\text{var}(\tilde{\tau}_t), \text{var}(\hat{\tau}_t)\}\)。直觉：用 \((\hat{\tau}_t - \tilde{\tau}_t)^4\) 作为不一致性的信号检测器，自适应调整收缩权重。

方法/证明骨架 1. 定义偏移密度比 \(a(x), b(x,y_0)\)，转化为校准概率 \(k(x), \rho(x,y_0)\)（Lemma 1）。 2. 用 \(k, \rho\) 构造 augmented estimating function \(\psi_t\)，证明 \(E(\psi_t)=0\) 且方差严格小于 trial-only EIF（Proposition 1）。 3. 参数化 \(k(x;\alpha), \rho(x,y_0;\beta), \mu_t(x;\gamma_t)\)，构造 Z-估计器 \(\hat{\tau}_t\)，证明在偏移模型正确时 CAN（Theorem 1-2）。 4. 构造 shrinkage 估计器，用 \(\delta_{t,N}\) 检测不一致性，证明无论偏移模型是否正确，shrinkage 均一致且效率占优（Theorem 3）。

🔎 结论是否比证明窄 - Proposition 1 的效率增益声明：作者声称"ECD 数据可改善处理组和对照组的推断"，但 Proposition 1 的方差缩减公式中，\(\tau_1\) 的缩减项为 \(-\kappa^{-2} E[\{\mu_1(X)-\tau_1\}^2 k(X)\{1-k(X)\}]\)。这要求 \(\mu_1(X)\) 不是常数（即处理组结局有协变量异质性）。若 \(\mu_1(X)=\tau_1\)（常数效应），该项为 0，ECD 对 \(\tau_1\) 无效率增益。作者在 Remark 1 和正文中未明确强调这一必要条件，泛泛 claim 了"双臂提升"。 - Theorem 3 的 \(\delta_{t,N}\) 定义：用 \((\hat{\tau}_t - \tilde{\tau}_t)^4\) 检测不一致性，理论上要求不一致时 \(\hat{\tau}_t - \tilde{\tau}_t \to c_t^* \neq 0\)，但若偏移模型误设定导致的偏倚恰好与 RCT 估计器的偏倚（如有限样本偏倚）抵消，或偏倚量级为 \(O_p(N^{-1/2})\)（如局部误设定），则 \(\delta_{t,N}\) 的行为未在定理中严格刻画，作者直接 claim 了"无论模型是否正确均一致且效率占优"。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料 - 反复出现的开放问题：从被引文献看，"偏移下如何保证一致性同时追求效率"是近 3 年该子方向的核心关切（Rosenman 2023, Oberst 2022, Gao 2024, Karlsson 2025 均在解决此问题）。本文的 adaptive shrinkage 是这一关切的新解法，但并非唯一解法。 - 是否真 gap：作者声称的"现有方法只借用对照组、未利用 ECD 协变量信息提升处理组"——这确实在 Rosenman/Oberst 的 shrinkage 路线中成立，但在 Schuler/Liao 的预后调整路线中不成立（预后调整也利用了 ECD 的协变量-结局关系来提升双臂）。需自查同子领域近期 5 篇 intro：若它们均只讨论对照组借用，则本文的"双臂提升"是真 gap；若预后调整已被广泛承认为双臂提升路线，则本文的 framing 有夸大。 - 作者一家之言："显式建模偏移优于防御性衰减"——这仅在偏移模型正确或近似正确时成立；在高维或复杂偏移下，密度比估计本身可能引入巨大方差或偏倚，此时预后调整（只需正确预后模型）可能更鲁棒。这一权衡未在本文中理论化。

问题种子清单

(A) 立即可做 1. 问题表述：证明在局部误设定（\(k(x;\alpha^*) = k(x) + O(N^{-1/2})\) 或 \(\rho(x,y_0;\beta^*) = \rho(x,y_0) + O(N^{-1/2})\)）下，augmented estimator \(\hat{\tau}_t\) 的渐近偏倚与方差表达式，以及 shrinkage 估计器 \(\hat{\tau}_t^{(s)}\) 的 \(\delta_{t,N}\) 行为与效率占优是否仍成立。 - 扎根在本文哪里：Theorem 3 假设 \(\hat{\tau}_t\) 要么一致（\(b\tau_t - \tilde{\tau}_t = O_p(N^{-1/2})\)），要么不一致（\(\to c_t^* \neq 0\)），未覆盖局部误设定（偏倚为 \(O_p(N^{-1/2})\)）这一中间情形；Corollary 1 泛泛 claim"无论工作模型如何选择均效率占优"。 - 攻它需要什么：very_familiar 的 minimax bounds / 高维渐近 + moderately_familiar 的 M-estimation 理论（局部误设定下的渐近展开）。无需额外数据或算力，纯理论推导。 - 谁已经在附近做：Rosenman et al. (2023) 讨论了 bias threshold，但未做局部误设定渐近分析；需自查拥挤度。 - 武器库匹配 + 独特角度：用 very_familiar 的 minimax 思维，将局部误设定视为"偏倚-方差权衡的连续谱"，而非"0 或 \(c_t^*\)"的二分，可给出更精细的效率占优条件。

问题表述：将本文的 augmented estimating function \(\psi_t\) 推广到 高维协变量 (\(p \gg n\)) 设定，用 DML 或 debiased ML 估计 \(\mu_t(x), k(x), \rho(x,y_0)\)，推导偏移模型误设定下 debiased augmented estimator 的渐近分布与效率占优条件。
扎根在本文哪里：第 4 节假设参数化工作模型 \(k(x;\alpha), \rho(x,y_0;\beta)\)，且 Theorem 2 的渐近展开依赖 \(\sqrt{N}\)-一致 nuisance 估计；高维下参数化模型易误设定，且 nuisance 估计速率常为 \(o_p(N^{-1/4})\) 而非 \(\sqrt{N}\)-一致。
攻它需要什么：very_familiar 的高维渐近 / estimation theory in causal inference + moderately_familiar 的 semiparametric theory (DML 框架)。需复现本文模拟并加入高维 DGP（\(p=100, n=500\)）。
谁已经在附近做：Parikh et al. (2025) 提出了 DML 融合 RCT 与观察数据，但未显式建模概念偏移；需自查拥挤度。
武器库匹配 + 独特角度：用 very_familiar 的高维渐近推导 DML-augmented estimator 的偏倚-方差界，特别关注 \(\rho(x,y_0)\) 的高维条件密度比估计的收敛速率对最终 ATE 估计的影响——这是本文完全未触及的技术难点。

(B) 中期可做 1. 问题表述：用 HOIF (Higher-Order Influence Functions) 分析偏移下 ATE 估计的高阶偏倚，推导在 \(\rho(x,y_0)\) 估计有 \(o_p(N^{-1/4})\) 速率但非参数收敛时，augmented estimator 的二阶偏倚表达式，并构造 HOIF-augmented estimator 以消除该偏倚。 - 扎根在本文哪里：Theorem 2 的 \(R_1, R_2, R_3\) 项是 nuisance 估计偏倚的一阶贡献；当 nuisance 估计速率不足 \(N^{-1/4}\) 时，这些余项非 \(o_p(1)\)，本文未提供二阶修正。Robins et al. (1994) 的 EIF 在 nuisance 速率不足时也有此问题，HOIF 正是为此设计。 - 攻它需要什么：moderately_familiar 的 HOIF 高阶偏倚表达式 + 补 1-2 网络文献（Robins et al. 2008 "Higher order influence functions and minimax estimation of nonlinear functionals" / Liu et al. 2021 "Minimax estimation of nonlinear functionals via HOIF"）。补完后接回：构造 \(\psi_t\) 的 HOIF 扩充，推导偏移模型非参数估计下的二阶偏倚与 minimax 速率。 - 谁已经在附近做：Li & Luedtke (2023) 在可交换性下用了 HOIF 分析 data fusion 效率界；偏移下的 HOIF 尚无人做。拥挤度低。 - 武器库匹配 + 独特角度：用 moderately_familiar 的 HOIF 理论，将本文的校准权重 \(k(x), \rho(x,y_0)\) 视为新的 nuisance 参数，推导其对 ATE 估计的高阶偏倚贡献——这是 HOIF 在偏移校准场景的新应用，研究者对 HOIF 的熟悉度可提供独特角度。

问题表述：在 纵向/时间序列 RCT 设定下，将本文的协变量偏移 \(a(x)\) 与概念偏移 \(b(x,y_0)\) 扩展为 时变偏移 \(a_t(x_t), b_t(x_t, y_t)\)，推导纵向 ATE 的偏移校准 augmented estimating function 与 shrinkage 估计器。
扎根在本文哪里：本文仅考虑单时间点结局 \(Y\)；Intro 提到"长期效应"引用了 Ghassami et al. (2022)，但未做纵向扩展。纵向设定下偏移可能随时间演化，校准方程需动态更新。
攻它需要什么：moderately_familiar 的 identification theory in causal inference (纵向 G-formula / IPCW) + 补 1-2 网络文献（Bang & Robins 2005 "Doubly robust estimation in missing data and causal inference models" / Hernan & Robins 2020 Causal Inference Book Ch 19-21）。补完后接回：构造纵向偏移下的校准权重序列，推导 augmented EIF。
谁已经在附近做：Ghassami et al. (2022) 做了长期效应的数据融合，但用 proxy variables 而非显式偏移建模；纵向偏移校准尚无人做。拥挤度低。
武器库匹配 + 独特角度：用 moderately_familiar 的纵向因果识别理论，将时变偏移纳入校准框架，结合 very_familiar 的 estimation theory 推导纵向 ATE 的效率界。

(C) 暂不建议 1. 问题表述：在 无参数化假设 下，构造 \(\rho(x,y_0) = P(R=1|X,Y^0,T=0)\) 的 非参数 minimax 估计器，并推导其收敛速率对 ATE 估计最终效率的定量影响（偏倚-方差界）。 - 核心机器缺什么：\(\rho(x,y_0)\) 是 \(p+1\) 维条件密度比，其非参数估计的 minimax 速率在光滑度 \(s\) 下为 \(N^{-s/(2s+p+1)}\)，当 \(p\) 大时速率极慢；要推导此慢速率 nuisance 对 ATE 估计的定量影响，需要 特定函数空间精细分析（如 Holder 空间下非线性泛函的 minimax 速率与 HOIF 的交互），这超出了武器库内 very_familiar 的非参数统计（主要做估计问题的 minimax，而非泛函估计的 nuisance 速率影响分析）与 moderately_familiar 的 HOIF（需更深的二阶展开技术）。 - 为何不易绕过：\(\rho(x,y_0)\) 的高维性是本质瓶颈，无法通过降维或选择绕过（除非假设稀疏，但那又回到参数化假设）；要严格证明非参数下 augmented estimator 的效率占优，必须解决此慢速率问题，目前武器库不足以支撑此分析。

迁移视角 - 方法 T：本文的 校准权重 augmented estimating function（用密度比 \(k(x), \rho(x,y_0)\) 扩充 EIF）。 - 目标领域：Proximal Causal Inference (Proximal CI)。Proximal CI 用 negative control outcomes \(W\) 和 negative control exposures \(Z\) 替代不可测混杂 \(U\)，核心估计器是 proxy outcome bridge function \(\tilde{q}(W,Z,X)\) 的 G-estimation，其 EIF 也涉及高维条件密度/密度比的估计。当前 Proximal CI 的估计器在 bridge function 误设定或高维下有偏倚-方差问题，且无 shrinkage 保护。 - 为什么可行：研究者 moderately_familiar Proximal CI 的 identification theory，且 very_familiar estimation theory in causal inference。可将本文的"偏移校准+shrinkage"思路迁移到 Proximal CI：将 bridge function 的误设定视为一种"概念偏移"，构造 augmented EIF（用 bridge function 的密度比校准 negative control 信息），再加 adaptive shrinkage 保证退回无 proxy 的 RCT 估计器。这解决了 Proximal CI 的鲁棒性痛点，且研究者对 Proximal CI 的熟悉度提供了独特角度。

四、延伸与下一步¶

沿引用链的阅读路线 - 地基（先读）： 1. Li, Miao, Lu, Zhou (2023) "Improving efficiency of inference in clinical trials with external control data"：掌握可交换性下 ECD 借用的半参数效率界与 DR 估计器，这是本文的起点。 2. Robins, Rotnitzky, Zhao (1994) "Estimation of regression coefficients when some regressors are not always observed"：掌握 EIF 与 DR 估计器的经典框架，本文的 augmented estimating function 直接基于此。 - Frontier（再读）： 3. Rosenman, Basse, Owen, Baiocchi (2023) "Combining observational and experimental datasets using shrinkage estimators"：理解 shrinkage 路线的 bias threshold 与效率占优，与本文 shrinkage 对比。 4. Oberst et al. (2022) "Understanding the risks and rewards of combining unbiased and possibly biased estimators"：理解偏倚-方差权衡的有限样本视角，补充本文的渐近视角。 5. Schuler et al. (2022) "Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score"：理解预后调整路线，评估其与本文 augmented 路线的效率-鲁棒性权衡。 6. Karlsson et al. (2025) "Robust integration of external control data in randomized trials"：理解 randomization-aware 组合，这是本文 shrinkage 的最直接竞争者。 7. Li & Luedtke (2023) "Efficient estimation under data fusion"：理解 data fusion 的通用效率界框架，为偏移下效率界拓展做准备。

假设扰动 - 改动假设：将本文的 参数化偏移模型 \(k(x;\alpha), \rho(x,y_0;\beta)\) 改为 非参数/机器学习估计（如用 random forest / DNN 估计 \(k(x), \rho(x,y_0)\)）。 - 结论变化：Theorem 1 的一致性仍可能成立（若 ML 估计一致），但 Theorem 2 的渐近分布不再适用（因 ML 估计速率非 \(\sqrt{N}\)）；Theorem 3 的 shrinkage 仍可能效率占优，但 \(\delta_{t,N}\) 的行为需重新推导（因 \(\hat{\tau}_t - \tilde{\tau}_t\) 的分布可能非渐近正态）。需要新工具：DML 框架下的 nuisance 速率条件与 cross-fitting。 - 扰动后的问题落入：(B) 中期可做（需补 DML 文献如 Chernozhukov et al. 2018 "Double/debiased machine learning"，然后可构造 DML-augmented estimator 并推导其渐近分布）。

理解检测题 - 练习题：在本文的设定下，假设协变量偏移 \(a(x)\) 存在但概念偏移 \(b(x,y_0)=1\)（即条件可交换性成立），且你有一个参数化工作模型 \(k(x;\alpha)\) 但无验证数据（需用主数据估计 \(\alpha\)）。请推导此时 \(\hat{\tau}_1\) 的 augmented estimator 的渐近方差表达式（参考 Theorem 2 的 \(R_1\) 项），并证明：若 \(k(x;\alpha)\) 正确且 \(\mu_1(X)\) 有异质性，则 \(\hat{\tau}_1\) 的渐近方差严格小于 trial-only EIF 的方差；若 \(k(x;\alpha)\) 误设定，\(\hat{\tau}_1\) 的偏倚量级是什么？最后，构造此设定下的 adaptive shrinkage 估计器 \(\hat{\tau}_1^{(s)}\)，写出 \(\delta_{1,N}\) 的表达式，并说明它在 \(k(x;\alpha)\) 误设定时的行为。

Maintained by 陈星宇 · Homepage · Source on GitHub

Beyond Exchangeability: Distribution-Shift-Aware Integration of External Control Data in Randomized Trials¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论