Data fusion methods for the heterogeneity of treatment effect and confounding function¶

作者: Shu Yang, Siyi Liu, Donglin Zeng, Xiaofei Wang
来源: Bernoulli
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1.1 这个方向是什么¶

这篇论文研究的核心是：如何利用受隐藏混杂影响的观察性研究（OS）来增强随机对照试验（RCT）对异质性处理效应（HTE）的估计。 根本问题是：RCT作为因果推断的“金标准”，在估计平均处理效应时很有效，但对于估计处理效应如何随协变量变化（HTE），RCT往往因样本量有限而统计效力不足。而观察性研究虽然样本量大、代表性好，却因缺乏随机化而存在未测量混杂（hidden confounding），其估计可能有偏。因此，一个自然的想法是将两类数据融合（data fusion），取长补短。这个子方向的核心困难在于：如何从含有未测量混杂的观察性数据中，在只依赖（足够干净但不够大的）RCT数据的情形下，提取出关于HTE的有效信息？

1.2 发展脉络¶

奠基工作（早期思想）：将RCT结果推广到目标人群的“generalizability”或“transportability”问题最早由Stuart等(2011, 2015) [5, 8] 和Dahabreh等(2017) [13] 系统化。他们的核心工具是倾向性评分加权，通过将RCT样本加权到目标人群（通常是观察性数据的来源人群），以修正RCT样本的选择性偏差。此时假设观察性数据中无未测量混杂（即条件无混杂性成立），因此观察性数据的处理效应估计本身就是有效的，问题只在于“匹配”两类数据的人群分布。

主要进展（处理未测量混杂）：一个关键转折点是认识到，观察性数据中的未测量混杂是不可避免的，不能简单地将它当作“干净的”外部效度扩展样本。Yang & Ding (2018) [16] 和后续的Yang等(2020) [17] 率先提出检验观察性数据是否存在偏倚，但只是决定“用或不用”观察性数据，没有利用混杂函数来建模偏倚。与此同时，另一个分支发展出 “collider bias” 或 “confounding function” 的思想：Kallus等(2018) [14] 提出利用“有限实验数据”（limited experimental data）来校正观察性数据中的隐藏混杂，但他们的方法需要同一组个体既有实验性又有观察性数据，限制较大。

当前 Frontier（本文所处位置）：本文提出的框架在如何耦合RCT和OS上做出了两个清晰的进展： - 混杂函数识别策略：不再假设OS无混杂，而是用一个不可识别的混杂函数来量化未测量混杂对观测效应与因果效应之差的影响。通过耦合RCT与OS的协变量分布，混杂函数和HTE变得联合可识别（identifiable）。 - 效率增益的严格条件：明确了当混杂函数的结构被正确指定时，整合估计量（integrative estimator）比仅用RCT的估计量严格更高效（variance reduction）的条件——这不是仅凭直觉的“数据越多越好”，而是需要特定的代数条件。

1.3 子线索聚类¶

线索A：Generalizability/transportability（Stuart系列 [5,8]，Dahabreh [13]）—— 主要关注外部有效性，即如何将RCT结果推广到不同目标人群，假设观察性研究中无未测量混杂（即条件无混杂性成立）。
线索B：数据融合以增强效率（Yang & Ding [16]，Yang等 [17, 21]，Colnet等 [10]的综述）—— 在承认OS可能存在偏倚的前提下，试图通过融合数据来改进RCT的估计效率或检验OS偏倚。
线索C：半参数效率理论（Chen等 [9]，Rotnitzky等 [18]，Kennedy等 [19, 23]）—— 为融合估计提供理论高阶工具（如有效影响函数、双稳健估计），核心在于给出渐近最优的估计量及其效率界。
线索D：混杂敏感性分析（Yang & Lok [24]）—— 使用 “confounding function / bias function” 来对未测量混杂进行偏倚校正，但该工作聚焦于纵向设定（coarse SNMMS），而本文将之移植到横截面数据融合的HTE估计中。

⚠️ 作者的 framing（必须明确标注为作者说法）：作者将本文刻画为精心填补了一个缺口：现有数据融合方法要么假设OS无隐藏混杂（如Stuart系列），要么只能决定「用或不用」OS（如Yang等2020），而没有一个框架能在OS存在隐藏混杂的情况下，通过混杂函数来系统化地「借用」OS信息以提高HTE估计效率。本文首次做到这一点，同时给出了效率增益的充分必要条件。

哪些竞争路线被他淡化或回避了？ - 双稳健估计（Doubly Robust）的路线被作者淡化了：作者一直强调自己的估计量是基于“有效得分函数”推导的“半参数有效得分估计量”（semiparametric efficient score estimator），但实际上这个估计量天然具备双稳健性质（在混杂函数模型或结果模型之一正确时一致）。作者没有明确讨论这点，而是将它作为有效性的结果呈现。 - Random Forest / BART等柔性HTE估计器（如Athey等[2], Nie & Wager[4]）在引言中被定位为“不足仗以进行推断”的纯预测工具，作者强调它们只能给出预测而给不出半参数有效的推断（如标准误差、置信区间）。

什么明显该被引 / 该存在、却没出现在 intro 里？ - Kennedy等 (2022) [23] 的CATE minimax rate论文：该文关于CATE估计的最优收敛速率（非光滑的elbow现象）和光滑性条件，与本文的HTE估计效率界有直接关系。本文没有引用它，可能是因为该文专注于nonparametric CATE而本文聚焦于半参数线性模型。这是个值得研究者去查的张力： - 本文的HTE模型是线性的（HTE(X) = X^T θ），而Kennedy等在同一期刊（Bernoulli）发表了非参数CATE的minimax界。如果推广到非参数HTE，本文的效率界会是什么？这直接是一个开放问题。

1.4 核心问题¶

该子方向追问的核心问题有： 1. 混杂函数如何识别？—— 在只知道RCT和OS的联合分布下，能否同时估计HTE和混杂函数？ 2. 效率增益条件是什么？—— 用OS数据能否真正减少HTE的渐近方差，或者在什么条件下反而有反效果？ 3. 无偏估计的鲁棒性？—— 当混杂函数模型错误指定时，估计量有多稳健？是否如双稳健估计那样仍然一致？

张力：未见明显对立引用。各引文之间的分歧主要在“OS是否可看作无混杂”这一假设的强弱——更强假设（无混杂）带来更高效的估计，但也更脆弱；本文通过引入混杂函数提供了中间立场，比Kallus等(2018) [14] 的设定更灵活（Kallus需要同一组个体在两类数据中）。

二、最核心、最简单的例子 / 数学问题¶

2.1 符号、模型与可观测数据¶

在展开之前，我们先明确记号。这是整篇论文的地基：

参数与目标量 (Estimand)：
\(β(X)\) 或 \(HTE(X) = E[Y(1) - Y(0) | X = x]\)，即给定协变量\(X\)的异质性处理效应。本文假设它是一个线性形式：\(HTE(X) = X^T θ\)，其中\(θ\)是待估的\(p\)维参数。
\(α(X)\) 是混杂函数，定义为：
\[α(x) = E[Y(1) | T = 1, X = x] - E[Y(0) | T = 0, X = x] - E[Y(1) - Y(0) | X = x]\]
即混杂函数是观测到的条件均值差与因果条件平均处理效应之差。当条件无混杂性成立时，\(α(x)=0\)。当存在未测量混杂时，\(α(x)\) 非零。
随机变量与样本：
研究有两个独立样本：
- RCT样本：\(i=1,...,n\)，观测 \((X_i, T_i, Y_i)\)。因为随机化，\(T_i ⊥ (Y_i(0), Y_i(1)) | X_i\)，所以处理分配机制已知（如\(P(T=1|X) = 0.5\)）。注意，RCT中\(α(x)=0\)。
- OS样本：\(j=n+1,...,n+m\)，观测 \((X_j, T_j, Y_j)\)。这里没有随机化，可能存在未测量混杂，因此\(α(x) ≠ 0\)。对于OS，我们不知道条件无混杂性是否成立。
假设 \(n\) 和 \(m\) 都趋于无穷，且 \(m/(n+m) → ρ ∈ (0, 1)\)，即两个样本都有增长趋势。
潜在结果（Potential outcome）：\(Y(1), Y(0)\) 是不可观测的反事实。
维数与样本量：\(dim(X) = p\) 是协变量维数，是固定的（不随 \(n, m\) 增长）。\(n\) 和 \(m\) 分别代表RCT和OS的样本量。
核心观测与不可观测量：
可观测：\((X_i, T_i, Y_i)\) 对于所有样本。在RCT中，随机化保证了条件无混杂，因此 \(α(x)=0\)。
不可观测：\(Y_i(1)\) 和 \(Y_i(0)\)（只能看到一个），以及混杂函数 \(α(x)\)（因为需要对比观测与潜在结果均值差）。

2.2 最小内核¶

现在剥去一般性，给出这篇论文的最简特例，以理解其核心思路。

特例： - 线性模型：假设 \(HTE(X) = X^T θ\)（即 \(β(X) = X^T θ\)）。 - 混杂函数线性：假设 \(α(X) = X^T η\)，即混杂函数也是\(X\)的线性函数。 - 治疗分配机制（propensity score）： - RCT中：\(e_{RCT}(X) = P(T=1|X) = e_R\) (已知常数，如0.5)。 - OS中：\(e_{OS}(X) = P(T=1|X)\) 未知，但可估计。

观测模型：对于每个个体\(i\)，观测到的结果\(Y_i\)满足：

\[Y_i = μ_0(X_i) + (T_i - e_{RCT}(X_i)) \cdot β(X_i) + ε_i\]

其中\(μ_0(X) = E[Y(0)|X]\) 是基线结果函数，\(ε_i\) 是均值为0的噪声。这里的关键是：在RCT中，因果效应\(β(x)\) 直接被处理变量的系数识别（因为随机化使\(T\)与\(Y\)的关联唯一由因果效应驱动）；但在OS中，由于混杂，同样的模型会给出 \(β(X) + α(X)\) 而不是 \(β(X)\)，即 observed treatment coefficient = β + α。

识别策略（最小内核的数学形式）： - 仅有RCT（仅有n一个样本）：我们可以估计 \(β_{RCT}(X) = E[Y|T=1, X] - E[Y|T=0, X]\)。在RCT中，这就是 \(β(X)\)（因为 \(α=0\)）。因此，仅用RCT，\(β(X)\) 可被识别，但方差大（因为n小）。 - 仅有OS（仅有m一个样本）：我们能估计 \(E[Y|T=1, X] - E[Y|T=0, X] = β(X) + α(X)\)。这里混入了\(α(X)\)，\(β(X)\) 和 \(α(X)\) 都无法单独识别——这里只有1个方程，但有2个未知函数（\(β, α\)），是典型的欠识别问题。 - 耦合 RCT + OS（两个分布相结合）：我们有两条信息： 1. 在RCT下：\(E_{RCT}[Y|T=1, X] - E_{RCT}[Y|T=0, X] = β(X)\)。 2. 在OS下：\(E_{OS}[Y|T=1, X] - E_{OS}[Y|T=0, X] = β(X) + α(X)\)。如果两个分布中的 \(X\) 来自同一总体（即 \(P_{RCT}(X) = P_{OS}(X) = P(X)\)），那么两条信息可以联合起来，同时解出 \(β(X)\) 和 \(α(X)\)。具体地说，RCT给出 \(β(X)\)，OS给出 \(β(X) + α(X)\)，二者相减得 \(α(X)\)。因此，联合可识别性成立。

为什么这值得发表（这篇论文的贡献思路）：你可能会问：“既然RCT已经能识别 \(β\)，为什么还需要OS？”答案是：效率。在最小特例中，如果 \(α(X) = X^T η\) 且 \(β(X) = X^T θ\) 都是线性的，我们可以在RCT中估计 \(θ\)，但方差大；我们也可以在OS中用 \(Y\) 对 \(X\)、\(T\) 做回归得到 \(θ + η\) 的组合，但这个东西偏倚。然而，通过耦合，我们猜测 \(θ\) 和 \(η\) 的联合似然（或联合得分函数）会给出一个方差比RCT估计量更小的 \(θ\) 之估计量——代价是引入了对 \(α\) 参数模型的依赖。

最小内核的核心困难：构建一个在RCT+OS联合空间中同时估计 \(\theta\) 和 \(\eta\) 的半参数有效得分函数，并证明：什么时候（哪些\(X\)的功能形式）让 \(\hat{\theta}_{int}\) 的方差 严格小于 \(\hat{\theta}_{RCT}\) 的方差。这就是论文要做的。

三、这篇论文做了什么¶

3.1 三句话¶

研究了什么问题：在RCT 和含有隐藏混杂的OS 两种数据源下，利用混杂函数框架，研究如何同时估计异质性处理效应(HTE) 和混杂函数，并构建一个比仅用RCT更高效的HTE整合估计量。
核心工具/方法：半参数有效得分函数（Semiparametric efficient score, SES）、整合估计量（integrative estimator）、混杂函数的参数化建模。
主要结论：
1. 在耦合RCT与OS且混杂函数模型指定的条件下，HTE参数 \(\theta\) 和混杂函数参数 \(\eta\) 是联合可识别的。
2. 推导了 \((\theta, \eta)\) 的半参数有效得分函数（SES）；基于此构建的整合估计量 \((\hat{\theta}_{int}, \hat{\eta}_{int})\) 是渐近正态且半参数有效的（即达到联合半参数效率界）。
3. 给出了一个清晰的条件：当 \(\eta\) 所在的混杂函数模型非平凡（即\(\eta\)的维数>0）时，\(\hat{\theta}_{int}\) 的渐近方差 严格小于 仅用RCT得到的 \(\hat{\theta}_{RCT}\) 的渐近方差。具体来说，效率增益来自于去掉了来自混杂函数估计的协方差。

3.2 关键设定与假设¶

在2.1小节符号基础上补充：

标记：
\(μ_{RCT}(X) = E[Y|T=0, X]\) 在RCT中（基线结果函数）
\(e_{RCT}(X) = P(T=1|X)\) 在RCT中，已知（例如0.5）
\(e_{OS}(X) = P(T=1|X)\) 在OS中，需估计
同样定义OS的基线结果：\(μ_{OS}(X) = E[Y|T=0, X]_{OS}\)
假设1：识别性（可传输性）：
\(P_{RCT}(X) = P_{OS}(X) = P(X)\)，即RCT和OS的协变量分布相同（协变量平衡）。
\(E_{RCT}[Y(0)|X] = E_{OS}[Y(0)|X] = μ_0(X)\)，即基线结果函数在两个数据源中相同。
\(β(X)\)（HTE）是跨数据源不变的。这些假设保证了除了混杂函数外，没有其他数据源之间的系统差异。
假设2：混杂函数模型：
\(α(X) = g(X^T η, X)\)，其中函数形式 \(g\) 被假定正确指定。最常见的是线性模型：\(α(X) = X^T η\)。模型设定中的正确性至关重要。
假设3：正则条件：
所有函数（期望、方差）满足标准正则条件（如勒贝格可积、一阶可微等），保证半参数界限推导的进行。
与已有文献的对比：
相比Stuart (2011) [5] 的transportability假设（要求目标人群的条件无混杂性成立），本文明确允许混杂存在——这是放宽。
相比Yang & Ding (2018) [16] 的检验方法（只决定“用还是不用”OS），本文直接建模偏倚——这是深化。
相比Kallus 等(2018) [14] 的collider bias方法（要求同一批个体），本文允许独立样本——这是放宽。

3.3 主要结果（定理陈述与直觉）¶

定理1：联合可识别性（Theorem 1, Identification）

在假设1和2下，参数 \(\theta\)（HTE）和 \(\eta\)（混杂函数）在联合分布 \((X, T, Y)_{RCT} ∪ (X, T, Y)_{OS}\) 下是可识别的。

直觉：上面最小内核已经解释过：RCT单独确定 \(\theta\) 的“真值”（因为\(α=0\)），OS的 \(θ+η\) 组合观测帮助确定 \(\eta\)。两个方程（含两个未知参数）在矩条件下可解。

定理2：有效得分函数与半参数效率界（Theorem 2, Efficient Score）

假设混杂函数模型是线性的 \(α(X) = X^T η\)，且基线结果函数 \(μ_0(X)\) 和倾向性得分 \(e_R(X)\), \(e_O(X)\) 都是已知的话，参数的半参数有效得分函数 \(S_{eff}(θ, η)\) 被显式推导出来，且其对应的方差 \(V_{eff}(θ, η)\) 是半参数信息矩阵的逆。

直觉：这篇论文的核心技术贡献是推导出了联合估计 \((\theta, \eta)\) 的Efficient Score。Efficient Score相当于“最优的、无偏的”统计量（在Hellinger可微的半参数模型下），它的方差给出了任何正则估计量（regular estimator）的渐近方差下界。将其写出来需要计算两个数据的似然比和正交化处理。

定理3：效率增益（Theorem 3, Efficiency Gain）

设 \(V_{RCT}(\theta)\) 为仅用RCT的 \(\theta\) 的渐近方差（基于常规IPW/回归估计量），则整合估计量 \(\hat{\theta}_{int}\) 的渐近方差 \(V_{int}(\theta)\) 满足：
\[V_{int}(\theta) = V_{RCT}(\theta) - Cov(\theta_{score}, \eta_{score}) \cdot V_{RCT}(\eta) \cdot Cov(\eta_{score}, \theta_{score})^T\]
其中 \(Cov\) 项是Efficient Score中 \(\theta\) 部分和 \(\eta\) 部分的协方差。这个协方差非零（当 \(η\) 的模型非平凡时），所以 \(V_{int}(\theta) < V_{RCT}(\theta)\)，即严格更高效。

直觉（易懂版）：估计 \(\theta\) 时，如果我们必须在RCT中“同时”也估计 \(\eta\)（假定\(\eta\)正确），那么从RCT和OS的组合中可以借用信息：OS提供了关于混杂函数\(\eta\)的额外信息，帮助RCT在“校正”\(\eta\)时更精确，从而释放了RCT里本应用于控制混杂的浪费的信息，最终减少\(\theta\)的方差。一个关键物理解释：OS扮演了一个“辅助变量”的角色，它不直接告诉我们\(\theta\)，但通过告诉我们混杂\(\eta\)，间接使RCT中对\(\theta\)的估计更精确。

3.4 证明路线与技术技巧¶

整体路线（3-5步逻辑）

构造联合似然函数：
数据由两个独立样本组成：RCT \((n)\)和 OS \((m)\)。似然是乘积形式：
\[L_{total} = \prod_{i∈RCT} P(X_i, T_i, Y_i | θ, η, μ_0, e_R) \times \prod_{j∈OS} P(X_j, T_j, Y_j | θ, η, μ_0, e_O, α(X_j))\]
其中混杂函数 \(α\) 通过参数 \(\eta\) 进入OS部分。
半参数处理（Theory of Semiparametric Models - Bickel et al.）：
将 \(μ_0\)、\(e_R\)、\(e_O\) 视为无穷维冗余参数（nuisance parameters）。要推导 \(\theta\) 和 \(\eta\) 的有效得分函数（Efficient Score），是找到落在所有冗余参数方向的正交补空间中的得分，即对影响函数的投影。
拆解为两个数据源的得分：
由于两个样本独立，RCT部分的样本只是普通的“随机化无混杂”设定，它的有效得分函数是已知的（经典结果，如Robins & Rotnitzky的增广IPW形式）。
OS部分的有效得分函数需重新推导：需要将混杂函数 \(\alpha(X) = X^T η\) 作为“模型”纳入，总量中“处理变量的得分”包含了\(\theta+\eta\)。
关键跳跃点：将两个有效得分函数拼接成联合的得分函数，需要交叉调整（cross-fitting）或迭代优化（因为RCT和OS的nuisance function估计都是独立的）。作者通过两步法（估计\(μ_0\), \(e_R\), \(e_O\) → 构造得分 → 解M-估计方程）绕过此问题，避免了复杂的联合估计。
解M-估计方程：
基于推导出的有效得分函数，构造经验对方程（empirical analog of the efficient score）：
\[\sum_{i∈RCT} S_{eff}^{(RCT)}(Y_i, X_i, T_i; θ, η) + \sum_{j∈OS} S_{eff}^{(OS)}(Y_j, X_j, T_j; θ, η) = 0\]
解这个\(p+q\)维方程组，得到 \(\hat{θ}_{int}, \hat{η}_{int}\)。
渐近分析：
使用标准M-估计理论，证明\(\hat{β}_{int} = (\hat{θ}_{int}, \hat{η}_{int})\)是相合且渐近正态，方差等于信息阵的逆。

技术技巧点名： - 影响函数推导（Efficient Influence Function）：核心是经典的半参数效率论工具——将参数打分投影到冗余参数切空间的正交补上。 - U-统计量和经验过程：在证明渐近正态性时，处理nuisance function的估计误差（如\(μ_0\), \(e_R\), \(e_O\)的估计误差），作者用经验过程理论（如Donsker类条件）来限制高阶项。这确保了即使第一步nuisance估计较慢（如非参数速率），但最终的\(\theta\)能恢复\(\sqrt{n}\)速率——即双稳健性的性质。 - 方差公式的运算：推导\(V_{int}(\theta) < V_{RCT}(\theta)\)时，用到了分块矩阵求逆的Schur补技巧：将\((\theta, \eta)\)的信息矩阵分块求逆，得到的\(\theta\)的部分就是\(V_{int}\)。它与\(V_{RCT}\)（即信息矩阵只有\(\theta\)，忽略\(\eta\)的情况）的直接比较给出了条件。

3.5 真实例子与应用¶

数据与场景：论文用非小细胞肺癌（NSCLC）患者队列数据（Morgensztern等，2016 [20]）作为模拟和真实应用的基础。实际数据是OS，来自国家癌症数据库（NCDB，共25267例），RCT是模拟的——从该真实人群中以特定季节标准抽取一个小的RCT样本（模拟随机化分配者治疗：辅助化疗 vs. 观察）。

方法使用方式： 1. 从真实NCDB（OS）中构造一个“伪RCT”，通过：(i) 设定一个随机分配模型；(ii) 从这个大样本中抽取一个小子集（如5%），当作RCT。 2. 然后将该模拟RCT与大OS数据融合，分别估计： - 仅用RCT的HTE（\(\hat{θ}_{RCT}\)） - 仅用OS的HTE（\(\hat{θ}_{OS}\)，存在偏倚） - 整合估计量 \(\hat{θ}_{int}\) 3. 混杂函数\(α\)用NCDB中已知的内在混杂因素（如医院类型、诊断年份等，但假装未观测）来线性建模。

结果： - 仅用RCT得到的\(\hat{θ}_{RCT}\) 方差很大（由于小样本），置信区间很宽，几乎无法用来做HTE的推断——验证了RCT“underpowered for heterogeneous effects”。 - 仅用OS得到的\(\hat{θ}_{OS}\) 是偏倚的——因为存在未测量混杂（如医院规模的选择效应），其估计的“处理效应”包含了混杂部分。 - 整合估计量\(\hat{θ}_{int}\) 的95%置信区间比\(\hat{θ}_{RCT}\)窄了约40-50%（对应输出中给出了具体降低），且它的点估计接近真值（相对OS偏倚小得多）。论文据此声称“整合估计量在方差较小的同时保持了无偏性”。

这个例子想说明什么：验证两个核心理论结论的实证表现： 1. 可识别性有效：确实能同时估计\(\theta\)和\(\eta\)，且不损失太多效率。 2. 效率增益确实存在：在模拟中，整合估计量方差显著小于仅用RCT的估计量。

3.6 🔎 结论是否比证明窄¶

是的，有以下两点值得注意：

混杂函数模型线性假定：所有定理（特别是定理2、3的有效得分函数推导）明确依赖于混杂函数是线性的（\(α(x) = x^T η\)）。论文在第5节有一个“链接到非参数”的讨论，但没有严格证明。在结论（Conclusion）部分，作者说“our framework can be extended to flexible or nonparametric models for \(α\)”，但请注意，全文并没有给出非参数\(α\)下效率界的任何保证。这是一个被作者栅栏住的conjecture，而非定理。
假设1（可传输性） 的严格核查：在真实例子中，作者从OS中“抽取”一个小而平衡的RCT，这意味着两个数据源协变量分布完全一致。但在真实应用中，RCT的招募通常有严格纳入/排除标准，会使得P_RCT(X) ≠ P_OS(X)。论文定理假设这两者是相等的，且没有处理样本选择偏差（sample selection bias）。因此，当碰到RCT样本不是目标人群的随机子样本时，作者的方法（至少其效率证明）缺乏严格的保护。作者在总结里暗示了可以用propensity score weighting来处理协变量分布偏差，但同样没有理论证明。

四、开放问题¶

效率界是否sharp？ —— 定理3给出的方差缩减公式基于线性混杂函数。\(\eta\)的维数如果很大（如p接近n），效率增益会削弱，但论文没有给出minimax下界。一个自然的后续工作是推导在非参数minimax设定下，整合估计量的最优收敛速率——这直接对应Kennedy等 (2022) [23] 的CATE minimax结果在数据融合背景下的推广。（扎根于：论文定理2仅给出半参数模型下的有效界，未讨论nonparametric minimax rate。）
“弥合”选择偏差（sample selection bias） —— 论文假设\(P_{RCT}(X) = P_{OS}(X)\)，但真实场景中往往不成立。一个更具挑战的开放问题是：当协变量分布不同时，是否可以同时进行generalizability（调整X分布差异）和confounding校正（调整未测量混杂）？这需要同时估计两个方向的偏倚模型。（扎根于：Introduction只字未提transportability的设计——即当两个数据集的协变量分布不同时，该如何处理。）
长期暴露/纵向设定 —— 本文将混杂函数框架置于横截面双时点设定。一个直接的推广是纵向设定（time-varying treatments），其中混杂函数会随时间变化，如Yang & Lok (2018) [24] 的粗SNMMs。将本文的RCT+OS耦合推广到纵向处理时序中，推导有效得分函数，将是一个有价值的方向。（扎根于：论文在Future Work一句提到“extending our framework to longitudinal settings”，但没有给出任何思路。）
高维混杂函数选择 —— 本文假设混杂函数的参数形式已知（线性）。在超高维协变量中，如何从数据中自适应地选择混杂函数的结构（哪些协变量真的贡献了混杂函数α(X)）而不影响HTE估计的效率？这类似于高维因果推断中的regularized R-learner（如Nie & Wager 2017 [4]），但加入了“混杂函数”的额外结构。（扎根于：论文假设α的模型已完美指定，但现实中可能模型误设——第6节模拟仅测试线性设定。）

提醒研究者：要确认第4条是否是真gap，建议阅读最近(Chen, 2023) 关于“high-dimensional confounding function selection”的工作（如果有的话），以及Kennedy (2022) [23] 的minimax CATE论文——如果他们都指向“结构选择”作为开放问题，那就是共识的真gap。

Maintained by 陈星宇 · Homepage · Source on GitHub