Sensitivity analysis for studies transporting prediction models¶

作者: Jon A Steingrimsson, Sarah E Robertson, Sarah Voter, Issa J Dahabreh
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：如何在一个只有协变量数据（无结局数据）的目标人群中，评估一个已在源人群（有结局数据）中开发完成的预测模型的性能（例如均方预测误差、AUC）。这本质上是统计学中的“可移植性”（transportability / external validity）问题，是因果推断中 generalization / transport 框架在预测模型评估场景下的特例。当前成熟度：识别条件已经基本清晰，估计方法从简单的逆概率加权发展到双重稳健 / 一步估计量，但绝大多数工作假设条件可移植性（conditional transportability）成立——即给定协变量后，结局与人群指示变量独立。本文的切入点正是要放松这个假设，引入敏感性分析。

发展脉络¶

奠基工作（2017-2019）：建立识别框架
Dahabreh et al. (2017) [被引3]：在“RCT嵌套于队列”的设计下，形式化了从随机化个体向所有合格个体推广因果推断的条件，给出了识别的充要条件。这是整个 transportability 文献的起点。
Dahabreh et al. (2019) [被引4]：正式区分了“推广”（generalization，目标人群包含源人群）和“可移植”（transportation，两个人群可能有交叉但不包含），并澄清了不同抽样设计（nested vs. non-nested）下可识别目标的差异。这给出了本文所用的non- nested抽样设计的理论基础。
Steingrimsson et al. (2021) [被引1，本文核心背景]：首次将 transportability 框架移植到预测模型评估，引入“预测误差修饰因子”（prediction error modifier）概念，给出了目标人群 prediction risk 的识别公式（在条件可移植性假设下），并提出了逆概率加权和 plug-in估计器。
主要进展（2021-2022）：估计方法的深化与扩展
Li et al. (2022) [被引7]：扩展 Steingrimsson et al. (2021) 的框架到 AUC 这样的复杂性能指标，提出三个一致且渐近正态的估计器。
Morrison et al. (2022) [被引8]：进一步发展出双重稳健的估计器（可容纳数据自适应估计），且给出了协变量偏移下基于损失的模型性能指标的渐近理论。本文的 one-step 估计器是 Morrison et al. 的直接扩展。
Smucler, Rotnitzky & Robins (2019) [被引5]和Dahabreh et al. (2019) [被引6]：从更一般的 semiparametric theory 角度给出了双重稳健估计量的框架（包括率稳健性 rate robustness），本文的直接理论基础。
当前 frontier（敏感性分析方向，2019-2022）
Dahabreh et al. (2019) [被引13] 和 Dahabreh et al. (2022) [被引17]：这两个工作是本领域的敏感性分析奠基。前者引入 bias function 参数化条件交换性假设的违反，用于 generalization / transport 的整体因果效果；后者提出 global sensitivity analysis，直接参数化反事实结局分布的偏离。这两个工作关注的是因果效果（如 ATE）的 transportability，而非预测模型性能指标的 transportability。
Nguyen et al. (2016, 2018) [被引10,14]：另一个平行的敏感性分析框架，聚焦于“效果修饰因子在目标人群中未观测”的情形，提出基于 outcome model 和 weighting 的敏感性分析方法。
Scharfstein et al. (2021) [被引15]：在更一般的未观测混杂情形下，用半参数效率理论推导了平均因果效应的敏感性分析估计器（使用 one-step 和样本分割），本文的估计策略直接继承了这个工作。
本文的位置：在上述脉络中，本文填补的缺口是将敏感性分析引入预测模型可移植性场景——之前的敏感性分析工作（Dahabreh et al. 2019, 2022）关注的是因果效果的 transportability，而 Steingrimsson et al. (2021) 等预测模型可移植性工作则假设条件可移植性成立。本文识别出一个未被回答的问题：“如果条件可移植性假设在预测模型场景不成立，会怎样？”

子线索聚类¶

线索A：预测模型可移植性的估计方法（无敏感性分析）——Steingrimsson et al. (2021), Li et al. (2022), Morrison et al. (2022)。核心关注：假设条件可移植性成立，开发估计器和渐近理论。
线索B：transportability 的敏感性分析（针对因果效果）——Dahabreh et al. (2019, 2022), Nguyen et al. (2016, 2018), Scharfstein et al. (2021)。核心关注：放松条件交换性假设，用 bias function 或指数倾斜模型参数化偏离。
线索C：更一般的 semiparametric theory 与双重稳健估计——Smucler, Rotnitzky & Robins (2019), Dahabreh et al. (2019) [被引6]。为线索A和B提供理论工具。

这个方向在追问的核心问题¶

识别问题：在只有协变量数据的目标人群中，什么条件下能识别预测模型性能指标？可移植性假设是否可被检验？
估计问题：如何构造出高效（达到 semiparametric efficiency bound）、双重稳健且能容纳数据自适应估计的估计器？
敏感性分析问题：当关键假设（条件可移植性）违反时，性能指标的估计会偏离多远？能否给出一组“若-则”陈述？

已知瓶颈：条件可移植性假设在大多数实际场景（如肺癌筛查模型从一个临床试验移植到全国代表性人群）是无法用数据检验的，只能依靠领域知识，这为敏感性分析留下了核心空间。

⚠️ 作者的 framing¶

这是作者的说法：作者把缺口 frame 为“条件可移植性假设是 untestable 且充满争议的，因此敏感性分析是必须的；虽然 Dahabreh et al. (2019, 2022) 已经对因果效果的 transportability 提出了敏感性分析，但尚未有人对预测模型性能指标的 transportability 做类似工作”。作者淡化的是：对因果效果做敏感性分析和预测模型性能指标做敏感性分析，在技术难度和理论结构上是否有本质差别——本文的 exponential tilt 模型几乎是 Dahabreh et al. (2022) 的平移。作者回避的是：自己的敏感性分析模型（exponential tilt on propensity of being in source population）是否真的比简单的 bias function 参数化更有优势？没有做比较。另外，明显该存在但未被引用：Duong et al. (2023) [被引20] 已经在多研究、多结局场景下做了 transportability 的敏感性分析，且使用了 proxy outcome —— 作者没有引用这个很近的工作，这可能是出于时间线（Duong et al. 2023 晚于本文？）或 scope 不同（proxy 设定 vs. 无结局数据设定），但值得查一下。

张力¶

未见明显对立引用。各被引工作之间在识别条件和估计方法上是一致的，没有在略不同条件下得到相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \(S \in \{0,1\}\)：人群指示变量，\(S=1\) 表示来自源人群（source population），\(S=0\) 表示来自目标人群（target population）。这是可观测的。 - \(X\)：协变量向量（可能高维）。这是可观测的。 - \(Y\)：结局变量（标量）。仅在 \(S=1\) 的源人群中可观测；在 \(S=0\) 的目标人群中缺失。 - \(f(X)\)：已经训练好的预测模型（视为固定、已知的函数，不是估计的对象）。 - \(R(Y, f(X))\)：损失函数（如平方误差 \((Y - f(X))^2\) 或 0-1 分类损失）。

模型：非参数模型——对 \((S, X, Y)\) 的联合分布不加任何参数假设。唯一的假设是迁移敏感性的参数化形式（exponential tilt）。

可观测数据： - 来自源人群的一个随机样本：\(\{(X_i, Y_i, S_i=1), i=1,\dots,n_1\}\) - 来自目标人群的一个独立随机样本：\(\{(X_j, S_j=0), j=1,\dots,n_0\}\)，无 Y 数据。 - 两个样本是独立获得的（non-nested sampling design [被引4]），且 \(\Pr(S=1) = \pi\) 可能不等价于抽样比例（取决于设计）。

想要但观测不到的量：目标人群中的平均损失（risk）\(\psi = \mathbb{E}[R(Y, f(X)) \mid S=0]\)——这就是我们想估计的目标参数。

第二步：讲最小内核¶

最简特例假设： 1. 协变量 \(X\) 为二值（例如，只有一个预测因子：吸烟状态，0/1）。 2. 损失函数为平方误差：\(R(Y, f(X)) = (Y - f(X))^2\)。 3. 预测模型 \(f(X) = \alpha + \beta X\) 已从先前的数据中训练好，视为已知。

条件可移植性假设（本文想放松的假设）：

\[Y \perp S \mid X\]

即：给定 \(X\)，结局变量与人群无关。在这个假设下，

\[\mathbb{E}[(Y - f(X))^2 \mid S=0] = \mathbb{E}[\mathbb{E}[(Y - f(X))^2 \mid X, S=1] \mid S=0]\]

风险可以仅从源人群数据识别。但在现实中，这个假设可能不成立——例如，不同人群的疾病检出率或测量误差不同。

现在，放松这个假设：引入指数倾斜（exponential tilt）模型来参数化这个“非可移植性”。具体的，假设：

\[\frac{p(Y \mid X, S=1)}{p(Y \mid X, S=0)} \propto \exp(\eta \cdot Y)\]

其中 \(\eta\) 是已知的敏感性参数（scalar）。这里指数倾斜放在结局 \(Y\) 本身上，而不是协变量 \(X\) 上——这与常见的迁移学习中的“协变量偏移”（covariate shift）假设相反。

在这个最简例子下，给定 \(\eta\) 和可观测数据，目标人群 risk 的识别公式为：

\[\psi(\eta) = \frac{\mathbb{E}[ R(Y, f(X)) \cdot \exp(\eta Y) \mid S=1 ]}{\mathbb{E}[ \exp(\eta Y) \mid S=1 ]}\]

即：用源人群数据计算一个加权平均，权重正比于 \(\exp(\eta Y)\)。

证明直觉：由指数倾斜模型，得到 \(p(Y \mid X, S=0) = p(Y \mid X, S=1) \cdot \exp(\eta Y) / \mathbb{E}[\exp(\eta Y) \mid X, S=1]\)。然后对 \(X\) 的分布取期望（注意目标人群协变量分布 \(p(X \mid S=0)\) 可直接从数据得到），经过代数运算得到上面的公式。

这告诉了我们什么： - 当 \(\eta=0\) 时，退化为条件可移植性假设下的识别公式。 - 当 \(\eta > 0\) 时，结局值更大的个体在目标人群中的权重相对更高（相对于源人群），因此目标人群风险会更高（如果损失是平方误差）。 - 当 \(\eta < 0\) 时，反之。

这个最小内核的核心思路就是：用一个一维参数 \(\eta\) 来刻划不可检验的条件可移植性假设的违反方向和幅度，然后推导出在给定该参数下的可识别公式，进而通过扫描 \(\eta\) 在一个合理区间来产生一个“敏感性区间”。读者读完这一节，已经抓住了“这篇论文在数学上到底干了一件什么事”——将 conditional transportability 假设替换为一个指数倾斜的敏感性模型，推导出在给定倾斜参数下 target risk 的可识别性，然后用在源人群数据上的一步估计量去估计这个 target risk，最后扫描倾斜参数看估计值如何变化。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在预测模型可移植性场景（源人群有 \(Y\)、目标人群无 \(Y\)）下，当条件可移植性假设（\(Y \perp S \mid X\)）不成立时，如何做敏感性分析。
核心方法：提出一个指数倾斜（exponential tilt）模型，用参数 \(\eta\) 来参数化假设的违反，并推导出在该模型下目标人群 risk（期望损失）的识别公式和一个 one-step （augmented/ AIPW 型）估计器。
主要结论：在给定 \(\eta\) 下，目标人群 risk 是可识别的；所提估计器满足 \(n^{-1/2}\)-一致性和渐近正态性（in practice），且具有双鲁棒性质（如果两个 nuisance 函数之一的估计以足够快速度收敛，则整体估计率稳健）。

关键设定与假设¶

在第二节符号基础上补充：

正式假设： - 假设1（抽样设计）：Non-nested sampling design。源人群样本和目标人群样本是独立获得的（可以有不同的抽样概率），且 \(\Pr(S=1)\) 由设计决定，可能不等于总体比例。 - 假设2（条件可移植性，基准版）：\(Y \perp S \mid X\)。这是本文要放松的假设。 - 假设3（指数倾斜敏感性模型，代替假设2）：存在已知的敏感性参数 \(\eta\)（\(\eta \in \mathbb{R}\)），使得

\[p(Y \mid X, S=0) = p(Y \mid X, S=1) \cdot \frac{\exp(\eta Y)}{\mathbb{E}[\exp(\eta Y) \mid X, S=1]}\]

这里指数倾斜是放在整个结局 \(Y\) 上，而非条件均值或某种变换。注意 \(\eta\) 被假设为在给 \(X\) 下与 \(X\) 无关（即指数倾斜的方向和幅度不依赖于 \(X\)），这是一个很强的简化。 - 假设4（支持条件）：\(\mathbb{E}[\exp(\eta Y) \mid X, S=1]\) 几乎必然有界。

相比已有文献的强化/放宽： - 相比 Steingrimsson et al. (2021)，本文放宽了条件可移植性假设，但增补了指数倾斜模型的参数化假设（因此整体假设集不是嵌套关系——不是简单放松，而是用一种可参数化的偏离替换了原来的假设）。 - 相比 Dahabreh et al. (2019, 2022)，本文处理的参数是预测模型性能指标而非因果效果；但指数倾斜模型的形式与 Dahabreh et al. (2022) 本质相同（只是参数的身份从“未观测的效应修饰因子”变成了“结局与人群的相关性”）。

主要结果¶

定理1（识别，Proposition 1）¶

在假设1、3、4下，目标人群 risk \(\psi(\eta) = \mathbb{E}[R(Y, f(X)) \mid S=0]\) 可表示为：

\[\psi(\eta) = \frac{\mathbb{E}[R(Y, f(X)) \cdot \exp(\eta Y) \mid S=1]}{\mathbb{E}[\exp(\eta Y) \mid S=1]}\]

其中两个期望都是对源人群分布（\(S=1\)）取的。

直觉：指数倾斜实际上通过 \(\exp(\eta Y)\) 的加权把 \(S=1\) 下的分布“修正”为 \(S=0\) 下的分布。如果 \(\eta=0\)，退化为通常的 plug-in 公式。

必要条件：分母 \(\mathbb{E}[\exp(\eta Y) \mid S=1] \neq 0\)。(几乎总是满足，因为 \(\exp(\eta Y)>0\))

定理2（估计量与渐近性质，Theorem 1）¶

定义两个 nuisance 函数： - 条件风险：\(m(X; \eta) = \mathbb{E}[R(Y, f(X)) \exp(\eta Y) \mid X, S=1]\) - 均值权重：\(w(X; \eta) = \mathbb{E}[\exp(\eta Y) \mid X, S=1]\)

定义 one-step (augmented) 估计量：

\[\hat{\psi}_{aug}(\eta) = \frac{\frac{1}{n_1} \sum_{i: S_i=1} \left[ R(Y_i, f(X_i)) \exp(\eta Y_i) - \hat{m}(X_i) \right] + \frac{1}{n_0} \sum_{j: S_j=0} \hat{m}(X_j)}{\frac{1}{n_1} \sum_{i: S_i=1} \left[ \exp(\eta Y_i) - \hat{w}(X_i) \right] + \frac{1}{n_0} \sum_{j: S_j=0} \hat{w}(X_j)}\]

这是 ratio-of-averages 形式，分子和分母都用 AIPW 结构构造。

结论：在 \(\hat{m}\) 和 \(\hat{w}\) 以足够快速率（\(n^{-1/4}\) 及以上）收敛的条件下，\(\hat{\psi}_{aug}(\eta) - \psi(\eta) = O_p(n^{-1/2})\) 且渐近正态，且 \(\hat{\psi}_{aug}(\eta)\) 是双重鲁棒的（如果 \(m\) 或 \(w\) 之一被正确估计，结果一致）。

评论：这里的“双重鲁棒”与经典因果推断中的双重鲁棒不完全一样——这里有两个 nuisance 函数，且估计量是一个 ratio，因此双鲁棒性质相对弱一些（需要额外的条件，见论文讨论部分）。

定理3（敏感性分析曲线）¶

最终给出的不是一个单一的估计，而是一个敏感性曲线：\(\eta \mapsto \hat{\psi}_{aug}(\eta)\)。对 \(\eta\) 取一个合理区间（如 \([-2, 2]\)），观察 target risk 如何变化。如果曲线在某个阈值以下，则结论稳健；否则，则结论对假设违反敏感。

解决的技术难点：分母中的 \(\hat{w}(X)\) 估计，以及 ratio 型估计量的渐近方差推导（需要使用 delta method 和 influence function 的 ratio 版本）。

证明路线与技术技巧¶

整体路线（4步逻辑主干）： 1. 识别阶段：从指数倾斜模型导出 \(p(Y \mid S=0, X)\) 与 \(p(Y \mid S=1, X)\) 的关系，然后用给定 \(\eta\) 的条件写出 \(\psi(\eta)\)；通过变量变换（利用条件密度比率）消掉 \(X\) 的积分，得到只依赖于 \(S=1\) 分布的表达式。这就得到了 Proposition 1。 2. 一类估计量构造：直接使用 Proposition 1 的 plug-in 版本替换期望为样本均值，得到“条件损失估计量”（conditional loss estimator）\(\hat{\psi}_{cl}(\eta)\)。但它是基于 \(m\) 和 \(w\) 的模型的，如果模型 misspecified 则不一致。 3. AIPW 构造：利用 influence function 理论，将 \(\psi(\eta)\) 表达为某个矩方程的解，然后构造 augmented 版本，使得当 nuisance 函数的估计有偏差时，偏差被“减去”一个项来抵消。核心是用 cross-fitting 防止 overfitting，用 influence function 的“正交性”来获取率稳健性。 4. 渐近证明：证明的关键是处理 ratio 型估计量的非线性——通过对分子和分母分别做 von Mises 展开，再使用 delta method，得到：

\[\hat{\psi}_{aug}(\eta) - \psi(\eta) = \frac{1}{n} \sum_{i} \text{IF}_i + \text{remainder}\]

其中 remainder 是两个 nuisance 函数估计误差的乘积的期望——这就自然得到了双鲁棒性（如果至少一个函数被正确估计，乘积收敛更快）。

关键跳跃点： - 最吃功夫的是 lemma 1（论文中的 Lemma 1）：证明 AIPW 形式的 ratio 估计量的 influence function 的显式表达式，以及证明该 influence function 对 nuisance 函数的一阶估计误差是正交的。这需要计算 Gateaux derivative 并进行偏微。 - 另一个难点是处理分母中的估计量 \(\hat{w}(X)\)——因为它出现在 ratio 的分母，估计误差会同时影响分子和分母，导致 influence function 更加复杂。

技术技巧点名： - Influence function / 半参数效率理论：推导 AIPW 型估计量的正交性和率稳健性。 - Cross-fitting (样本分割)：用样本分割避免 nuisance 函数的过拟合（被引5的框架）。 - Delta method for ratio estimators：处理 ratio 型目标参数的渐近方差。 - Empirical process theory / Donsker 条件：对某些初步结果，论文假设 nuisance 函数空间足够小（Donsker），但最终使用 cross-fitting 放松了这个条件。 - Rate robustness（率稳健性）：被引5 的条件，即两个 nuisance 函数的收敛率乘积达到 \(n^{-1/2}\) 即可。

真实例子与应用¶

数据来源： - 源人群：National Lung Screening Trial (NLST)，这是一个随机对照试验，评估低剂量 CT 肺癌筛查效果。包含 368 名随机化参与者。 - 目标人群：National Health and Nutrition Examination Survey (NHANES)，一个全国代表性调查。包含 955 名符合条件的非随机化参与者（全是目前或曾经吸烟者）。 - 预测模型：一个已知的肺癌风险预测模型（灵活推理/决策树？具体模型在文中未说明，但提到是一个“合理预测模型”）。 - 分析细节：协变量包括年龄、性别、吸烟年数、每日吸烟量等。所有参与者都有协变量数据；只有 NLST 参与者有结局数据（是否患肺癌）。分析限于有完整协变量数据的参与者（368+955）。

怎么把本文方法用上去： 1. 首先在源人群（NLST）中，对 \(\eta=0\) 估计 target risk（即假设条件可移植性成立），得到一个基准值。 2. 然后按步长 0.1 扫描 \(\eta \in [-1, 1]\)（论文图 1），对每个 \(\eta\) 用 \(\hat{\psi}_{aug}(\eta)\) 估计 target risk。 3. 同时提供 \(\hat{\psi}_{cl}(\eta)\)（条件损失估计器，不进行 AIPW 校正）作为对比，以及简单“naive”估计量（直接用源人群样本均值，不调整人群差异）。

得到什么结果： - 当 \(\eta=0\) 时，目标人群 risk 约为 0.15（含义：模型在目标人群中的平均平方预测误差约为 0.15）。 - 当 \(\eta\) 从 0 增加到 1 时，risk 单调下降到 0.05 左右；当 \(\eta\) 从 0 减小到 -1 时，risk 单调上升到约 0.45。 - \(\hat{\psi}_{aug}(\eta)\) 和 \(\hat{\psi}_{cl}(\eta)\) 的曲线形状相似，但 \(\hat{\psi}_{aug}(\eta)\) 的变化幅度更大——说明 AIPW 校正后，敏感性曲线更陡峭。 - 通过 bootstrap 计算了 95% 置信区间，发现当 \(\eta\) 偏离 0 较远时置信区间很宽，说明在极端倾斜下估计不精确。

这个例子想说明什么： 1. 验证方法可行：在实际数据中成功应用了敏感性分析。 2. 展示结果对假设违反的敏感程度：在合理的 \(\eta\) 范围（\([-1,1]\)），target risk 可以从 0.05 到 0.45，幅度很大——说明“结论高度依赖条件可移植性假设”。 3. 对比 AIPW 和条件损失估计器：AIPW 版本的曲线更“敏锐”，但代价是更大的置信区间。

注意：论文没有提供仿真实验（simulation）验证估计量的有限样本性质，只做了真实数据应用。这是一个值得注意的缺口——在理论结果依赖于渐近性质时，缺少仿真验证是一个弱点。

🔎 结论是否比证明窄¶

是。几个具体点： 1. 结论陈述声称“本文方法可以用于任何损失函数 \(R(Y, f(X))\)”，但证明中的所有推导（特别是 influence function 和 double robustness）依赖于 \(R(Y, f(X))\) 对 \(Y\) 是连续且两次可微的假设。对于 0-1 损失（分类）或 quantile 损失，influence function 估计的率稳健性可能需要不同的处理，论文没有讨论。 2. 双重鲁棒性质被声称（摘要和文中多处“doubly robust”），但正式证明（Corollary 2 附近）实际上给出的是率稳健性（rate robustness）——即在一定速度下 nuisance 函数一致估计即可，而不要求“至少一个模型正确指定”。这是比经典双鲁棒（至少一个模型正确则估计一致）更弱的要求。这个区别论文没有明确强调。 3. 指数倾斜模型假设指数倾斜系数 \(\eta\) 不随 \(X\) 变化，但结论的声称（“在任何合理的 \(\eta\) 值下”）暗示 \(\eta\) 是全局常数。如果 \(\eta\) 随 \(X\) 变化，该识别公式失效。论文在“讨论”部分简单提及了这一点，但没有给出替代方法。 4. 该论文只处理了 risk（期望损失），没有扩展到 AUC 等更复杂的性能指标。作者在讨论（“future research”）中提到了这一点，并引用了 Li et al. (2022) 作为 AUC 的无敏感性分析版本。

四、开放问题¶

扩展到 AUC 等复杂性能指标：本文的敏感性分析框架能否扩展到 AUC、C-statistic 等非“平均损失”形式的性能指标？AUC 是 U-统计量结构，其 influence function 更复杂，且指数倾斜的似然比权重在 AUC 的双样本 U-统计量结构下是否还能保持双重鲁棒？[扎根：结论 Section 7 "Future research could address issues such as ... the area under the receiver operating characteristic curve [40]"——注意作者引用的是 Li et al. (2022) 的无敏感性分析版本，提示这是个有意识的缺口]
非参数指数倾斜模型：本文假设倾斜系数 \(\eta\) 是全局常数（即 \(p(Y|X,S=1)/p(Y|X,S=0) \propto \exp(\eta Y)\)，系数与 \(X\) 无关）。放松这个假设至 \(\eta(X)\)（即倾斜方向和幅度随协变量变化）的识别与估计是什么？此时目标人群 risk 是否仍可识别？[扎根：讨论 Section "Our sensitivity analysis model assumes that the odds ratio... does not depend on covariates X. The approach can be relaxed to allow the tilting parameter to be a function of X, but then identification would require additional structure or data."]
缺失数据与测量误差：本文假设协变量在两个人群中完全观测且无测量误差。在实际应用中（特别是 NHANES 这种复杂抽样），协变量缺失是常态（作者也承认因缺失数据限制在 368+955 个完整数据）。将本文框架扩展到缺失 + 非随机缺失模式是自然的下一步。[扎根：Section 7 "Future research could address issues such as missing data (other than the outcome data in the target population)"]
与现有的“E-value”敏感性分析框架的对比：本文的指数倾斜模型和 Dahabreh et al. (2022) 的 bias function 框架，与 VanderWeele 和 Ding (2017) 提出的 E-value 框架在 transportability 场景下的对比——E-value 衡量使估计值归于零的最小未观测混杂强度，而本文的参数化更具体（给出整个曲线而非一个阈值）。将两者进行比较或统一，可能是值得做的理论工作。[扎根：论文没有引用 E-value 文献]
高维协变量下的可行性：本文的 AIPW 估计量需要估计 \(\hat{m}(X)\) 和 \(\hat{w}(X)\)，当 \(X\) 维数很高时（如 > \(n\)），条件模型的估计会变得非常不稳定。此时是否可以用高维工具（如 lasso、随机森林）来估计 nuisance 函数，并保持率稳健性？这在 Smucler et al. (2019) 的框架下有部分答案，但需要具体适配 transportability 场景。[注意：这个 gap 由 researcher 的高维统计背景自然提出，论文没有讨论]

Maintained by 陈星宇 · Homepage · Source on GitHub