Causal meta-analysis by integrating multiple observational studies with multivariate outcomes¶

作者: Subharup Guha, Yi Li
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：如何整合多个观察性研究（observational studies）的数据，对一个大自然总体（natural population）中的多个组（multiple groups）进行无混杂的因果或描述性比较？其根本困难在于：每个观察性研究都是一个便利样本（convenience sample），其协变量分布既不能代表目标总体，又可能在组间不平衡。因此，需要一种加权方法，将每个研究的样本“运输”到一个共同的伪总体（pseudo-population）上，使得在该伪总体中，组间的协变量分布达到平衡，从而可以无偏地估计组间潜在结果均值之差（或其它群体级特征）。该方向当前处于方法快速发展但尚未完全成熟的阶段：已有大量针对单研究、两组或多元处理的加权方法，但将加权框架系统性地扩展到多个研究、多个组、多元结局的元分析场景，仍是一个开放且活跃的领域。

发展脉络¶

奠基工作：单研究、两组、倾向得分加权。
- Rosenbaum & Rubin (1983)：提出倾向得分（propensity score）的概念，奠定了通过加权、匹配、分层来消除选择偏差的基础。这是整个领域的基石。
- Hirano, Imbens & Ridder (2003)：证明了将估计的倾向得分作为已知值来处理会高估方差的经典结论，为后续方差估计理论提供了起点。
- Austin (2010, 2015)：通过大量模拟和综述，系统比较了倾向得分匹配、逆概率加权（IPTW）等方法的性能，确立了IPTW在实践中的优势地位，并强调了协变量平衡检查的重要性。
主要进展：从两组到多组，从IPTW到平衡权重。
- Li, Morgan & Zaslavsky (2018)：提出了“平衡权重”（balancing weights）的统一框架，将IPTW、重叠权重（overlap weights）等经典方法纳入其中。该框架的核心思想是：通过选择不同的权重函数，将每个组加权到一个共同的、由研究者指定的目标总体。这是本文最核心的理论基础。
- Li & Li (2019)：将平衡权重框架扩展到多个处理组（K > 2）的场景，并提出了“广义重叠权重”（generalized overlap weights）。该权重通过最大化各组协变量分布的重叠区域来定义目标总体，从而避免了极端权重问题，并最小化了渐近方差。这是本文处理多组问题的直接前驱。
- McCaffrey et al. (2013)：提供了使用广义提升模型（GBM）估计多组倾向得分的实用教程，为多组加权方法的实际应用铺平了道路。
当前Frontier：从单研究到多研究元分析，从随机试验到观察性研究。
- Dahabreh et al. (2019, 2020)：开创性地将“可运输性”（transportability）和“数据融合”（data-fusion）的因果推断框架应用于多个随机试验的元分析。他们提出了将多个试验的因果推断“运输”到一个新目标总体的方法，并证明了其估计量的双重稳健性。这是本文在“多研究”设定上的直接对标工作，但本文处理的是观察性研究，而非随机试验。
- Wang & Rosner (2019)：提出了一个贝叶斯非参数方法，用于整合随机试验和真实世界证据（RWD），以推断因果效应。这代表了另一种处理多源数据异质性的思路。
- Mao, Li & Greene (2019) 和 Zeng, Li & Hu (2023)：分别研究了在缺乏重叠（lack of overlap）时如何通过修改权重来获得稳定估计，以及如何将伪观测（pseudo-observations）与倾向得分加权结合来处理生存结局。这些工作为处理实际数据中的困难提供了具体工具。
本文的位置：本文（Guha & Li, 2024）位于上述脉络的交汇点。它将Li & Li (2019)的平衡权重框架从单研究、多组，系统性地扩展到了多研究、多组的元分析场景。同时，它将Dahabreh等人 (2019, 2020) 的“多研究”设定从随机试验推广到了观察性研究，并提出了一个全新的、以最大化有效样本量为目标的FLEXOR权重，以解决观察性研究中便利样本的代表性问题。

子线索聚类¶

平衡权重框架（Balancing Weights Framework）：以Li等人 (2018, 2019) 的工作为核心，统一了IPTW、重叠权重等。本文的FLEXOR权重是该框架的一个新成员。
多研究数据融合与可运输性（Multi-Study Data Fusion & Transportability）：以Dahabreh等人 (2019, 2020) 和Wang & Rosner (2019) 为代表，关注如何整合来自不同来源（随机试验、观察性研究）的数据，并将因果效应推广到目标总体。本文是该线索在观察性研究元分析上的一个具体实现。
处理实际数据挑战（Handling Real-World Data Challenges）：包括处理极端权重（Mao et al., 2019）、生存结局（Zeng et al., 2023）、以及多组倾向得分估计（McCaffrey et al., 2013）。本文的FLEXOR权重通过最大化有效样本量，直接回应了极端权重和样本代表性问题。

这个方向在追问的核心问题¶

如何定义“目标总体”？ 在单研究中，目标总体可以是整个样本、处理组、对照组或重叠区域。在多研究元分析中，目标总体是每个研究的“自然总体”的某种组合，还是一个新的、由研究者定义的总体？本文的FLEXOR方法通过最大化有效样本量来隐式地定义了一个“最现实”的伪总体。
如何处理研究间的异质性？ 不同观察性研究的设计、人群、测量方式不同，导致协变量分布和倾向得分模型存在差异。如何将这些异质性纳入加权框架，并保证估计量的有效性？本文通过为每个研究独立构造伪总体，然后合并这些伪总体来进行元分析，从而绕开了直接建模研究间异质性的困难。
如何保证权重估计的稳定性和效率？ 在多个组和多个研究的设定下，极端权重问题会更加严重。如何设计一种权重，既能平衡协变量，又能避免极端值，从而获得稳定且高效的估计？本文的FLEXOR权重直接以最大化有效样本量为目标，从原理上抑制了极端权重。
如何扩展到多元结局？ 大多数现有方法关注单一结局。当结局是多元的（如多个基因表达水平），如何构造一个统一的加权估计量，并推导其联合渐近分布？本文明确处理了定量、分类和多元结局。

⚠️ 作者的Framing¶

作者的缺口（Gap）：作者将缺口frame为“现有加权方法主要针对单研究、两组或多元处理，缺乏一个统一的框架来处理多个观察性研究的元分析，特别是当这些研究是便利样本且包含多个组和多元结局时”。他们声称，现有的多研究元分析方法（如Dahabreh等人）主要针对随机试验，而观察性研究面临更严重的代表性和不平衡问题。
作者的“显然的下一步”：作者将自己的FLEXOR方法定位为“平衡权重框架”在“多研究元分析”场景下的自然且必要的扩展。通过最大化有效样本量，FLEXOR直接解决了观察性研究中便利样本的代表性问题，从而使得“将多个观察性研究整合起来进行因果推断”成为可能。
被淡化或回避的竞争路线：
- 贝叶斯方法：作者引用了Wang & Rosner (2019) 的贝叶斯非参数方法，但并未将其作为主要比较对象。贝叶斯方法通过先验分布来“借用”信息，而FLEXOR通过加权来“运输”样本。作者可能认为加权方法在计算和解释上更直接。
- 双重稳健估计：作者在引言中提到了“outcome modeling component”（如Mao et al., 2019; Zeng et al., 2023），但本文的估计量是纯基于权重的（weighting-only），并未采用双重稳健（doubly robust）结构。作者可能认为，在元分析设定下，为每个研究、每个组都拟合一个结局模型过于复杂，且容易模型误设。
值得研究者去查的问题：
- 缺失的引用：作者没有引用任何关于高维协变量或变量选择下的倾向得分加权方法。在TCGA这样的基因组学数据中，协变量维度可能很高。FLEXOR方法在高维场景下的表现如何？是否需要引入正则化？
- 缺失的引用：作者没有引用任何关于半参数效率理论（如efficient influence function）在元分析加权中的应用。FLEXOR估计量的效率是否可以达到半参数效率界？这是一个值得深入的理论问题。

张力¶

未见明显对立引用。所有被引工作基本都认同倾向得分加权是处理观察性研究选择偏差的有效工具，分歧主要在于如何定义目标总体、如何估计权重以及如何处理极端值。本文的FLEXOR方法可以被视为对这些分歧的一个综合解决方案。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- J：观察性研究的数量（j = 1, ..., J）。
- K：处理组/组的数量（z = 1, ..., K）。
- n_j：第 j 个研究的样本量。
- N = Σ n_j：所有研究的总样本量。
- i：个体索引（i = 1, ..., n_j）。
- Z_{ij}：个体 i 在研究中 j 的组别（处理/暴露），取值为 1, ..., K。这是可观测的。
- X_{ij}：个体 i 在研究中 j 的协变量向量（如年龄、性别、临床分期）。这是可观测的。
- Y_{ij}：个体 i 在研究中 j 的结局（可以是定量、分类或多元）。这是可观测的。
- Y_{ij}(z)：个体 i 在研究中 j 被分配到组 z 时的潜在结局（potential outcome）。这是不可观测的（除了实际观察到的那个）。
- S_j：一个指示变量，表示个体是否属于研究 j。这是可观测的（由数据来源决定）。
- μ_z：在大自然总体中，组 z 的潜在结局均值，即 E[Y(z)]。这是目标 estimand。
- π_z(x) = P(Z = z | X = x)：在大自然总体中，给定协变量 x 时，个体属于组 z 的广义倾向得分（generalized propensity score, GPS）。这是未知的，需要估计。
- f(x)：大自然总体中协变量 X 的边际密度。这是未知的，但通常我们假设它可以从一个代表性样本中推断出来。
- f_j(x)：第 j 个研究中协变量 X 的边际密度。由于是便利样本，f_j(x) ≠ f(x)。
- w_{ij}：个体 i 在研究中 j 的权重，用于将其“运输”到伪总体。
模型：
- 数据生成机制：大自然总体由分布 P 描述，其中 (X, Z, Y(1), ..., Y(K)) ~ P。每个观察性研究 j 是从 P 中通过一个未知的、依赖于协变量 X 的选择机制抽样得到的便利样本。因此，研究 j 中观测到的数据 (X_{ij}, Z_{ij}, Y_{ij}) 的联合分布是 P 经过选择偏差扭曲后的分布。
- 关键假设：
  1. 无混杂性（Unconfoundedness）：在给定协变量 X 的条件下，组别 Z 与潜在结局 Y(z) 独立，即 Z ⟂ Y(z) | X。这个假设在每个研究内部成立。
  2. 重叠性（Overlap）：对于所有 z 和所有 x，有 0 < π_z(x) < 1。这个假设在大自然总体中成立。
  3. 一致性（Consistency）：观测到的结局等于其对应的潜在结局，即 Y = Y(Z)。
  4. 可运输性（Transportability）：在给定 X 的条件下，Y(z) 的条件分布在不同研究之间是相同的，即 Y(z) | X, S_j = 1 的分布与 Y(z) | X 的分布相同。这个假设允许我们将每个研究中的条件效应“运输”到目标总体。
可观测数据：
- 研究者实际能观测到的是：对于每个研究 j，一个包含 n_j 个个体的样本，每个个体有 (X_{ij}, Z_{ij}, Y_{ij})。
- 研究者想要但观测不到的是：大自然总体中协变量 X 的分布 f(x)，以及每个个体的所有潜在结局 Y_{ij}(1), ..., Y_{ij}(K)。此外，每个研究的选择机制也是未知的。

第二步：讲最小内核¶

最简特例：假设只有 J=2 个观察性研究，每个研究只有 K=2 个组（处理组 z=1 和对照组 z=0），且结局 Y 是单变量定量的。我们想估计大自然总体中的平均处理效应（ATE）：τ = μ_1 - μ_0 = E[Y(1) - Y(0)]。

核心思路：我们无法直接计算 E[Y(1)] 和 E[Y(0)]，因为每个个体只能观测到一个潜在结局。但是，在无混杂性假设下，我们有： E[Y(z)] = E_X[ E[Y | Z=z, X] ]。这个公式告诉我们，要估计 E[Y(z)]，我们需要对 X 的分布进行积分。问题在于，我们观测到的数据来自两个便利样本，其 X 分布 f_1(x) 和 f_2(x) 都不同于目标总体的 f(x)。

FLEXOR 的最小内核：FLEXOR 的核心想法是，不直接去估计 f(x)，而是为每个研究 j 构造一个伪总体，使得该伪总体中 X 的分布尽可能接近一个理想的目标分布。这个理想的目标分布被定义为：在所有可能的加权方案中，能使该研究的有效样本量（effective sample size）最大化的那个分布。

数学上： 1. 定义有效样本量：对于研究 j，给定一组权重 {w_{ij}}，其有效样本量近似为 ESS_j = (Σ w_{ij})^2 / Σ w_{ij}^2。这个量衡量了加权后样本的“信息量”。当所有权重相等时，ESS_j = n_j；当权重差异很大时（如存在极端权重），ESS_j 会远小于 n_j。 2. FLEXOR 的目标：找到一组权重 {w_{ij}}，使得： - 协变量平衡：加权后的伪总体中，各组 z 的协变量分布与整个伪总体的协变量分布相匹配。即，对于每个组 z，加权后的 X 分布 f_j^w(x | Z=z) 应该等于整个伪总体的 X 分布 f_j^w(x)。 - 最大化有效样本量：在满足协变量平衡约束的条件下，最大化 ESS_j。 3. 结果：FLEXOR 权重 w_{ij} 有一个解析解，它正比于广义倾向得分的调和均值的倒数。具体地，对于个体 i 在组 z，其权重为： w_{ij} ∝ 1 / ( Σ_{z'=1}^K 1/π_{z'}(X_{ij}) )。其中 π_{z'}(X_{ij}) 是该个体属于组 z' 的广义倾向得分。这个权重正是 Li & Li (2019) 提出的广义重叠权重。

为什么这个最小内核能解决问题？ - 协变量平衡：广义重叠权重已经被证明能够完美地平衡各组间的协变量分布（在倾向得分模型正确的前提下）。 - 最大化有效样本量：通过最大化 ESS_j，FLEXOR 自动地倾向于给那些在多个组中都有较高倾向得分的个体（即“重叠区域”的个体）赋予更大的权重，而给那些只在一个组中出现的个体（即“非重叠区域”的个体）赋予很小的权重。这有效地修剪了非重叠区域，从而避免了极端权重问题，并保证了估计的稳定性。 - 元分析：对每个研究 j 独立地应用 FLEXOR，得到 J 个伪总体。然后，将这 J 个伪总体合并成一个大的伪总体。在这个合并的伪总体中，组间的协变量分布是平衡的，且每个研究的贡献由其有效样本量决定。最后，直接在这个合并的伪总体中计算各组结局的加权均值，其差值就是 ATE 的估计量。

一句话总结：FLEXOR 的核心就是在每个研究内部，用广义重叠权重来构造一个“最现实”的伪总体，这个伪总体自动平衡了协变量并最大化信息量，然后将这些“最现实”的伪总体合并起来进行元分析。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文研究了如何整合多个观察性研究（回顾性队列）的数据，对大自然总体中的多个组（K≥2）进行无混杂的因果或描述性比较，特别是当这些研究是便利样本且组间协变量不平衡时。
核心工具/方法：提出了一个基于伪总体的协变量平衡框架，并在此框架内开发了FLEXOR（FLEXible, Optimized, and Realistic）加权法。FLEXOR通过在每个研究中最大化有效样本量来构造伪总体，其权重等价于广义重叠权重。
主要结论：FLEXOR权重能够有效平衡协变量、避免极端权重、最大化信息利用效率。基于FLEXOR的加权估计量（用于定量、分类或多元结局）具有相合性和渐近正态性。模拟研究和TCGA数据实例表明，FLEXOR在偏差、方差和覆盖概率方面优于或等同于现有的加权方法（如IPTW、重叠权重）。

关键设定与假设¶

在第二节最小记号的基础上，本文的完整设定如下：

数据：J 个独立的观察性研究，每个研究 j 有 n_j 个个体，每个个体有协变量 X、组别 Z ∈ {1, ..., K}、结局 Y（可以是标量或向量）。
目标：估计大自然总体中的群体级特征（population-level features），如各组潜在结局均值 μ_z，或组间对比 μ_z - μ_{z'}。
假设：
1. SUTVA：个体间无交互，且处理水平无变体。
2. 无混杂性（Conditional Ignorability）：在每个研究 j 内部，Z ⟂ Y(z) | X。
3. 重叠性（Positivity/Overlap）：在大自然总体中，对于所有 z 和 x，0 < π_z(x) < 1。
4. 一致性（Consistency）：Y = Y(Z)。
5. 可运输性（Transportability）：Y(z) | X, S_j = 1 的分布与 Y(z) | X 的分布相同。这是将每个研究内部的因果效应推广到目标总体的关键假设。
6. 研究间独立性：不同研究的样本是独立抽取的。
相比已有文献的强化/放宽：
- 强化：相比Dahabreh等人 (2019, 2020) 的随机试验设定，本文处理的是观察性研究，因此需要更强的无混杂性假设。
- 放宽：相比Li & Li (2019) 的单研究设定，本文将其扩展到了多研究元分析，并引入了研究间异质性（通过为每个研究独立构造伪总体来处理）。

主要结果¶

本文的主要结果是理论性的，辅以模拟和实证验证。

定理1：FLEXOR权重的性质。证明了FLEXOR权重（即广义重叠权重）是唯一能够同时满足以下两个条件的权重：① 在加权后的伪总体中，各组间的协变量分布达到完美平衡（即 f_j^w(x | Z=z) = f_j^w(x) 对所有 z 成立）；② 在所有满足条件①的权重中，它最大化该研究的有效样本量 ESS_j。直觉：这个定理将FLEXOR定位为一种“最优”的平衡权重，它在平衡协变量和保留信息之间取得了最佳平衡。
定理2：加权估计量的渐近性质。考虑一个一般的加权估计量 θ̂，用于估计某个群体级特征 θ（如 μ_z）。该定理证明了，在正则条件下，θ̂ 是 θ 的相合估计，并且 √N (θ̂ - θ) → N(0, Σ)，其中 Σ 是一个渐近协方差矩阵。直觉：这保证了基于FLEXOR权重的估计量具有良好的大样本性质，可以进行有效的统计推断（如构造置信区间）。
定理3：方差估计。给出了渐近协方差矩阵 Σ 的一个相合估计量 Σ̂。该估计量考虑了权重估计和结局估计的不确定性。直觉：这为实际数据分析中计算标准误和置信区间提供了理论依据。

证明路线与技术技巧¶

整体路线：
1. 定义伪总体：首先，为每个研究 j 定义一个伪总体，该伪总体由原始样本中每个个体 i 及其权重 w_{ij} 构成。
2. 推导FLEXOR权重：将寻找最优权重的问题形式化为一个约束优化问题：在协变量平衡约束下最大化有效样本量。通过拉格朗日乘子法，可以推导出FLEXOR权重的解析形式，即广义重叠权重。
3. 构造加权估计量：在合并的伪总体中，构造一个加权M-估计量（weighted M-estimator）来估计目标参数 θ。例如，对于均值 μ_z，估计量为 μ̂_z = (Σ_j Σ_i w_{ij} * 1(Z_{ij}=z) * Y_{ij}) / (Σ_j Σ_i w_{ij} * 1(Z_{ij}=z))。
4. 建立渐近理论：利用M-估计理论（M-estimation theory）来证明估计量的相合性和渐近正态性。关键步骤是：
  - 将估计量 θ̂ 视为某个估计方程（estimating equation）的解。
  - 证明该估计方程是渐近无偏的。
  - 证明该估计方程满足随机等度连续性（stochastic equicontinuity）条件，从而可以应用一致大数定律（uniform law of large numbers）。
  - 应用中心极限定理（central limit theorem）得到渐近正态性。
5. 方差估计：利用Delta方法（delta method）或三明治估计量（sandwich estimator）来推导渐近方差 Σ 的相合估计量。
关键跳跃点：
- 从单研究到多研究的扩展：最大的跳跃在于如何处理研究间的异质性。作者没有尝试去建模研究间的差异，而是为每个研究独立地构造一个伪总体，然后将这些伪总体简单地合并。这个“分而治之”的策略极大地简化了问题，但依赖于一个关键假设：每个研究内部的因果机制（即 Y(z) | X 的条件分布）是相同的（可运输性假设）。
- 有效样本量最大化与协变量平衡的统一：将两个看似不同的目标（最大化信息、平衡协变量）统一到一个优化问题中，并发现其解就是已知的广义重叠权重。这是一个漂亮的洞察，为重叠权重提供了一个新的、直观的解释。
技术技巧点名：
- M-估计理论：用于建立加权估计量的渐近性质。这是处理这类问题的标准工具。
- Delta方法：用于推导方差估计量。
- 拉格朗日乘子法：用于求解约束优化问题，推导FLEXOR权重的解析形式。
- 有效样本量：一个用于衡量加权后样本信息量的启发式指标，被用作优化目标。

真实例子与应用¶

数据：使用TCGA（The Cancer Genome Atlas） 数据库中的乳腺癌数据。数据包含来自多个研究中心的患者，被分为两个组：浸润性导管癌（IDC） 和浸润性小叶癌（ILC）。协变量包括年龄、种族、临床分期等。结局是八个靶向乳腺癌基因的mRNA表达水平（COL9A3, CXCL12, IGF1, ITGA11, IVL, LEF1, PRB2, SMR3B），这是一个多元结局的例子。
方法应用：
1. 将TCGA数据视为多个观察性研究（按研究中心划分）。
2. 在每个研究中心内部，使用随机森林（Breiman, 2001）估计每个患者属于IDC或ILC的广义倾向得分。
3. 基于估计的倾向得分，计算每个患者的FLEXOR权重（即广义重叠权重）。
4. 在每个研究中心内部构造伪总体，然后合并。
5. 在合并的伪总体中，计算IDC和ILC两组在每个基因上的加权平均表达水平，并进行组间比较。
结果：
- FLEXOR方法成功平衡了IDC和ILC两组之间的协变量分布（如年龄、种族、临床分期），而原始样本中这些协变量存在显著不平衡。
- 与IPTW和重叠权重相比，FLEXOR的有效样本量最大，表明其信息利用效率最高。
- 在基因表达水平的比较中，FLEXOR识别出了一些在IDC和ILC之间表达有显著差异的基因（如CXCL12, LEF1），这些差异与已知的生物学知识一致。
这个例子想说明什么：
- 验证理论：展示了FLEXOR在实际数据中确实能够平衡协变量。
- 展示优势：通过比较有效样本量，展示了FLEXOR相对于其他加权方法的效率优势。
- 处理多元结局：演示了如何将FLEXOR应用于多元结局的元分析，这是本文的一个核心贡献。
- 实际应用价值：展示了该方法在精准医学（precision medicine）中的潜在应用，即通过整合多中心数据来发现不同癌症亚型之间的分子差异。

🔎 结论是否比证明窄¶

窄的结论：定理1（FLEXOR权重的性质）是在倾向得分模型正确指定的条件下严格证明的。在实际应用中，倾向得分是估计的，模型可能误设。作者在模拟中考虑了模型误设的情况，但理论结果并未涵盖模型误设下的性质。作者在结论部分也提到了这一点，指出“FLEXOR权重的性质依赖于倾向得分模型的正确性”。
泛化的claim：作者在摘要和引言中声称FLEXOR方法适用于“wide-ranging population-level features and estimands”。然而，定理2和3的渐近理论主要针对均值型的群体级特征（如 μ_z）。对于更复杂的特征（如分位数、协方差矩阵），其渐近性质需要单独推导，本文并未涵盖。这是一个值得注意的gap。

四、开放问题¶

FLEXOR权重的半参数效率：本文证明了FLEXOR估计量的渐近正态性，但并未证明其是否达到了半参数效率界。对于单研究、两组的情况，重叠权重已被证明在平衡权重类中最小化渐近方差（Li et al., 2018）。在多研究、多组的元分析设定下，FLEXOR估计量的效率性质如何？是否存在一个更高效的估计量（如基于efficient influence function的估计量）？扎根点：本文定理2给出了渐近方差，但未与任何下界进行比较。
高维协变量下的FLEXOR：本文的模拟和实例中协变量维度较低。当协变量维度 p 很大（甚至大于样本量 n）时，倾向得分的估计会变得不稳定，FLEXOR权重的性质会如何变化？是否需要引入正则化或变量选择？扎根点：本文的模拟和实例均未涉及高维协变量场景。
FLEXOR与双重稳健估计的结合：本文的估计量是纯基于权重的。能否将FLEXOR权重与结局模型相结合，构造一个双重稳健的估计量？例如，在合并的伪总体中，使用加权回归或AIPW（Augmented IPW）估计量。这可能会提高对模型误设的稳健性。扎根点：本文引言中提到了“outcome modeling component”作为竞争路线，但并未将其与FLEXOR结合。
违反可运输性假设的敏感性分析：可运输性假设是本文方法的核心，但在实践中很难验证。当该假设被违反时，FLEXOR估计量会有多大偏差？如何发展一套敏感性分析方法来量化这种偏差？扎根点：本文在讨论部分提到了“可运输性假设是关键的”，但未提供任何敏感性分析工具。

Maintained by 陈星宇 · Homepage · Source on GitHub