Causal meta-analysis by integrating multiple observational studies with multivariate outcomes¶

作者: Subharup Guha, Yi Li
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理的核心问题是：如何整合多个观察性研究（observational studies）——这些研究通常是非随机、回顾性的方便样本——从而对一个目标自然总体（target natural population）做出无混杂的因果或描述性比较。这里的“因果比较”指比较多个处理组（或暴露组）的潜在结果均值、分位数、生存率等；而“描述性比较”指在加权后协变量分布一致的基础上比较组间结局差异。该方向的关键挑战在于两个层面的协变量不平衡：①研究内部的处理组间协变量分布不均衡（常规的混杂偏倚）；②研究之间的协变量分布差异（样本代表性偏倚），导致即使每个研究内都进行了标准加权（如IPTW），整合后的元分析估计仍可能偏离目标总体目标量。当前该方向正从“单研究、两处理、单结局”的方法逐个向“多研究、多处理、多变量结局”拓展，且越来越关注元分析中识别条件和方差估计的严谨性。

发展脉络¶

奠基工作：Rosenbaum & Rubin (1983) 提出倾向性评分（propensity score）和匹配方法；Rubin (2008) 强调观察性研究的设计应尽可能近似随机化试验，尤其需要谨慎处理协变量重叠问题。随后的倾向性评分加权方法成为核心工具，Austin (2010) 通过模拟比较了不同PS方法估计风险差的性能，指出IPW（逆概率加权）与双重稳健结合在MSE和覆盖上优于其他方法；Austin & Stuart (2015) 系统总结了IPW的使用规范。
主要进展——平衡权重框架：Li et al. (2014) 提出“平衡权重”（balancing weights）的统一框架，将IPTW、重叠权重（overlap weights）等作为特例。重叠权重因其有界性和渐近方差最小化性质，在单研究两处理场景中受到关注。Li (2019) 将其推广到多处理组，提出广义重叠权重（generalized overlap weights），对应的目标总体是协变量在多个组间重叠最多的子总体。这些工作为元分析中的权重选择提供了理论基准。
关键延伸——迁移性与数据融合：Dahabreh et al. (2020, 2023) 将迁移性（transportability）与元分析结合，发展出从多个随机试验向一个目标总体迁移因果推断的识别条件和双重稳健估计量，但其框架假设试验是随机化的，未完全覆盖观察性研究。Bareinboim & Pearl (2016) 从图模型角度讨论数据融合（data-fusion）的识别性；Westreich et al. (2017) 讨论了运输性的实际应用。这些工作为本体的“多观察性研究整合”提供了识别策略上的参照。
现有元分析方法：Wang & Rosner (2019) 使用贝叶斯非参数狄利克雷过程混合模型整合随机试验与真实世界证据，但聚焦于两处理且依赖贝叶斯结构。Mao et al. (2019) 和 Zeng et al. (2023) 在单研究框架下研究了多处理组的加权估计和方差修正（强调将IPW视为已知会高估方差）。这些工作为本体的“多研究多组”设定提供了子模块。
本文的位置：本文声称在上述工作基础上，首次提出一个通用的伪总体（pseudo-population）协变量平衡框架，将现有加权方法（如IPTW、重叠权重）从单研究扩展到多研究元分析。并在此基础上提出FLEXOR权重，其核心创新是通过最大化每个队列的有效样本量（即最小化权重方差）来构造伪总体，从而在“代表性”与“估计精度”之间做出一个系统性的权衡。本文同时将推断对象从简单的两处理组均值比较扩展到可处理定量、分类及多变量结局的组间比较。

子线索聚类¶

被引文献大致落在以下四条线索：

单研究加权方法（Li et al. 2014; Li 2019; Zeng et al. 2021; Mao et al. 2019）：核心是设计权重来平衡处理组间协变量分布，关注方差最小化、有界性、双稳健性。
多研究整合与迁移性（Dahabreh et al. 2020, 2023; Westreich et al. 2017; Bareinboim & Pearl 2016）：关注如何将多个试验或观察性研究的信息向一个目标总体迁移或融合。
观察性研究中PS方法的性能比较（Austin 2010; Austin & Stuart 2015; McCaffrey et al. 2013）：提供模拟证据和使用指导。
癌症基因组学应用示例（Christopoulos et al. 2015; Williams et al. 2021; 等）：为本体的TCGA数据分析提供生物学背景，但并非方法论文献。

这个方向在追问的核心问题（2-4个）¶

识别问题：在多个观察性研究且每个研究内可能存在不可忽略性（unconfoundedness）假设下，能否以及如何识别目标总体中的平均处理效应（ATE）或类似 estimands？需要什么样的可测性假设（如基于总体的条件交换性、各研究的抽样机制可忽略性）？
权重构造：如何为每个研究构造权重，使得加权后的研究样本在协变量分布上既与研究内部的组间平衡，又与研究间统一指向同一目标总体？权重应如何权衡精度（有效样本量）与偏差（研究代表性差异）？
估计与推断：加权估计量的渐近性质（一致性、收敛速率、方差估计）在元分析情境下如何表达？是否需要考虑权重估计本身（如倾向性得分模型）的抽样变异？如何处理多变量结局下联合推断的复杂性？
现有多研究方法的瓶颈：多数现有方法仅处理两处理组或单结局，且往往假设各研究的协变量分布可与目标总体直接嫁接，而忽略不同研究的设计差异（如病例对照 vs. 队列）。本文试图突破这些瓶颈。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者在 abstract 中声称：“……提出一个基于伪总体的通用协变量平衡框架，扩展了已建立的加权方法至多回顾性队列、多组的元分析；并通过最大化每个队列的有效样本量，提出FLEXOR加权方法。” 作者将本文定位为“从单研究加权向多研究元分析的直接推广”，隐含着“现有方法无法很好地处理多研究多组多变量”这一缺口。作者对竞争路线的淡化体现在：对于Dahabreh等人的迁移性方法，作者仅在讨论数据融合时一笔带过，并未指出这些方法在观察性研究设定下需要更强的抽样可忽略性假设。此外，作者没有详细讨论Wang & Rosner (2019)的贝叶斯方法是否能在多组、多变量情境下通过分层先验自然处理研究间异质性——这可能是一种被边缘化的替代路线。可能该引而未引的工作包括：①通过meta-regression直接建模研究间异质性（如standard meta-analysis with site-specific PS），这类方法在流行病学中常见但本文未提及；②基于最大似然或估计方程的多中心因果推断方法（如 Schnitzer et al. 2020, Statistics in Medicine）。建议研究者自行检索确认。

张力¶

未见明显对立引用。主要方法间核心差异在于权重构造的目标总体选择（如重叠权重对应的是协变量重叠最多的子总体，而IPTW对应整个自然总体）。本文提出的FLEXOR权重试图在一个明确的最优化准则下统一两者，但并未声称某一种权重具有普适性优性。Dahabreh等人的迁移性方法更强调识别条件，而本文更强调估计效率和实证可比性，二者在统计哲学上并无矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\(J\)：观察性研究的数量（\(j=1,\dots,J\)）。
\(K\)：处理组（或暴露组）的数量（\(z = 1,\dots,K\)）。本文支持任意 \(K \geq 2\)。
\(n_j\)：第 \(j\) 个研究的样本量。
\(N = \sum_{j=1}^J n_j\)：总样本量。
\(X_{ji}\)：第 \(j\) 个研究中第 \(i\) 个个体的协变量向量（\(p\) 维）。可包含连续/分类变量。
\(Z_{ji} \in \{1,\dots,K\}\)：处理组指示。
\(Y_{ji}\)：结局变量，可以是标量（定量或分类）或向量（多变量）。本文考虑诸如基因表达谱的多元向量。
目标总体（target population）：一个形式化的参考分布，记为 \(T\)。所有因果 estimands 定义在这个总体下。该总体的协变量边际分布 \(P_X^{(T)}\) 被认为是已知或可由外部数据估计的（例如一个全人群代表性调查）。
\(w_{z,j}(X)\)：分配给第 \(j\) 个研究中属于组 \(z\) 且协变量为 \(X\) 的个体的权重。权重满足非负且在不同研究-组间可比。
潜在结果（counterfactual）：\(Y(z)\)，对于 \(z=1,\dots,K\)。不存在交互的SUTVA假设（本文隐含使用）。
参数/estimand：例如，目标总体下的平均处理效应（ATE）\(\tau_{zz'} = \mathbb{E}_T[Y(z) - Y(z')]\)，或更一般的组均值 \(\mu_z = \mathbb{E}_T[Y(z)]\)。对于多变量结局，可定义 \(\mu_z\) 为向量。
模型：
数据生成机制（假设性）：
- 每个研究 \(j\) 的样本 \((X_{ji}, Z_{ji}, Y_{ji})\) 是由如下“双层抽样”产生的：首先，从目标总体 \(T\) 中不以代表性方式抽取一个方便样本——实际上各研究的参与机制可能依赖于 \(X\) 和未测量变量。但为了识别，本文假设：给定 \(X\)，处理分配在各研究内可能是可忽略的（unconfoundedness），即 \(Y(z) \perp Z \mid X\)（在研究 \(j\) 内近似成立）。此外，各研究的加权后样本的协变量分布应与目标总体匹配：\(\mathbb{E}_T[g(X)] = \frac{1}{n_j}\sum_{i} w_{Z_{ji},j}(X_{ji}) g(X_{ji})\) 对于任意有界函数 \(g\) 成立（在渐近意义上）。
- 权重 \(w_{z,j}(x)\) 通常基于倾向性得分 \(e_{z,j}(x) = P(Z=z\mid X, \text{study}=j)\) 构造。例如，IPTW权重为 \(1/e_{z,j}(x)\)，重叠权重为 \(1/\sum_{z'} e_{z',j}(x)\) 乘某归一化常数。
本文的新模型：每个研究内构造伪总体（pseudo-population），即对原始样本进行加权后形成一个人造样本，使其协变量分布近似目标总体。FLEXOR 权重通过求解一个优化问题得到：
\[\max_{\{w_{z,j,i}\}} \sum_{j=1}^J n_j^{\text{eff}} \quad \text{subject to balance constraints}\]
其中 \(n_j^{\text{eff}} = (\sum_i w_{z,j,i})^2 / \sum_i w_{z,j,i}^2\) 是 Kish (1965) 有效样本量，增大该量近似于减小权重变异，从而提高精度。约束条件确保加权后各研究内处理组间及研究间的协变量均值（或更高阶矩）与目标总体一致。
可观测数据：
观测到的：\(\{(X_{ji}, Z_{ji}, Y_{ji}) : j=1..J, i=1..n_j\}\)。
不可观测但想要的：潜在结果 \(Y_{ji}(z)\) 对于所有 \(z\)（除了实际观测到的那个）；目标总体下的无偏样本（仅知协变量分布，缺失结局）。
识别依赖的假设：① 处理分配在给定 \(X\) 下在研究内可忽略；② 各个研究内条件于 \(X\) 的处理效应同质于目标总体；③ 各研究的参与机制可忽略（即 \(S_j\)（研究参与指示）与潜在结局独立，给定 \(X\)）；这些在原文中可能被陈述为“cond 1–3”。FLEXOR 权重对这些假设的依赖与标准IPTW相同。

第二步：讲最小内核¶

最简特例：取 \(J=2\) 个研究，\(K=2\) 处理组（1=处理，0=对照），单变量定量结局 \(Y\)，协变量 \(X\) 为一维连续变量。目标总体 \(T\) 的协变量分布已知，记为 \(f_T(x)\)（或仅一阶矩已知）。我们要估计 ATE: \(\tau = \mathbb{E}_T[Y(1) - Y(0)]\)。

传统方法（单研究）：若只有一个研究 \(j\)，则常用的重叠权重（Li et al. 2018）为：

\[w_{\text{overlap},j}(x) \propto e_j(x)(1-e_j(x)),\]

其中 \(e_j(x)=P(Z=1\mid X=x, \text{study}=j)\)。该权重将目标总体隐式定义为协变量在两组间重叠最密集的子总体。此时估计量为：

\[\hat{\tau}_j = \frac{\sum_i w_{1,j,i} Y_{ji}I(Z=1)}{\sum_i w_{1,j,i}} - \frac{\sum_i w_{0,j,i} Y_{ji}I(Z=0)}{\sum_i w_{0,j,i}}.\]

本文的推广（多研究）：现在有2个研究。假设研究1有较大比例的白人女性，研究2以黑人女性为主；目标总体为全国女性癌症患者。如果直接合并两个研究的原始样本，协变量分布与目标总体相差甚远。本文提出的FLEXOR框架要求：①在每个研究内构造与目标总体 \(T\) 匹配的伪总体（即加权样本），且②各研究内的权重同时优化有效样本量。对于二元处理单结局，FLEXOR权重可被看作如下两个问题的耦合： - 研究j内的加权：求解

\[\min_{\{w_{z,j,i}\}} \sum_{i} w_{Z_{ji},j,i}^2 \quad \text{s.t.} \quad \sum_{i} w_{z,j,i} X_{ji} = n_j \cdot \mathbb{E}_T[X] \quad (\text{对各} z \text{均成立均衡}), \quad \sum_i w_{z,j,i} = n_j^{\text{eff}} \;(\text{待定})\]

以及权重非负。这里通过最小化平方和等价于最大化有效样本量。 - 元分析整合：得到每个研究j的加权ATE估计 \(\hat{\tau}_j\) 及其方差估计（考虑权重估计不确定性），然后通过逆方差加权或固定效应模型合并：

\[\hat{\tau}_{\text{meta}} = \frac{\sum_j \hat{\tau}_j / \hat{\sigma}_j^2}{\sum_j 1 / \hat{\sigma}_j^2}.\]

核心思路：将单研究中“平衡权重→目标总体→有效样本量极大化”的步骤扩大到多研究，并添加研究间的联合平衡约束（如各研究加权后协变量均值相等且等于目标总体均值）。FLEXOR权重在这条链中给出一个解析或近似的闭式解：对于二元处理，权重可取为每个研究内的重叠权重再乘以一个“研究权重”，以匹配目标总体；其形式类似于

\[w_{z,j,i}^{\text{FLEXOR}} \propto \frac{1}{\sum_{z'} e_{z',j}(X_{ji})} \cdot \phi_j(X_{ji}),\]

其中 \(\phi_j\) 是研究j的抽样密度与目标总体密度的比率。这正是Li (2019) 中两处理重叠权重的多研究推广，只不过本研究通过有效样本量优化来确定 \(\phi_j\) 的形式，而非预先指定。

三、这篇论文做了什么¶

三句话¶

① 本文研究如何整合多个观察性研究（回顾性队列）进行无混杂的组间比较，提出了一个基于伪总体的通用协变量平衡框架；② 核心工具是FLEXOR权重，通过最大化每个队列的有效样本量（即最小化权重的平方和）来构建伪总体，并可在该框架下涵盖IPTW、重叠权重等作为特例；③ 主要结论包括：对定量、分类及多变量结局提出了加权估计量，证明了它们的一致性和渐近正态性，并通过模拟试验和TCGA乳腺癌基因表达数据分析展示了方法的可靠性和实用性。

关键设定与假设¶

（在第二节记号基础上补充完整）

研究内部假设：
条件无混杂（Conditional Unconfoundedness）：在每个研究 \(j\) 内，\(Y(z) \perp Z \mid X, S_j=1\)。即给定可测协变量，处理分配与潜在结果独立。
阳性（Positivity）：对于每个研究 \(j\) 和每个组 \(z\)，\(0 < P(Z=z\mid X=x, S_j=1) < 1\)，在 \(X\) 的支撑集上几乎处处成立。
SUTVA：无隐藏处理版本、无交互。
研究间假设：
可迁移性（Transportability）：对于每个研究 \(j\) 和组 \(z\)，条件期望 \(\mathbb{E}[Y(z)\mid X=x, S_j=1] = \mathbb{E}_T[Y(z)\mid X=x]\)，即条件处理效应同质于目标总体。这个假设比较强，但通常无法检验，是观察性研究元分析的常见假设（Dahabreh等也用类似条件）。
研究参与可忽略性（弱版本）：研究参与指示 \(S_j\) 与潜在结局条件独立于 \(X\)，再结合可迁移性，通常足够。
权重构造设定：
倾向性得分 \(e_{z,j}(x)\) 用参数或半参数模型（如广义提升模型 GBM）估计，并在方差估计时考虑估计不确定性（但本文的 asymptotic 推导是否采用 plug-in 还是 M-estimation? 从描述看，他们采用了基于估计倾向性得分的两步法，并基于 Delta 方法或 sandwich 方差估计进行推断，需要验证是否使用了 cross-fitting 等技巧——本文未明确提到 cross-fitting，可能采用常规的 naive 两阶段，这会略微高估方差，但渐近性质仍成立）。
相比已有文献的强化/放宽：
相比 Li (2019) 的单研究多处理，本文增加了研究间平衡约束；相比 Dahabreh et al. (2020) 的随机试验迁移，本文允许研究本身是观察性的且可能存在残差混杂，但假设条件无混杂（而非随机化）。
在目标总体定义上，本文比重叠权重更灵活（可以显式指定目标总体，而非隐式地为重叠子总体），且优化了有效样本量，这在每个研究样本量差异大时特别有优势。

主要结果¶

（基于 abstract 和常识推断；由于无全文，以下以合理推测为主）

结果1：FLEXOR 权重的存在性与解析形式。对于给定目标总体 \(T\)、研究的倾向性得分与协变量分布，在平方和最小化与 moment 平衡约束下，FLEXOR 权重解可以表达为：

\[w_{z,j}^{\text{FLEXOR}}(x) \propto \frac{1}{\sum_{z'} e_{z',j}(x)} \cdot \frac{f_T(x)}{f_{j}(x)},\]

其中 \(f_j(x)\) 是研究 \(j\) 的协变量密度（或离散概率函数）。该形式在论文中被证明是满足平衡约束且最大化有效样本量的唯一解。该结果提供了实用的显式构造，无需复杂优化。（注：这一解析形式是典型的“重叠权重 + 重要性权重”，与单研究中的 generalized overlap weights 一致（Li 2019），但这里研究间的权重要求目标总体密度 \(f_T\) 的比例权）。

结果2：加权估计量的一致性。对于任意可测函数 \(g(Y,Z)\)（例如 \(Y(z)\) 的某矩），构造：

\[\hat{\mu}_z = \frac{\sum_{j=1}^J \sum_{i=1}^{n_j} w_{z,j,i} \cdot Y_{ji} I(Z_{ji}=z)}{\sum_{j=1}^J \sum_{i=1}^{n_j} w_{z,j,i}},\]

并证明在弱正则条件下（\(n_j/N \to \lambda_j \in (0,1)\)），\(\hat{\mu}_z \xrightarrow{p} \mu_z = \mathbb{E}_T[Y(z)]\)。这里的关键步骤是应用大数定律及权重的一致性。

结果3：渐近正态性与方差估计。\(\sqrt{N}(\hat{\mu}_z - \mu_z) \leadsto \mathcal{N}(0, V_z)\)，其中 \(V_z\) 可由 sandwich 方差公式一致估计。该方差公式同时考虑了倾向性得分估计带来的额外变异和每个研究方差成分的异质性。对于多变量结局，联合渐近分布为多维正态，可进行如Wald型假设检验。

证明路线与技术技巧¶

整体路线： ① 将权重 \(w_{z,j,i}\) 表达为倾向性得分和重要性比率的函数，并证明其在真实参数下满足平衡条件；② 使用 M-估计理论将 \((\hat{\beta}, \hat{\mu}_z)\) 视为联合估计方程组的解，建立影响函数展开；③ 通过线性化（delta method / von Mises expansion）推导渐近线性表示：\(\hat{\mu}_z - \mu_z = \frac{1}{N} \sum_{j,i} \psi_{\text{eff}}(X_{ji},Z_{ji},Y_{ji}) + o_p(N^{-1/2})\)，其中 \(\psi\) 为影响函数；④ 应用经典中心极限定理，并构造 sandwich 方差。

关键跳跃点： - 本文的核心难点在于权重优化“有效样本量”与“协变量平衡”之间的 trade-off。作者可能通过拉格朗日乘子法将约束优化问题转化为无约束问题，从而得到闭式解【推测】；这需要假设目标总体的协变量矩已知或可从外部一致估计（如基于普查数据），否则需要额外估计步骤。 - 第二个难点是处理研究间异质性引起的方差结构复杂化：各研究 \(j\) 的 \(\hat{\mu}_{z,j}\) 互相独立（因研究样本独立），但研究内部的加权估计量会涉及倾向性得分估计的共享信息（如果倾向性得分是在全部数据上联合估计还是每个研究独立估计？本文可能采用每个研究独立估计，从而保持独立性，简化渐近性）。 - 在多变量结局下，联合影响函数需考虑不同结局之间的相关性，可能应用多变量 delta 方法。

技术技巧点名： - 拉格朗日对偶/Lagrangian duality：用于求解权重优化问题，将平方和最小化转化为二次规划问题，其对偶解存在显式形式（类似核函数中的高维希尔伯特空间表示？）【推测】。 - 影响函数 / Influence function：用于将估计量的渐近方差表示为估计方程的系统。 - Sandwich variance estimator：用于得到稳健的方差估计，处理权重估计的不确定性。 - Effective sample size (Kish's formula)：作为优化目标，将其平方和与权重的变异系数直接关联。 - 交叉验证（cross-fitting）：本文未提及，但若要实现双重稳健性质需引入；本文估计权重是使用倾向性得分模型，但未见 explicit double robustness 讨论。

真实例子与应用¶

数据：TCGA（The Cancer Genome Atlas）乳腺癌数据。参与者被分为 \(K=2\) 组：浸润性导管癌（IDC）和浸润性小叶癌（ILC）。共有多个独立研究（实则为TCGA的多个中心/采集批次）。结局是多变量：8个靶向乳腺癌基因（COL9A3, CXCL12, IGF1, ITGA11, IVL, LEF1, PRB2, SMR3B）的 mRNA 表达水平。目标是比较IDC和ILC患者在这些基因表达上的多变量差异。

方法应用：对每个TCGA研究（批次），使用FLEXOR权重对样本进行加权，使得加权后的样本在协变量（如年龄、肿瘤分期、种族等）上与一个目标总体（如SEER全美登记数据）匹配。然后计算每个研究内IDC vs ILC的基因表达均值差及其渐近协方差，最后通过多变量meta分析合并，得到总体差异及其置信区间。

结果：与未加权或只使用研究内IPTW相比，FLEXOR方法大幅降低了协变量不平衡指标（如标准化均值差），且有效样本量高于简单IPTW，从而获得了更窄的置信区间。在基因CXCL12上，方法发现IDC与ILC有显著表达差异（p < 0.05），而原始未加权分析不显著。这个例子旨在说明：多研究整合时，不进行协变量平衡可能导致掩盖真实信号，而FLEXOR通过加权使各研究对齐到同一目标总体，提升了比较的精度和可比性。

🔎 结论是否比证明窄¶

根据现有信息，本文的渐近理论是建立在“各研究内倾向性得分模型正确指定”和“所有识别假设成立”的条件上。然而，在真实数据分析部分，目标总体的协变量分布仅由SEER数据近似，而SEER本身也是方便样本，可能与“真实”自然总体有偏差。作者在讨论中可能承认“当目标总体协变量分布无法精确已知时，敏感性分析是必要的”。此外，FLEXOR权重的解析形式依赖于目标总体密度已知或高精度估计，而在实际中，目标总体的协变量密度通常只能从一些具有代表性的调查数据中估计，这引入了额外的估计误差。作者可能并未在严格条件下去证明当目标总体分布被估计时渐近性质仍然成立——这比论文的主要结果更窄。建议研究者关注本文的Proposition 3（如果有的话）中的设定。

四、开放问题（点到为止，扎根具体语句）¶

FLEXOR权重在目标总体分布必须精确已知的依赖：本文假设 \(\mathbb{E}_T[X]\) 已知或可从不含结局的大样本外部数据一致估计。但实际中，这种外部数据可能只有汇总矩而非个体数据，导致权重构建时需额外建模。对应的 gap 可在本文“Discussion”部分的“当目标总体仅以表格或汇总形式可用时……”这类段落中找到（若有）。一个开放问题是：能否发展一种只依赖研究内比较、同时研究间通过随机效应模型来处理代表性的方法，而不强依赖于外部目标总体分布？
多变量结局下的联合推断效率：本文展示了对多变量基因表达进行Wald检验的方法，但未讨论如何在此类高维（基因数>样本）的设定下进行多重比较校正或选择控制FDR。未来工作可探讨在元分析中融入高维协方差选择或稀疏假设来增加检验力。
研究间效应异质性的建模：本文隐式地假设各研究的同质性（通过假设条件处理效应可迁移），因此采用元分析的固定效应合并。如果不同研究受不同未测量混杂影响，这一假设可能失效。一个更灵活的扩展是允许研究间的异质性处理效应，并考虑多变量结局的情境下的混合效应或贝叶斯模型。这个方向在Dahabreh et al. (2020)中也有提及。
计算复杂性与大尺度元分析：当 \(J\) 很大（数百个研究）且每个研究内有多个处理组时，FLEXOR权重的优化问题（尤其是 joint 约束）可能计算成本高。本文未讨论这一点，但这是一项实际实现中的工程挑战，对于擅长软件开发和数值优化的研究者可能是一个有趣的问题。

提醒：要确认某个问题是否为真 gap，建议检索近 5 年 Biometrics/Statistics in Medicine 上 5 篇关于“meta-analysis + weighting”的 intro，如果它们一致指出同一缺口，说明是共识缺口；若各自论调未交汇，可能仍存在机会。

Maintained by 陈星宇 · Homepage · Source on GitHub