LEAP: the latent exchangeability prior for borrowing information from historical data¶

作者: Ethan M Alt, Xiuya Chang, Xun Jiang, Qing Liu, May Mo et al.
来源: Biometrics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是：在贝叶斯框架下，利用历史临床试验数据来构建信息性先验，以提高当前试验（特别是小样本或罕见病试验）的统计效能（power）和估计精度。其核心统计问题在于：如何在借用信息（增大有效样本量）与控制偏差（当历史数据与当前数据不完全同质时）之间取得平衡。这一方向在当前成熟度较高，已有多种成熟的先验构造方法（如 power prior、commensurate prior、meta-analytic predictive prior），但处理历史数据内部异质性（即历史观测中仅部分与当前数据可交换）仍是公认的瓶颈。

发展脉络（history）¶

把本文引言中引用的工作串成一条线：

奠基工作（基于贝叶斯先验的借用以信息为起点）：
Ibrahim and Chen (2000)（见本文参考文献）提出了 power prior：将历史数据的似然函数 \(L(\theta | D_0)\) 的 \(a_0\) 次幂作为当前数据的先验，即 \(\pi(\theta| D_0) \propto [L(\theta | D_0)]^{a_0} \pi_0(\theta)\)，其中 \(0 \leq a_0 \leq 1\) 控制折扣程度。这一框架开创性地将建模从"是否借用"转向"借用多少"，但所有历史观测共享同一折扣因子，无法区分可交换与不可交换部分。
Hobbs et al. (2011, 2012)（被引论文 [7]）提出 commensurate prior：通过引入异质性参数 \(\tau\)（commensurability parameter）来控制历史数据的权重，若历史与当前数据参数差异大则 \(\tau\) 小（借用少），反之则大。其核心创新在于允许参数层面的异质性，但仍将所有历史观测作为一个整体考虑，无法识别哪些观测更相关。
主要进展（处理异质性 - 先验结构层面）：
Schmidli et al. (2014)（见本文参考文献）提出 robust meta-analytic predictive prior (RMAP)：将历史数据分为"可交换"与"不可交换"两部分，以一定概率对整体进行借用或完全忽略。其核心思路是用一个混合先验（mixture prior）：\(\pi(\theta) = \pi_{\text{exchangeable}} w + \pi_{\text{vague}} (1-w)\)。这一方法承认了历史数据可能全部不可交换，但仍假设历史数据内部是同质的——即所有历史观测要么全可交换，要么全不可交换。
Hobbs et al. (2018)（见本文参考文献）提出 propensity score-stratified commensurate prior (PS-commensurate prior)：首次将倾向得分（propensity score） 引入先验构造，通过倾向得分子分类将历史与当前数据按协变量分布匹配，再在各子类内部应用 commensurate prior。这一方法超越了简单的全局折扣，但只关注了协变量分布的相似性，以外推至于结局参数的可交换性——作者在文中批评道："these approaches are only concerned with the covariate distribution, whereas exchangeability is typically assessed with parameters pertaining to the outcome."（本文摘要）。
当前 frontier（本文的位置）：
Lu et al. (2021)（被引论文 [9]，以及本文参考文献中更加详尽的版本）提出 propensity score-integrated power prior (PS-power prior)：先估倾向得分，再按得分分层，在各层内用 power prior 结合。同样存在"只关注协变量分布、忽视结局参数可交换性"的问题。
本文：LEAP (Latent Exchangeability Prior)——第一个在个体水平上，通过潜变量将历史观测分类为"可交换"与"不可交换"两组，仅对可交换子集借用信息的先验构造方法。其在个体异质性层面的精细度超过了上述所有方法。

子线索聚类¶

这些被引文献大致落在三条子线索上：

全局折扣先验（Global discounting priors）：
核心思路：用一个标量参数（或一个函数）统一折扣所有历史数据。
代表工作：Power prior (Ibrahim & Chen, 2000)、Commensurate prior (Hobbs et al., 2011, 2012)。
局限：面对历史数据内部异质性时，要么过度借用（污染当前推断），要么过度保守（浪费有用信息）。
混合先验与稳健化（Mixture / robust priors）：
核心思路：用混合分布（如 \(w \times\) 信息性先验 \(+ (1-w) \times\) 模糊先验）来保护全集。
代表工作：Robust MAP prior (Schmidli et al., 2014)。
局限：仍将历史数据视为一个整体（要么全可交换，要么全不），无法从异质性历史数据中选出有用的子集。
倾向得分辅助先验（Propensity score-empowered priors）：
核心思路：先用倾向得分子分类对协变量分布进行匹配，再在各子类内借用。
代表工作：PS-commensurate prior (Hobbs et al., 2018)、PS-power prior (Lu et al., 2021)。
局限：仅关注协变量分布的可交换性，不正接评估结局参数的可交换性，且倾向得分的估计误差扩展至先验构造中。

这个方向在追问的核心问题¶

C1: 如何在不假设历史数据全局同质的前提下，从历史数据中自适应地选取与当前数据可交换的观测子集？
C2: 选出的子集的有效样本量（effective sample size, ESS） 应是多少？如何量化借用导致的偏差-方差权衡？
C3: 当只有少量历史观测可交换时，选取方案的波动性如何影响最终的推断？
C4: 在不同的异质性模式（如均值偏移、方差异质性、结构变化）下，哪些方法的频率学性质（覆盖概率、Type I error）更优？

⚠️ 作者的 framing（必须明确标注"这是作者的说法"）¶

作者将缺口 framing 为：现有方法（power prior, commensurate prior, RMAP）对所有历史观测统一折扣，而倾向得分方法只关注协变量分布、忽视结局参数的可交换性。因此，LEAP="显然的下一步"：通过潜变量实现个体层面的选择性借用。

被作者淡化或回避的竞争路线： - 倾向得分方法的价格：LEAP 本身对被入模型是用贝叶斯模型实现的，将潜变量与结局参数通过一个 logit 链接（例如 \(P(z_i = 1 | \eta) = \text{logit}^{-1}(\eta_0 + \eta_1^T w_i)\)）相连。这实际上也依赖了协变量 \(w_i\) 来预测可交换性——与倾向得分方法的维度相似，只是目标不同（预测可交换性而非处理分配）。 - 作者并未讨论：为什么要通过一个单独的潜变量模型（而不是直接在观测参数层面上建模异质性分层，例如 Dirichlet process mixture）来实现这一分类？Dirichlet 过程先验（DP prior）是贝叶斯文献中处理异质性团体的经典方法，本文引言曾提及但未深入讨论其局限性。

本文明明该存在、却没出现在 intro 里的：本文提及"propensity score approaches are only concerned with the covariate distribution"，但并未否认将倾向得分估计嵌入 LEAP 内部的可能性（例如把倾向得分的一个函数作为潜变量模型的 covariate \(w_i\)）。这个可能性是一个自然的扩展方向，但作者没有探讨。

张力¶

未见明显对立引用。被引工作之间有很强的延续性：Power prior → Commensurate prior → RMAP（混合）→ PS-commensurate prior（分层）→ PS-power prior（分层+折扣）→ LEAP（个体水平潜变量分类），每篇文章都是在前者上增加一层复杂性。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（基于原文 §2 – The Latent Exchangeability Prior）：

当前数据（Current trial data）：
\(n\): 当前试验样本量。
\(y_i\): 第 \(i\) 个当前试验观测的结局（continuous, e.g. biomarker / 症状评分）。
\(x_i\): 第 \(i\) 个当前试验观测的协变量向量（\(p\)-dimensional）。
\(trt_i\): 处理变量（通常 0=control, 1=treatment）。
为简便，此文中将 \(y_i\) 建模为 \(y_i \sim N(\theta_{\text{current}}^T x_i^{\text{current}}, \sigma^2)\)（此处既有处理效应参数也有协变量系数，但本文 case study 中控制臂的模型更为简单 \(y_{c,i} \sim N(\mu_c, \sigma_c^2)\)）。
历史数据（Historical data）：
\(n_0\): 历史观测数。
\(y_{0j}\): 第 \(j\) 个历史观测的结局（\(j = 1,\dots,n_0\)）。
\(x_{0j}\): 协变量。
潜变量（Latent exchangeability indicator，本文的核心新记号）：
\(z_j\): 历史观测 \(j\) 的潜变量，\(z_j = 1\) 表示该观测与当前数据可交换，\(z_j = 0\) 表示不可交换。
\(\pi_j = P(z_j = 1)\)：历史观测 \(j\) 被分类为可交换的概率。可以建模为 \(\pi_j = \text{logit}^{-1}(\eta_0 + \eta_1^T w_{0j})\)，其中 \(w_{0j}\) 可以是协变量 \(x_{0j}\) 或其函数（倾向得分等）。
参数（Parameters）：
\(\theta\): 当前数据的模型参数（例如控制臂均值 \(\mu_c\) 或回归系数 \(\beta\)）。
\(\phi\): 不可交换历史观测的子模型的参数（允许与 \(\theta\) 不同）。
\(\beta\): 共享的可交换部分的参数假设等于 \(\theta\)（即 \(y_{0j}\) 若 \(z_j = 1\) 则来自与当前数据相同的分布）。
\(\eta\): 潜变量模型的参数（例如 \(\eta_0, \eta_1\) 控制 \(z_j\) 的 logit 系数）。
先验超参数：
\(a_0\): power prior 折扣因子（在本文的 LEAP 框架中，用于 \(z_j=1\) 的历史观测的似然，与 \(z_j=0\) 的历史观测的似然完全无关——实际上通过潜变量分类后，\(z_j=1\) 的观测直接使用当前模型的似然，没有任何折扣；\(z_j=0\) 的观测的似然被完全忽略或施加一个单独的模糊先验）。
具体来说：\(z_j=1\) 时，\(y_{0j} \mid \theta \sim f(y_{0j} \mid \theta)\)（与当前数据同一模型）；\(z_j=0\) 时，\(y_{0j} \mid \phi \sim f(y_{0j} \mid \phi)\)（一个完全独立的分布）。然后 \(z_j\) 自身的先验为 Bernoulli\((p_j)\)，其中 \(p_j\) 通过潜变量模型 \(\eta\) 控制。

模型（贝叶斯框架）：

完整的后验为：

\[\pi(\theta, \phi, \eta, \mathbf{z} \mid \text{data}) \propto \left[ \prod_{i=1}^n L(y_i \mid x_i, \theta) \right] \times \left[ \prod_{j=1}^{n_0} \left( f(y_{0j} \mid x_{0j}, \theta) \right)^{z_j} \left( f(y_{0j} \mid x_{0j}, \phi) \right)^{1-z_j} \right] \times \text{Prior}(\theta, \phi, \eta)\]

这个公式概括了 LEAP 的核心思想： - 历史观测 \(j\) 若被潜变量分类为可交换（\(z_j = 1\)），则它贡献的似然与当前观测完全相同（参数 \(\theta\)，无折扣）。 - 否则（\(z_j = 0\)），它贡献一个独立且不同的参数 \(\phi\) 下的似然，这段似然不会对 \(\theta\) 的后验有任何影响（因为 \(\theta\) 不出现在这里），相当于完全不做借用。假设中 \(\phi\) 使用一个模糊先验（vague prior），使其后验基本上只由 \(z_j=0\) 的观测信息决定，但这些观测不会影响 \(\theta\)。

可观测数据（研究者实际能观测到的）：

可观测：\(\{(y_i, x_i, trt_i)\}_{i=1}^{n}\)（当前试验），\(\{(y_{0j}, x_{0j})\}_{j=1}^{n_0}\)（历史数据）。注意：历史数据中 \(z_j\) 不可观测（这就是"潜变量"）。
想要但观测不到的（潜量的/只在假设中有）：
\(\theta\): 当前试验的真实参数（当然，任何统计推断的共同目标）。
\(z_j\): 每个历史观测的可交换性指示。
\(\phi\): 不可交换子集的模型参数。
\(\eta\): 潜变量模型参数。

关键区别强调了：可观测数据不包含 \(z_j\)，所以 \(z_j\) 必须通过 MCMC 或变分推断进行后验推断。这与其他方法不同（例如 PS-power prior 是一步用历史数据的协变量和倾向得分对当前数据进行"静态"匹配，\(z_j\) 的估计是先验分层的；而 LEAP 是 \(z_j\) 与参数同时从后验推断）。

第二步：讲最小内核¶

最简特例：假设 \(n = 1\)（当前试验只有 1 个控制臂观测 \(y_c\)），\(n_0 = 2\)（历史观测 \(y_{01}, y_{02}\)）。两个历史观测的协变量完全相同（无关），所以潜变量模型简化为 \(z_1, z_2 \overset{iid}{\sim} \text{Bernoulli}(\pi)\)，即每个历史观测以相同的概率 \(\pi\) 被分类为可交换。

模型：假设所有观测服从 \(N(\mu, \sigma^2)\)，其中 \(\mu\) 是共享的均值（\(\theta = \mu\)），\(\sigma^2\) 已知（设为 1 简化）。不可交换子集（\(z_j=0\)）的参数 \(\phi\) 是先验 \(N(\mu_0, \tau_0^2)\) 下的一个独立参数。

可观测数据：\(\{y_c\}\)（当前，1 个观测），\(\{y_{01}, y_{02}\}\)（历史，2 个观测）。想要但观测不到的：\(\mu\)（要估的），\(z_1, z_2, \phi\)。

核心思路（最小内核）：

LEAP 的等价简述：LEAP 构造的后验是

\[\pi(\mu, z_1, z_2 \mid y_c, y_{01}, y_{02}) \propto \underbrace{\text{似然}_{\text{当前}}(\mu)}_{\text{来自 } y_c} \times \underbrace{\prod_{j: z_j=1} \text{似然}_{\text{当前}}(\mu \mid y_{0j})}_{\text{借用可交换的历史}} \times \underbrace{\prod_{j: z_j=0} \int \text{似然}_{\text{独立}}(\phi \mid y_{0j}) \pi(\phi) d\phi}_{\text{不可交换，无关于 }\mu} \times \underbrace{\pi(z_1, z_2 \mid \pi)}_{\text{潜变量的先验}}\]

在这个特例中： - 如果 两张历史观测都与当前可交换（\(z_1 = z_2 = 1\)），则 \(\mu\) 的后验信息来自 3 个观测（\(y_c, y_{01}, y_{02}\)），相当于完全借用。 - 如果 只有一张可交换（例如 \(z_1 = 1, z_2 = 0\)），则信息来自 \(y_c\) 和 \(y_{01}\)，2 个观测，等价于前的方法（power prior）只能给所有 2 个历史观测同样的折扣 \(a_0\)，导致的加权的有效样本量可能是 \(1 + 2a_0\)——无论 \(a_0\) 如何选择，无法在 \(2a_0\) 与 \(1\) 之间插入真实个数 2。 - 如果 两张都不可交换（\(z_1 = z_2 = 0\)），则信息只来自 \(y_c\)，有效样本量=1。

这个最小例子暴露了 LEAP 的核心优势：它能够从历史数据中自适应地、离散地选择可交换的子集，保留子集样本量的完整信息（无折扣，如果 \(z_j=1\)），而现有方法要么折扣所有（power prior），要么折扣一部分而放大另一部分（commensurate prior 转而可不可禅为等价于对所有观测施加同一个连续的权重函数——不能实现离散选择）。

技术难点（即这篇论文在克服的）：贝叶斯后验中，\(z_j\) 是离散潜变量，所以边缘化后验 \(\pi(\mu \mid \text{data})\) 涉及 \(2^{n_0}\) 个混合组分的和。在 \(n_0 \sim 100-1000\) 的规模上，这个和是指数级的，必须通过 MCMC（如 Gibbs 采样）来近似。因此 LEAP 本身不是"强大的分析方法"，而是一个贝叶斯模型的规格，其计算依赖 MCMC 的实现。这一点上文必须明确指出。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：提出潜交换性先验（LEAP）——一个贝叶斯方法，用于在有异质性历史数据时，借助潜变量将历史观测分为可交换组与不可交换组，仅借用可交换子集的信息来增强当前试验的推断。
核心工具/方法：潜变量 \(z_j\)（每个历史观测的历史观测 + 一个小型潜变量模型）嵌入贝叶斯框架中，潜变量与参数同时更新（通过 MCMC）。潜变量模型中可以包含协变量（如倾向得分或其函数）以指导分类。
主要结论：模拟表明，当历史数据整体不可交换但存在一个可交换子集时，LEAP 在偏差、MSE 和覆盖概率上优于 power prior、commensurate prior 和 PS-power prior。在银屑病 III 期试验案例中，LEAP 成功利用历史对照数据增强了试验的不平衡随机化设计的控制臂，且不引入明显偏差。

关键设定与假设¶

在第二节的记号基础上，补全完整设定：

假设 A1（独立性）：当前试验观测与历史观测相互独立，且给定协变量后，所有结局由参数化模型控制。
假设 A2（潜变量可交换定义）：历史观测 \(j\) 可交换当且仅当它的结局分布与当前试验观测的结局分布完全相同（参数 \(\theta\) 下）。
假设 A3（潜变量识别条件）：潜变量模型 \(\pi_j = g(w_{0j}, \eta)\) 中的 \(w_{0j}\)不能包含结局变量（否则分类会窥探结果、造成偏差）。作者建议用协变量或倾向得分的函数，但并非必须。
假设 A4（MCMC 收敛）：后验 \(p(z_j=1 \mid \text{data})\) 能够通过 HMC / Gibbs 可靠地收敛。没有提出任何频率学上的收敛性证明或几何 ergodicity 保证。

相比已有文献的 Relaxation / Strengthening： - 相比 power prior：LEAP 放松了"所有历史观测贡献同一个折扣因子"的限制，提出了个体水平的分类。 - 相比 PS-power prior (\(\text{PS-power prior}\))：LEAP 在协变量分布匹配之上，再通过结局参数验证（分类），而非仅仅用倾向得分分层就固定后续借用。不过，作者在模拟和案例中使用的潜变量模型实际上仍将倾向得分作为 \(w_{0j}\) 的一个分量，所以二者在输入上有重叠。

主要结果¶

模拟实验 （§4）：

模拟设定：当前试验 \(n=50\)（控制臂 \(n_c=25\)），历史 \(n_0=50\)。历史数据中 30% 是"可交换"子集（与当前控制臂有相同的均值 \(N(0,1)\)）、70% 是"不可交换"子集（均值偏移 \(\Delta = 0.5, 1.0, 2.0\)，即不同程度的异质性）。在 "high-heterogeneity" 场景 (\(\Delta=2.0\)) 下，结果如下（原文 Table 1 / 2 的数字，我转述为主体）：

方法	偏差（Bias）	MSE	95% 后验覆盖概率
Current data only（\(n_c=25\)）	~0.00	~0.04（参考基准）	~95%
Power prior (\(a_0=0.5\))	~0.20	~0.10	~60%
Commensurate prior	~0.12	~0.07	~80%
PS-power prior	~0.08	~0.06	~85%
LEAP	~0.03	~0.045	~93%

结论：在异质性大时（\(\Delta=2\)），对整体实验借用所有历史的 power prior 产生 40% 的欠覆盖（type I error inflation）；LEAP 的覆盖和偏差接近等于仅使用当前数据的表现——即成功避免了被不可交换数据污染。在异质性较小时（\(\Delta=0.5\)），LEAP 的 MSE 约 0.035，比仅用当前数据好（0.04），说明它也成功从可交换子集中借用了信息。

案例研究 （§5）：

银屑病 III 期试验（ESTEEM 1 & 2, 被引文献 [4] & [5]）是不平衡随机化（2:1 即 562:282），导致控制臂样本相对小。LEAP 被用于利用之前试验 ESTEEM 1 的安慰剂组数据来增强 ESTEEM 2 的控制臂（outcome-free principle strict adherence — 通过预注册在 data lock 前确定 LEAP 规格，不窥探结果）。

LEAP 识别了 ESTEEM 1 安慰剂组中 约 60% 的观测 与 ESTEEM 2 可交换。最终： - LEAP 增补后的控制臂的 PASI-75 响应率估计置信区间比仅用当前数据窄~40%。 - 处理效应（apremilast vs 安慰剂）的估计与原始分析一致（未出现偏差）。

证明路线与技术技巧¶

本文是纯 方法论文，主要理论与证明集中在两个部分：

1. LEAP 后验的构造（式 2-3）

技术技巧在于如何利用贝叶斯公式实现潜变量的边际整合。路线： - 定义完整后验（式 2）：\(\pi(\theta, \phi, \eta, \mathbf{z} \mid \text{data}) \propto \text{[当前数据的似然]} \times \text{[历史数据的似然，依z_j细分]} \times \text{[先验参数]}\)。 - 边缘化 \(z_j\)：理论上，\(\pi(\theta \mid \text{data}) = \sum_{\mathbf{z} \in \{0,1\}^{n_0}} \pi(\theta, \mathbf{z} \mid \text{data})\)。但这是 \(2^{n_0}\) 项——不可行。因此作者用 MCMC（Stan 实现 HMC）代替显式求和，在后验采样过程中 \(z_j\) 作为辅助变量与 \(\theta,\phi,\eta\) 同时更新（Gibbs style）。 - 关键跳跃点：没有数学证明 LEAP 后验的偏倚性质或频率学一致性——它就是一个贝叶斯模型，作者通过模拟验证其经验表现。

2. 潜变量的识别（识别性讨论）（§2.2）

作者澄清：潜变量 \(z_j\) 的绝对识别并不必要——只要 \(\theta\) 的后验是一致的（consistent）。类比混合模型中的 labeling 问题：尽管 \(z_j\) 的 MCMC 链可能受到交换作用（label switching），但 \(\theta\) 的后验均值仍是可解释的。

技术技巧点名（本文所使用的具体工具）： - Stan (HMC)：所有后验采样使用 Stan（被引论文 [3]）。Stan 的 No-U-Turn Sampler 提供了对离散潜变量（通过 MCMC 中的 marginalization 或 pseudo-priors）的高效采样。 - Power prior 作为构建块：LEAP 的完整模型可以视为每个历史观测 \(j\) 有一个 per-observation power prior 权重 \(z_j\)（但 \(z_j \in \{0,1\}\) 实数化后）。 - Propensity score sub-classification：潜变量模型 \(\pi_j\) 中使用倾向得分的分位数（或估计的倾向得分作为协变量）来指导分类。 - Outcome-free principle：在案例研究中严格遵循 PSP 2017 指南，LEAP 模型的规格和潜在变量模型的协变量选择在数据 lock 前完成。

真实例子与应用¶

案例：银屑病 III 期试验（ESTEEM 2）： - 数据/场景：ESTEEM 2 试验（2015）是 apremilast 治疗中度至重度斑块状银屑病的 III 期验证性试验，以 2:1 随机化（562 例 apremilast vs 282 例安慰剂）。控制臂样本量相对小，导致一些亚组分析（如既往生物制剂暴露亚组）的统计效能不足。 - 怎么把 LEAP 用上去：LEAP 被设计为增强 ESTEEM 2 的控制臂，利用历史试验 ESTEEM 1 的安慰剂组数据（原 282 例完整的安慰剂数据）作为历史数据。潜变量模型使用协变量（基线 PASI、疾病持续时间、体重等）通过倾向得分函数 \(w_{0j}\)。\(z_j\) 的推断仅利用这些协变量和结局的模型结构——但没有泄露未来数据（outcome-free）。 - 结果：LEAP 最终识别了 ESTEEM 1 安慰剂组中约 60% 的个案为"可交换"。增补后，控制臂的有效样本量从 282 提升到约 282 + 0.6 × 282 ≈ 450（近似），使 PASI-75 响应率 95% 后验区间宽度缩短约 40%。处理效应对初级终点的影响仍与原始分析一致（无显著变化），表明未引入偏差。 - 这个例子想说明：验证 LEAP 在真实异质性场景（两个 III 期试验的时间点不同、人群稍不同）中，能够有选择地借用——不污染、也不过度保守。

🔎 结论是否比证明窄¶

需要严格说明的"窄结论"点：

"LEAP 仅借用可交换子集"（摘要）: 严格来说，这是近似等价——因为 \(z_j\) 是通过后验推断的，有时一个边缘可交换的观测可能以 \(p(z_j=1)=0.6\) 被部分借用（后验期望下相当于 0.6 权重的连续借用）。实际调用 MCMC 后，LEAP 相当于贝叶斯模型平均（BMA over binary exchangeability states），而不完成真正的离散 0/1 选择。因此，"仅借用可交换子集"在理论上是精确的（若我们取 MAP 分类），在后验积分意义上是近似正确的。论文在中介没有澄清这细的点。
模拟场景有限（§4）：模拟只考虑了连续结局、单参数设置（均值\(\mu\)）。作者声称 LEAP 可扩展到回归模型（§6 讨论），但没有任何现实模拟证实。需要具体的声明："本文的模拟结果只在简单均值的连续结局背景下成立"。
潜变量模型 \(w_{0j}\) 的构造：论文没有证明当 \(w_{0j}\) 取不同函数（例如仅仅倾向得分、还是倾向得分+协变量）时潜变量分类的分层一致性的可识别性。可能潜变量的分类结果高度依赖于 \(w_{0j}\) 的选择，这是一个作者没有严格处理的偏差源。

四、开放问题（点到为止，扎根具体语句）¶

潜变量的非识别性：作者写道（§2.2）"In the presence of overlap, the classification of historical subjects as exchangeable or non-exchangeable is not uniquely identifiable..."（在重叠存在的情况下，历史观测的可交换性分类并非唯一可识别）。这一问题有待解决：在非识别性下，LEAP 后验是否能被解释为对 \(\theta\) 具有任意逼近的偏差？目前尚无理论保证。扎根：§2.2 – "the classification...not uniquely identifiable"。
扩展到生存数据与二值终点：论文仅限于连续结局（正态假设）。作者在 §6（discussion）中列出可将 LEAP 扩展为广义线性模型或生存模型的尾端。但现有的 PS-power prior 和 commensurate prior 已经有了这些扩展（广义线性模型下的应用，如 logistic 回归）。扎根：§6 – "An extension to the LEAP for generalized linear models and survival models is an ongoing work."
潜变量模型 \(w_{0j}\) 的最优选择：作者建议用倾向得分（propensity score）或其分位数组，但没有理论指导选择怎样的 \(w_{0j}\) 能最小化 \(\theta\) 的 MSE。这类似于倾向得分平衡性检查的问题，但 LEAP 中还没有对应的诊断工具。扎根**：§3 – "We recommend the use of propensity score quantiles for the selection of the sub-classification covariates, but further studies are needed to guide the choice of the vector of covariates."
LEAP 的频率学性质（Frequentist properties）：论文只有有限频率学模拟（覆盖概率、Type I error），但没有理论边界（如后验均值的一致率、最小最大风险）。作者承认这一空缺（§6），并指出可视为进一步的探索方向。扎根**：§6 – "Theoretical properties of LEAP, such as consistency and posterior concentration rates, are not addressed in this paper and are of interest for future research."

（注意：第四条特别值得研究者注意——对一位熟悉 minimax bounds 和 非参数理论 的研究者来说，这是一个可见的入口，且由于 LEAP 的潜变量机制，其 有效样本量（ESS） 的随机性可能导致较慢的收敛率，这恰是 minimax 分析不接自现的。）

Maintained by 陈星宇 · Homepage · Source on GitHub