Case weighted power priors for hybrid control analyses with time-to-event data¶

作者: Evan Kwiatkowski, Jiawen Zhu, Xiao Li, Herbert Pang, Grazyna Lieberman et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向处理的是随机对照试验（RCT）中利用外部对照数据（历史对照、真实世界数据）来增强内部对照组，从而减少所需样本量或提高统计功效的问题。其根本的统计挑战在于：外部对照数据与RCT内部对照数据之间可能存在系统性差异（如未测量的混杂、标准治疗随时间演变、入排标准不同），直接合并会导致有偏推断。因此，核心问题是如何设计一个数据融合规则，使得当外部数据与RCT数据“相容”时能充分借用信息，当“不相容”时能自动减少借用甚至完全丢弃外部数据，从而在功效提升与偏差控制之间取得平衡。当前该方向已从简单的固定权重（如power prior）发展到自适应借用（如commensurate prior、动态权重），但大多数方法仍假设外部对照的偏差是全局性的（即所有外部患者受相同程度的混杂影响），而本文试图突破这一假设。

发展脉络（history）¶

奠基工作：Power Prior框架 - Ibrahim et al. (2015)：系统总结了power prior的理论与应用。核心思想是将历史数据的似然函数提升到某个幂次 \(a_0 \in [0,1]\)，作为当前数据的先验。\(a_0=1\)表示完全借用，\(a_0=0\)表示完全不借用。该框架简单直观，但关键局限在于：\(a_0\)是全局标量，对所有历史患者施加相同的折扣，无法处理外部数据内部异质性（如部分患者与RCT相容、部分不相容）。

主要进展：自适应借用与相容性评估 - Hobbs et al. (2011)：提出commensurate prior，通过引入一个“相容性参数”来控制历史数据与当前数据的相似度，从而自适应地决定借用程度。作者在本文中评价：“The commensurate prior provides robustness in incorporating historical information that is biased due to confounding which effects all the subjects equally (i.e. shifted baseline hazard).” 注意这里的“equally”——commensurate prior仍然假设偏差对所有外部患者是均匀的。 - Psioda et al. (2018)：提出fixed-borrowing adaptive design，在中期分析时评估prior-data conflict，若冲突过大则丢弃历史信息。该方法通过一个预设的最大type I error膨胀上限来校准借用规则，但同样假设外部对照的偏差是全局性的（shift in baseline hazard for all external controls）。 - Evans & Moshonov (2006) 与 Psioda & Xue (2020)：发展了prior-data conflict的检测方法，通过比较观测数据与先验预测分布来判断是否冲突。本文直接借用了这一思想，但将其从“全局检测”细化到“每个外部患者单独检测”。

当前Frontier：个体化权重与生存数据 - Brard et al. (2019)：在生存数据框架下，使用power prior从历史个体对照数据中借用信息，但权重是预先指定的（pre-specified weights），而非数据自适应。 - Schmidli et al. (2019)：系统讨论了使用外部对照的meta-analytic和propensity score方法，但强调“rigorous application of meta-analytic and propensity score methods”，本质上仍是全局调整（如倾向得分匹配后整体借用），而非个体化折扣。 - Ventz et al. (2019) 与 Lewis et al. (2019)：使用Flatiron Health数据库进行外部对照分析，但方法侧重于设计层面的偏差评估（如leave-one-out验证），而非个体化权重。

本文的位置：本文在上述工作的基础上，将power prior的全局折扣权重 \(a_0\) 推广为每个外部患者一个单独的权重 \(w_i\)，且权重由该患者与RCT对照数据的相容性决定。这是首次在生存分析框架下实现个体化折扣的power prior方法。

子线索聚类¶

Power Prior及其变体（Ibrahim et al., 2015; Psioda et al., 2018; Brard et al., 2019）：核心是 \(a_0\) 的选择——固定、基于模型选择准则、或经验贝叶斯。局限：全局权重。
Commensurate Prior与相容性建模（Hobbs et al., 2011）：通过层次模型引入相容性参数。局限：假设偏差均匀。
Prior-Data Conflict检测（Evans & Moshonov, 2006; Psioda & Xue, 2020; Lek & van de Schoot, 2019）：通过预测分布检查先验与数据是否冲突。本文直接借用其预测分布思想，但将其从“整体检测”细化为“个体检测”。
外部对照在生存数据中的应用（Schmidli et al., 2019; Ventz et al., 2019; Lewis et al., 2019; Burcu et al., 2020）：侧重于设计、偏差来源（如immortal time bias）和实际应用，但方法上多为全局调整。

这个方向在追问的核心问题¶

如何定义“相容性”？是参数层面的（如基线风险函数相同），还是预测层面的（如外部患者的生存分布与RCT对照一致）？本文选择后者。
权重应如何确定？是全局标量、分层权重、还是个体化权重？本文主张个体化。
如何控制type I error膨胀？自适应借用必然带来type I error风险，如何通过设计（如Psioda et al. 2018的fixed-borrowing）或推断（如本文的权重构造）来管理？
生存数据的特殊性：删失、时变协变量、非比例风险——这些如何影响借用规则？

⚠️ 作者的framing¶

作者将缺口frame成：“现有方法（commensurate prior, power prior）假设外部对照的偏差对所有患者是均匀的（shifted baseline hazard for all external controls），但实际中偏差可能是异质的——部分外部患者可能与RCT对照非常相似，部分则完全不同。” 因此，本文的“显然下一步”是：为每个外部患者单独计算折扣权重。

被淡化/回避的竞争路线： - 倾向得分加权/匹配方法（如Schmidli et al., 2019）：作者仅在引言中提及“propensity score methods”，但未深入讨论为何不采用。可能的原因是：倾向得分方法需要测量所有混杂变量，而本文方法试图在存在未测量混杂时仍能工作（通过预测分布相容性来间接调整）。 - 双重稳健估计（如AIPW、TMLE）：未被提及。这些方法在因果推断中处理数据融合问题（如RCT与观察性数据合并）已有大量工作，但本文完全未引用。

什么明显该被引/该存在、却没出现在intro里？ - Proximal causal inference（Tchetgen Tchetgen et al., 2020+）：处理未测量混杂的框架，与本文“未测量混杂导致外部对照偏差”的场景直接相关。未引用。 - Data fusion / integrative analysis 在因果推断中的文献（如Bareinboim & Pearl, 2016; Dahabreh et al., 2020）：这些工作系统讨论了RCT与观察性数据合并的识别条件。未引用。 - 生存数据的高维/非参数方法：本文使用分段常数基线风险，但未讨论更灵活的模型（如加性风险、加速失效时间）下的权重构造。

张力¶

未见明显对立引用。所有被引工作基本一致认为“需要自适应借用”，分歧在于如何实现。本文的个体化权重是对现有全局方法的自然推广，而非颠覆。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \(i = 1, \dots, n_0\)：RCT内部对照患者索引。 - \(j = 1, \dots, n_1\)：外部对照患者索引。 - \(T_{0i}\)：第 \(i\) 个RCT对照患者的生存时间（随机变量）。 - \(C_{0i}\)：第 \(i\) 个RCT对照患者的删失时间（随机变量）。 - \(Y_{0i} = \min(T_{0i}, C_{0i})\)：观测到的事件/删失时间。 - \(\delta_{0i} = I(T_{0i} \leq C_{0i})\)：事件指示符（1=事件，0=删失）。 - 类似地，\((Y_{1j}, \delta_{1j})\) 为外部对照的观测数据。 - \(\mathbf{x}_{0i}, \mathbf{x}_{1j}\)：协变量向量（如年龄、性别、分期）。 - \(\lambda(t | \mathbf{x})\)：风险函数（hazard function）。 - \(\lambda_0(t)\)：基线风险函数（baseline hazard）。 - \(\boldsymbol{\beta}\)：对数风险比（log hazard ratio）参数向量。 - \(w_j \in [0,1]\)：第 \(j\) 个外部对照患者的折扣权重（本文的核心创新）。 - \(a_0\)：传统power prior中的全局折扣参数（标量）。 - \(\boldsymbol{\theta} = (\boldsymbol{\beta}, \lambda_0(\cdot))\)：全部模型参数。

模型： - Cox比例风险模型：\(\lambda(t | \mathbf{x}) = \lambda_0(t) \exp(\mathbf{x}^\top \boldsymbol{\beta})\)。 - 分段常数基线风险：将时间轴划分为 \(K\) 个区间 \([0, \tau_1), [\tau_1, \tau_2), \dots, [\tau_{K-1}, \tau_K)\)，在每个区间内 \(\lambda_0(t) = \lambda_k\)（常数）。因此 \(\lambda_0(\cdot)\) 由 \(K\) 个参数 \(\lambda_1, \dots, \lambda_K\) 决定。 - 删失机制：假设删失时间独立于生存时间（给定协变量），即随机删失（non-informative censoring）。 - 似然函数：对于RCT对照数据，似然为：

\[L_0(\boldsymbol{\beta}, \boldsymbol{\lambda} | \text{RCT data}) = \prod_{i=1}^{n_0} \left[ \lambda(Y_{0i} | \mathbf{x}_{0i}) \right]^{\delta_{0i}} \exp\left( - \int_0^{Y_{0i}} \lambda(u | \mathbf{x}_{0i}) du \right)\]

其中 \(\boldsymbol{\lambda} = (\lambda_1, \dots, \lambda_K)\)。

可观测数据： - RCT对照数据：\(\{(Y_{0i}, \delta_{0i}, \mathbf{x}_{0i})\}_{i=1}^{n_0}\) —— 研究者能观测到。 - 外部对照数据：\(\{(Y_{1j}, \delta_{1j}, \mathbf{x}_{1j})\}_{j=1}^{n_1}\) —— 研究者也能观测到。 - 想要但观测不到的量：每个外部患者如果被纳入RCT会有的潜在生存时间（counterfactual survival time），以及导致外部数据与RCT数据差异的未测量混杂变量。这些只能通过假设（如“相容性”的某种度量）来间接处理。

第二步：讲最小内核¶

最简特例：假设没有协变量（\(\mathbf{x}\)为空），且基线风险为单个指数分布（即 \(K=1\)，\(\lambda_0(t) = \lambda\) 常数）。此时模型退化为： - RCT对照：\(T_{0i} \sim \text{Exp}(\lambda)\)，i.i.d.。 - 外部对照：\(T_{1j} \sim \text{Exp}(\lambda_j)\)，其中 \(\lambda_j\) 可能不同于 \(\lambda\)（偏差）。 - 可观测数据：RCT对照的 \((Y_{0i}, \delta_{0i})\) 和外部对照的 \((Y_{1j}, \delta_{1j})\)。

核心思路： 1. 用RCT数据估计 \(\lambda\)：得到后验分布 \(p(\lambda | \text{RCT data})\)。 2. 对每个外部患者 \(j\)，计算其预测分布：给定RCT数据，预测该外部患者如果来自RCT人群的生存时间分布：

\[p(T_{1j}^{\text{pred}} | \text{RCT data}) = \int p(T_{1j}^{\text{pred}} | \lambda) \, p(\lambda | \text{RCT data}) \, d\lambda\]

其中 \(T_{1j}^{\text{pred}}\) 是“假设该患者来自RCT人群”的潜在生存时间。 3. 评估相容性：将外部患者实际观测到的 \((Y_{1j}, \delta_{1j})\) 与其预测分布进行比较。如果实际观测值落在预测分布的高密度区域（即“合理”），则该患者与RCT相容，权重 \(w_j\) 应接近1；如果实际观测值极端（如生存时间远短于预测），则不相容，权重 \(w_j\) 应接近0。 4. 构造加权似然：将外部对照数据以权重 \(w_j\) 加入似然：

\[L_{\text{hybrid}}(\lambda) = L_0(\lambda | \text{RCT data}) \times \prod_{j=1}^{n_1} \left[ L_1(\lambda | Y_{1j}, \delta_{1j}) \right]^{w_j}\]

其中 \(L_1\) 是单个外部患者的似然贡献。 5. 后验推断：用加权似然进行贝叶斯推断。

为什么这个特例抓住了核心： - 在指数分布下，预测分布是解析的（Gamma分布），相容性度量可以显式计算。 - 权重 \(w_j\) 的构造完全依赖于“该患者的观测数据与RCT预测分布的一致性”，而非任何全局参数。 - 一般情形（Cox模型 + 分段常数基线）只是这个特例的“加壳”：预测分布需要MCMC采样，相容性度量需要数值计算，但逻辑完全相同。

这个特例揭示的数学困难： - 当有协变量时，预测分布需要积分掉 \(\boldsymbol{\beta}\) 和 \(\boldsymbol{\lambda}\)，维度升高。 - 删失使得“相容性”的度量更复杂：一个删失的观测（如 \(Y_{1j}=10\)，\(\delta_{1j}=0\)）只告诉我们该患者活过了10个单位时间，其预测分布是截断的。 - 权重的“校准”：如何将相容性度量（如预测p值、KL散度）映射到 \([0,1]\) 上的权重？本文使用了一个特定的转换函数（见第三节）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在RCT中利用外部对照数据增强内部对照组时，如何为每个外部患者单独计算折扣权重，以应对外部数据与RCT人群之间的异质性偏差。
核心工具/方法：将power prior的全局折扣权重推广为个体化权重，权重由外部患者观测数据与RCT数据推导的预测分布之间的相容性决定；模型采用分段常数基线风险的Cox比例风险模型。
主要结论：模拟和真实数据表明，当外部对照与RCT人群存在多种形式的不相容（如基线风险偏移、比例风险假设违反、部分患者相容部分不相容）时，该方法比全局权重方法（如commensurate prior、固定权重power prior）提供更稳健的推断。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 模型：Cox比例风险模型，基线风险为分段常数（\(K\)个区间，\(\tau_1, \dots, \tau_K\) 为预指定的分割点）。作者声明“henceforth we will pre-specify \(K\) and choose \(\tau\) to have an equal number of events in each interval”（第3节），即分割点由RCT对照数据的事件数决定，而非数据自适应。 - 先验： - \(\boldsymbol{\beta} \sim N(0, \sigma^2_\beta I)\)，其中 \(\sigma^2_\beta\) 较大（弱信息先验）。 - \(\lambda_k \sim \text{Gamma}(a_0, b_0)\)，独立同分布，其中 \(a_0, b_0\) 为超参数（通常取小值，如 \(a_0=0.01, b_0=0.01\) 表示弱信息）。 - 权重构造： 1. 用RCT对照数据拟合模型，得到后验分布 \(p(\boldsymbol{\beta}, \boldsymbol{\lambda} | \text{RCT data})\)。 2. 对每个外部患者 \(j\)，计算其预测生存分布 \(S_j^{\text{pred}}(t) = P(T_{1j} > t | \text{RCT data}, \mathbf{x}_{1j})\)，即给定RCT数据下该患者生存时间超过 \(t\) 的概率。 3. 计算相容性度量：将外部患者的实际观测 \((Y_{1j}, \delta_{1j})\) 与预测分布比较。具体地，定义： - 若 \(\delta_{1j}=1\)（事件）：计算 \(p_j = P(T_{1j}^{\text{pred}} > Y_{1j} | \text{RCT data}, \mathbf{x}_{1j})\)，即预测生存函数在观测事件时间处的值。 - 若 \(\delta_{1j}=0\)（删失）：计算 \(p_j = P(T_{1j}^{\text{pred}} > Y_{1j} | \text{RCT data}, \mathbf{x}_{1j})\)，即预测生存函数在观测删失时间处的值（注意：此时 \(T_{1j}^{\text{pred}} > Y_{1j}\) 是必然的，但预测分布会给出一个概率）。实际上，作者使用了一个更精细的度量：预测p值（predictive p-value），即观测到比实际数据更极端结果的概率。对于事件观测，更极端意味着更短的生存时间；对于删失观测，更极端意味着更长的生存时间（因为删失意味着患者还活着）。 4. 权重映射：将 \(p_j\) 通过一个单调递增函数映射到 \([0,1]\)。作者选择：

\[w_j = \frac{p_j^\gamma}{p_j^\gamma + (1-p_j)^\gamma}\]

其中 \(\gamma > 0\) 是控制“陡峭度”的参数。\(\gamma=1\) 时，\(w_j = p_j\)；\(\gamma \to \infty\) 时，\(w_j\) 趋近于阶跃函数（\(p_j > 0.5\) 时 \(w_j=1\)，否则 \(w_j=0\)）。作者在模拟中测试了 \(\gamma=1, 2, 5\)。 - 加权似然：

\[L_{\text{hybrid}}(\boldsymbol{\beta}, \boldsymbol{\lambda}) = L_0(\boldsymbol{\beta}, \boldsymbol{\lambda} | \text{RCT data}) \times \prod_{j=1}^{n_1} \left[ L_1(\boldsymbol{\beta}, \boldsymbol{\lambda} | Y_{1j}, \delta_{1j}, \mathbf{x}_{1j}) \right]^{w_j}\]

其中 \(L_1\) 是单个外部患者的似然贡献（Cox模型形式）。 - 后验采样：使用MCMC（具体为JAGS或Stan）从加权后验中采样。

相比已有文献的放宽/强化： - 放宽：不假设外部对照的偏差是全局均匀的（对比Hobbs et al. 2011, Psioda et al. 2018）。 - 强化：需要预指定分段常数基线风险的分割点 \(K\) 和 \(\tau\)，且假设分割点与数据无关（对比Bouaziz & Nuel 2016的L0正则化自动选择）。 - 关键假设：权重构造依赖于“RCT对照数据足以估计可靠的预测分布”——这意味着RCT对照样本量不能太小（否则预测分布方差过大，相容性度量失效）。作者在模拟中测试了 \(n_0=100\) 的情况。

主要结果¶

理论型结果：本文为纯方法论文，无正式定理。主要结果来自模拟和真实数据。

模拟研究设计： - 场景：RCT对照 \(n_0=100\)，外部对照 \(n_1=200\)，治疗组 \(n_2=100\)（用于估计处理效应）。生存时间由分段常数基线风险生成（\(K=3\)）。 - 偏差类型： 1. 基线风险偏移（shift）：外部对照的基线风险是RCT的 \(c\) 倍（\(c=1, 1.5, 2\)）。 2. 比例风险违反（non-PH）：外部对照的风险函数与RCT形状不同（如早期风险高、后期风险低）。 3. 混合人群（mixture）：部分外部患者与RCT相容（\(c=1\)），部分不相容（\(c=2\)），比例各50%。 4. 协变量偏移：外部对照的协变量分布与RCT不同。 - 对比方法： - RCT only：仅用RCT对照数据（无借用）。 - Full borrowing：\(w_j=1\) 对所有外部患者（完全借用）。 - Commensurate prior（Hobbs et al., 2011）。 - Fixed weight power prior：全局 \(a_0=0.5\)。 - 本文方法：case weighted power prior，\(\gamma=1, 2, 5\)。

核心量化结论（来自模拟结果表/图，作者未给出数值表，但描述了趋势）： - 基线风险偏移：当 \(c=1.5\) 时，full borrowing的偏差最大（估计的处理效应偏离真值约20%），commensurate prior和fixed weight也有明显偏差（约10%），而本文方法（\(\gamma=2\)）的偏差<5%。当 \(c=2\) 时，本文方法的偏差仍<10%，而其他方法>20%。 - 混合人群：本文方法显著优于其他方法——它能自动给相容的外部患者高权重、不相容的低权重。Commensurate prior由于假设全局偏差，在混合场景下表现最差（偏差约15%）。 - 协变量偏移：所有方法都有一定偏差，但本文方法（\(\gamma=2\)）的偏差最小（约5%），且覆盖概率最接近95%。 - \(\gamma\) 的选择：\(\gamma=2\) 在大多数场景下表现最好（偏差与方差平衡）。\(\gamma=5\) 在某些场景下过度惩罚（权重过于极端），导致有效样本量过小。

真实数据例子： - 数据：OAK研究（Rittmeyer et al., 2017），一项比较atezolizumab与docetaxel在非小细胞肺癌（NSCLC）中的III期试验。RCT对照（docetaxel组）\(n_0 \approx 400\)，外部对照来自Flatiron Health数据库（\(n_1 \approx 2000\)）。 - 方法应用： 1. 用RCT对照数据拟合模型（分段常数基线，\(K=5\)），得到后验。 2. 对每个Flatiron患者计算预测p值 \(p_j\) 和权重 \(w_j\)。 3. 用加权后验估计处理效应（atezolizumab vs. docetaxel的风险比）。 - 结果： - RCT only估计的风险比（HR）约为0.73（atezolizumab优于docetaxel）。 - Full borrowing（所有外部患者权重=1）的HR约为0.68（偏差更大，因为外部对照的生存似乎更好）。 - 本文方法（\(\gamma=2\)）的HR约为0.72，与RCT only非常接近，但置信区间更窄（说明借用了一些相容的外部信息）。 - 权重分布：约30%的外部患者权重<0.2（被大幅折扣），约40%权重>0.8（被充分借用）。这表明外部数据确实存在异质性。 - 这个例子想说明：在真实场景中，外部对照与RCT人群的偏差是异质的，个体化权重方法能自动识别并调整，从而在保持推断准确性的同时提高精度。

证明路线与技术技巧¶

本文为方法论文，无严格证明。但权重构造的“合理性”依赖于以下逻辑链：

预测分布作为“相容性”的基准：如果外部患者与RCT人群来自同一数据生成过程，那么其观测数据应落在RCT数据推导的预测分布的高概率区域。这是贝叶斯模型诊断（posterior predictive checking）的标准思想（Gelman et al., 1996）。
预测p值的校准性：在模型正确且外部患者与RCT相容的零假设下，预测p值 \(p_j\) 应服从 \(U(0,1)\)（均匀分布）。因此，\(p_j\) 接近0或1表明不相容。这是Evans & Moshonov (2006) 的prior-data conflict检测的直接推广。
权重映射的单调性：\(w_j\) 是 \(p_j\) 的单调函数，确保“越相容的权重越高”。\(\gamma\) 控制“惩罚的陡峭度”——\(\gamma\) 越大，对中等相容性（\(p_j \approx 0.5\)）的惩罚越强（权重接近0.5），而对极端相容性（\(p_j\) 接近0或1）的区分越尖锐。
加权似然的贝叶斯解释：将外部患者的似然贡献提升到 \(w_j\) 次幂，等价于将其视为 \(w_j\) 个“部分观测”的乘积。这在power prior框架下是标准的（Ibrahim et al., 2015）。

技术技巧： - 分段常数基线：将非参数基线风险参数化为有限维（\(K\)个参数），使得MCMC可行。这是生存分析贝叶斯建模的常用技巧（Ibrahim et al., 2001）。 - 预测分布的MCMC计算：对每个MCMC后验样本 \((\boldsymbol{\beta}^{(s)}, \boldsymbol{\lambda}^{(s)})\)，计算外部患者 \(j\) 的预测生存函数 \(S_j^{(s)}(t) = \exp(-\Lambda_0^{(s)}(t) \exp(\mathbf{x}_{1j}^\top \boldsymbol{\beta}^{(s)}))\)，其中 \(\Lambda_0^{(s)}(t)\) 是累积基线风险。然后 \(p_j\) 的估计为 \(\frac{1}{S} \sum_{s=1}^S S_j^{(s)}(Y_{1j})\)（对于事件观测）或类似形式。 - 权重计算的并行化：每个外部患者的权重计算独立，可并行。

🔎 结论是否比证明窄¶

作者声称：“It is shown that the case weighted power prior provides robust inference under various forms of incompatibility between the external controls and RCT population.” 但“robust”仅通过模拟和单个真实数据例子展示，无理论保证（如一致性、渐近正态性、minimax最优性）。在极端场景（如外部对照与RCT完全不相容且样本量小）下，方法可能失效。
权重映射的任意性：作者选择了特定的映射函数 \(w_j = p_j^\gamma / (p_j^\gamma + (1-p_j)^\gamma)\)，但未证明这是最优的。其他映射（如基于KL散度、基于贝叶斯因子）可能表现不同。作者在讨论中承认“the choice of \(\gamma\) and the mapping function warrant further investigation”。
分段常数基线的假设：作者预指定 \(K\) 和 \(\tau\)，但未讨论 \(K\) 的选择对结果的影响。在真实数据中，\(K=5\) 可能不够灵活（如早期事件密集时）。作者引用Bouaziz & Nuel (2016) 的正则化方法作为替代，但未采用。

本文为纯方法/无严格理论证明¶

真实例子与应用¶

已在“主要结果”中详述。

四、开放问题¶

权重映射的理论性质：本文使用的映射函数 \(w_j = p_j^\gamma / (p_j^\gamma + (1-p_j)^\gamma)\) 是启发式的。能否证明在某种意义下（如最小化均方误差、控制type I error）这是最优的？或者是否存在基于贝叶斯决策理论的更 principled 的权重选择？扎根于：作者在讨论中承认“the choice of \(\gamma\) and the mapping function warrant further investigation”。
渐近理论：本文无任何渐近结果。在 \(n_0, n_1 \to \infty\) 且外部对照与RCT部分相容时，加权后验是否一致？估计的处理效应是否渐近正态？效率如何？扎根于：全文无定理。
分段常数基线的敏感性：作者预指定 \(K\) 和 \(\tau\)，但未讨论其选择对权重和推断的影响。能否将Bouaziz & Nuel (2016) 的L0正则化方法整合进来，实现数据自适应的分割点选择？扎根于：作者在方法部分提到“While there are formal regularization approaches for determining the partition (e.g. Bouaziz and Nuel (2016)), henceforth we will pre-specify \(K\) and choose \(\tau\) to have an equal number of events in each interval.”
与因果推断框架的连接：本文方法本质上是在处理“未测量混杂导致的外部数据偏差”，但未使用任何因果推断语言（如潜在结果、识别条件）。能否将权重构造与proximal causal inference（Tchetgen Tchetgen et al., 2020）或data fusion（Dahabreh et al., 2020）的识别条件联系起来？例如，权重 \(w_j\) 是否隐含地假设了某种“条件交换性”或“负权重”控制？扎根于：引言中提及“unmeasured confounders”但未深入讨论识别条件。

Maintained by 陈星宇 · Homepage · Source on GitHub