A Bayesian semiparametric approach for inference on the population partly conditional mean from longitudinal data with dropout¶

作者: Maria Josefsson, Michael J Daniels, Sara Pudas
来源: Biostatistics
主题: 因果推断
相关性: 6/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxab012

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：当纵向研究（longitudinal study）的样本因选择性入组（selective enrollment）与脱落而变得高度非代表性时，如何将样本内估计的纵向轨迹（如记忆随年龄的变化）推广至目标有限总体？此外，纵向研究中特有的练习效应会进一步扭曲轨迹估计。当前该方向的成熟度处于"有若干识别框架与参数/半参数方法，但对关键不可检验假设的敏感性分析及非参数边界的刻画仍不完善"的阶段。

发展脉络： - 奠基工作：处理纵向数据缺失与脱落的早期框架主要依赖逆概率加权（IPW）与模式混合模型。作者引用的 Hogan & Daniels (2008) 与 Little (1995) 建立了缺失数据多重插补与模式混合的参数化范式，但留下口子：参数模型对总体轨迹的形状假设过强，且IPW在纵向高维协变量下极不稳定。 - 主要进展（总体推断与可移植性）：将样本结论外推至总体的思路源自调查统计与因果推断的交汇。作者引用的 Stuart et al. (2015) 与 Hartman et al. (2015) 将因果推断的可移植性框架引入纵向与观察性数据，明确了"将效果从非代表性样本transport到目标总体"的识别条件；但留下口子：这些工作多聚焦于平均因果效应，而非纵向条件均值轨迹（如给定存活至某时间点的总体均值），且未处理练习效应这一纵向特有偏倚。 - 当前 frontier（半参数贝叶斯与敏感性分析）：在贝叶斯缺失数据领域，作者引用的 Daniels (2006) 与 Mason et al. (2012) 推动了半参数分布建模（如DP混合）以放松参数假设；Scharfstein et al. (2021) 则在模式混合框架下引入了对缺失机制的敏感性分析。留下口子：这些敏感性分析多针对单一时间点缺失，未系统整合纵向总体辅助信息下的部分条件均值估计。 - 本文的位置：本文站在"总体可移植性 + 半参数贝叶斯纵向建模 + 练习效应调整"的交汇点，定义了一个新的estimand（总体部分条件均值），并构造了利用总体辅助信息的贝叶斯半参数预测估计器，附带对脱落与练习效应的敏感性分析。

子线索聚类： 1. 模式混合与参数缺失建模（Little 1995; Hogan & Daniels 2008）：用参数模型按缺失模式分层建模，口子是模型假设过强、外推依赖不可检验假设。 2. 因果可移植性与总体推断（Stuart et al. 2015; Hartman et al. 2015; Keiding et al. 2019）：用IPW或标准化将样本因果效应外推至总体，口子是对纵向轨迹与练习效应无专门处理，且IPW方差大。 3. 贝叶斯半参数与敏感性分析（Daniels 2006; Mason et al. 2012; Scharfstein et al. 2021）：用DP或SP混合放松分布假设，对缺失机制做局部敏感性分析，口子是未结合总体层面辅助信息进行预测推断。

这个方向在追问的核心问题： 1. Estimand定义：在存在死亡与脱落的纵向研究中，什么是最合理的总体轨迹度量？（本文选了"给定存活至时间\(t\)的总体均值"，而非无条件总体均值或因果效应）。 2. 识别与估计：当样本非代表性且脱落时，仅靠样本内数据无法识别总体estimand；引入何种总体辅助信息（如人口寿命表、边缘分布）足以识别？如何在不强假设下稳定估计？ 3. 不可检验假设的敏感性：脱落机制（MAR vs MNAR）与练习效应的假设均不可检验；如何系统量化它们对总体轨迹估计的影响？

⚠️ 作者的 framing： - 作者把缺口frame成：现有方法要么依赖强参数假设（模式混合参数模型），要么在纵向高维下不稳定（IPW），且无人同时处理非代表性、脱落与练习效应来估计总体部分条件均值。这让本文的"贝叶斯半参数预测估计器 + 敏感性分析"成为"显然的下一步"。 - 被淡化或回避的竞争路线：Proximal causal inference（用未观测的代理变量处理不可观测混杂/脱落）与半参数效率理论（基于影响函数的debiasing方法，如HOIF）完全未在intro出现。这两条路线同样试图在不强假设下处理缺失/混杂，且对不可观测变量有更系统的识别框架。 - 明显该被引却未出现的：处理纵向缺失与不可观测混杂的半参数效率界文献（如 Robins 2000 的边际结构模型影响函数；Tsiatis 2006 的半参数缺失数据理论）；以及近期 Proximal causal inference (Miao et al. 2018; Tchetgen Tchetgen et al. 2020) 的工作。这是值得研究者去查的问题：作者回避这些，是因为贝叶斯预测框架与频率派识别框架在estimand定义上有根本分歧，还是单纯遗漏？

张力：未见明显对立引用。不同子线索的矛盾主要体现在对不可检验假设的处理哲学：频率派IPW/标准化路线倾向于用权重强行校正可观测差异，对不可观测偏倚留白；贝叶斯模式混合路线倾向于对不可观测偏倚（MNAR）参数化并做敏感性分析；Proximal路线则试图用代理变量识别不可观测混杂。这三者目前未见在同一estimand下直接得出相反结论的引用，但各自对"何为可识别"的边界刻画不同。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(N\)：目标有限总体的个体总数（固定常数）。
\(i = 1, \dots, N\)：总体中的个体指标。
\(Z_i\)：个体 \(i\) 的基线协变量（如年龄、性别、教育等），维度为 \(p\)。
\(Y_{it}\)：个体 \(i\) 在时间点 \(t\)（如 \(t = 0, 1, 2, \dots, T\)）的纵向结局变量（如情节记忆得分）。这是我们要估计其总体均值的目标变量。
\(S_i\)：入组指示变量，\(S_i = 1\) 表示个体 \(i\) 被纳入研究样本，\(S_i = 0\) 表示未入组（我们观测不到其 \(Y_{it}\)）。
\(R_{it}\)：存活与观测指示变量，\(R_{it} = 1\) 表示个体 \(i\) 在时间 \(t\) 存活且未脱落（因此 \(Y_{it}\) 可观测），\(R_{it} = 0\) 表示死亡或脱落（\(Y_{it}\) 不可观测）。注意 \(R_{it} = 0\) 包含了死亡与非死亡脱落两种机制。
\(P_i\)：练习效应指示变量，\(P_i = 1\) 表示个体 \(i\) 经历了练习效应（因重复测试导致记忆得分人为提升或维持），\(P_i = 0\) 表示无练习效应。这是一个不可观测的潜在变量。
\(n\)：实际入组且在基线有观测的样本量（\(n = \sum_{i=1}^N S_i R_{i0}\)）。
Estimand（总体部分条件均值）：\(\mu_t = E_P[Y_{it} \mid R_{it} = 1]\)，即在目标有限总体中，给定存活至时间 \(t\) 的条件下，结局变量的总体均值。下标 \(P\) 强调这是有限总体期望。
可观测数据：对于入组样本（\(S_i = 1\)），我们观测到 \((Z_i, Y_{i0}, R_{i1}, Y_{i1} \text{ if } R_{i1}=1, \dots, R_{iT}, Y_{iT} \text{ if } R_{iT}=1)\)；对于未入组样本（\(S_i = 0\)），我们仅观测到总体层面的辅助信息（如人口统计边缘分布 \(P(Z)\) 的汇总，或寿命表给出的 \(P(R_{it}=1 \mid Z)\)），而观测不到任何 \(Y_{it}\)。
不可观测 / 需假设识别的量：未入组个体的 \(Y_{it}\)；脱落/死亡机制中不可观测的部分（即 \(P(R_{it}=0 \mid Z, Y_{i<t}, S)\) 中依赖未观测 \(Y\) 的部分，即MNAR成分）；练习效应 \(P_i\) 的大小。

第二步：最小内核——最简特例（单个时间点 \(t=1\)，无练习效应，二元结局）

剥掉所有纵向复杂性与练习效应，考虑最简特例：只有基线 \(t=0\) 和一个后续时间点 \(t=1\)，结局 \(Y_{i1}\) 为二元（0/1），无练习效应（\(P_i=0\)）。

此时，estimand 退化为：总体中存活至 \(t=1\) 的人的 \(Y_{i1}\) 均值，即 \(\mu_1 = P(Y_{i1}=1 \mid R_{i1}=1)\)。

核心数学困难与本文思路： - 困难：样本非代表性意味着 \(P(Y_{i1}=1 \mid R_{i1}=1, S_i=1) \neq P(Y_{i1}=1 \mid R_{i1}=1)\)。我们只能观测到入组且存活者的 \(Y_{i1}\)，但目标包含未入组者（\(S_i=0\)）若存活会有的 \(Y_{i1}\)——这完全不可观测。 - 本文破法（贝叶斯预测）：不试图用IPW权重把样本硬拉到总体，而是利用总体辅助信息（如总体中 \(Z\) 的分布 \(P(Z)\)，以及总体存活率 \(P(R_{i1}=1 \mid Z)\)）作为锚点，在贝叶斯框架下对未入组个体的 \(Y_{i1}\) 进行预测推断。 - 最简特例下的推断逻辑： 1. 对入组样本，建立 \(Y_{i1} \mid Z, R_{i1}=1, S=1\) 的半参数模型（如DP混合逻辑回归），得到后验分布 \(P(Y_{i1} \mid Z, R_{i1}=1, S=1, \text{Data})\)。 2. 假设可移植性：\(P(Y_{i1} \mid Z, R_{i1}=1, S=1) = P(Y_{i1} \mid Z, R_{i1}=1, S=0)\)。即在给定协变量 \(Z\) 与存活条件下，入组与未入组个体的结局分布相同（这是本文最核心的不可检验识别假设）。 3. 利用总体辅助信息，对总体中所有 \(N\) 个个体（无论 \(S\) 取值），基于其 \(Z_i\) 和步骤1、2的后验预测分布，生成 \(Y_{i1}\) 的预测样本。 4. 计算这些预测样本中，满足 \(R_{i1}=1\) 的个体的 \(Y_{i1}\) 平均值，即得到 \(\mu_1\) 的后验分布。

在这个最简特例下，要证的命题退化成：若可移植性假设成立，且总体辅助信息正确锚定了 \(Z\) 的分布与存活机制，则贝叶斯预测估计器的后验均值在大样本下收敛于总体部分条件均值 \(\mu_1\)。证明逻辑是直白的贝叶斯预测一致性：半参数模型在样本内一致估计了条件分布，可移植性假设将此条件分布平移至未入组个体，总体辅助信息确保了平移时的协变量分布与存活率不偏，三者拼合即还原了总体条件均值。

三、这篇论文做了什么¶

三句话： ① 研究了纵向数据因选择性入组、脱落与练习效应导致样本非代表性时，如何估计总体部分条件均值（给定存活的总体轨迹均值）的问题。 ② 核心方法是贝叶斯半参数预测估计器，利用总体层面的纵向辅助信息（寿命表、人口统计）作为锚点，通过可移植性假设将样本内半参数模型预测至总体，并对脱落机制（MNAR）与练习效应进行敏感性分析。 ③ 主要结论是：在可移植性假设下，该方法能从非代表性样本恢复总体轨迹，模拟显示其比IPW与完全样本分析更稳定且偏倚更小，Betula数据应用展示了从样本到总体推广的全流程与敏感性分析的实际操作。

关键设定与假设：在第二节最小记号基础上补全： - 总体部分条件均值：\(\mu_t(Z) = E_P[Y_{it} \mid Z, R_{it}=1]\)，本文主要关注边缘化版本 \(\mu_t = E_P[Y_{it} \mid R_{it}=1]\)。 - 可移植性假设（Transportability / Positivity）：\(P(Y_{it} \mid Z, R_{it}=1, S=1) = P(Y_{it} \mid Z, R_{it}=1, S=0)\)。即给定协变量与存活，入组与否不影响结局分布。这是本文最核心的不可检验假设，相当于因果推断中的无混杂假设（ignorability of selection）。相比已有文献（如 Stuart et al. 2015），本文将其明确限定在"给定存活"的子群体上，而非全总体。 - 辅助信息假设：总体中 \(Z\) 的分布 \(P(Z)\) 与存活概率 \(P(R_{it}=1 \mid Z)\) 可从外部数据（如人口寿命表）获得。这相当于因果推断中的do-calculus干预分布可获知。 - 脱落机制的敏感性参数化：对 \(R_{it}=0\) 的非死亡脱落部分，引入敏感性参数 \(\delta\)，刻画脱落概率对未观测结局 \(Y_{it}\) 的依赖程度：\(P(R_{it}=0 \mid Z, Y_{it}, \text{history}) = \text{baseline\_hazard} \times \exp(\delta \cdot Y_{it})\)。\(\delta=0\) 对应 MAR（脱落仅依赖已观测历史），\(\delta \neq 0\) 对应 MNAR。 - 练习效应的敏感性参数化：引入参数 \(\gamma\)，刻画练习效应对结局的提升量：对有练习效应的个体，\(Y_{it}^{\text{observed}} = Y_{it}^{\text{true}} + \gamma \cdot P_i\)。\(\gamma=0\) 对应无练习效应。

主要结果： 1. 贝叶斯半参数预测估计器的构造（Methodology）： - 对入组样本的纵向轨迹 \(Y_{it} \mid Z, S=1\)，建立半参数模型：线性混合效应部分捕捉总体趋势，随机效应分布用Dirichlet Process (DP) 混合建模（放松参数分布假设），存活/脱落机制用半参数比例风险模型建模。 - 在后验抽样中，对总体中每个个体（无论是否入组），基于其 \(Z_i\) 与从寿命表获得的 \(R_{it}\) 状态，从入组样本的后验预测分布中生成 \(Y_{it}\) 的预测值（依赖可移植性假设）。 - 最终 \(\mu_t\) 的估计为：预测样本中 \(R_{it}=1\) 个体 \(Y_{it}\) 的后验平均。 2. 模拟比较（Simulation）： - 在模拟设计中，构造了非代表性样本（入组概率依赖 \(Z\)）、脱落（MAR与MNAR）与练习效应。 - 与 baseline 比较：完全样本分析（忽略非代表性与脱落，偏倚最大）、IPW（用入组与存活概率加权，偏倚小但方差极大，尤其在后期时间点权重极端时）、本文方法（偏倚与方差均小，尤其在引入辅助信息后对非代表性校正更稳定）。 - 结论：IPW在纵向后期因权重不稳定而失效，本文贝叶斯预测方法因利用辅助信息锚定总体分布而更稳健。 3. 敏感性分析框架（Sensitivity Analysis）： - 对脱落参数 \(\delta\) 与练习效应参数 \(\gamma\)，在贝叶斯框架内通过先验分布或固定扫描进行敏感性分析：观察 \(\mu_t\) 的后验估计如何随 \(\delta, \gamma\) 变化。 - 结果显示：在 Betula 数据中，\(\delta\)（MNAR脱落）对估计轨迹的影响较小（因脱落率本身不高），而 \(\gamma\)（练习效应）对轨迹形状影响显著——忽略练习效应会高估老年人的记忆维持水平。

证明路线与技术技巧（理论型必写，要具体）：本文为方法型论文，无传统定理证明，但有贝叶斯推断的模型构建与后验计算路线： - 整体路线： 1. 样本内建模：对入组样本建立半参数联合模型 \((Y_{it}, R_{it}) \mid Z, S=1\)（DP混合线性混合模型 + 半参数存活模型）。 2. 总体预测：利用辅助信息 \(P(Z)\) 与 \(P(R_{it}=1 \mid Z)\)，结合可移植性假设，将步骤1的后验预测分布平移至总体，生成总体中每个个体的 \((Y_{it}, R_{it})\) 预测。 3. Estimand计算：在预测样本中筛选 \(R_{it}=1\) 的个体，计算 \(Y_{it}\) 的均值，得到 \(\mu_t\) 的后验分布。 4. 敏感性扫描：在步骤1的模型中引入 \(\delta\) 与 \(\gamma\) 参数，重复步骤2-3，观察 \(\mu_t\) 变化。 - 关键跳跃点： - 从样本内模型到总体预测的跳跃，完全依赖可移植性假设。这是无参数保证的跳跃，本文用敏感性分析来部分覆盖其风险，但未提供频率派识别边界。 - DP混合模型的后验计算是技术难点，本文用Blocked Gibbs Sampler（Ishwaran & James 2001）截断DP以实现可计算性。 - 技术技巧点名： - Dirichlet Process Mixture (DP混合)：用于放松随机效应分布的参数假设，允许轨迹分布有多个未知子群。用截断DP近似以实现Gibbs抽样。 - Blocked Gibbs Sampler：截断DP下的后验MCMC抽样方法，避免无限维后验的计算困难。 - 贝叶斯预测推断：不估计总体参数再推断，而是直接从后验预测分布生成总体个体的潜在数据，再在生成数据上计算estimand。这是与频率派IPW/标准化路线的根本分歧。 - 敏感性参数化（Scharfstein et al. 2021 的局部偏离框架）：对MNAR脱落与练习效应，用指数倾斜参数 \(\delta\) 与线性偏移参数 \(\gamma\) 建模，扫描其值以量化对estimand的影响。

真实例子与应用： - 数据：Betula 纵向队列研究（瑞典），15年随访，测量情节记忆随年龄的变化。样本存在选择性入组（健康、高教育者更易入组）与脱落（死亡与退出），且有练习效应（重复测试提升得分）。 - 如何用上去： 1. 目标总体：瑞典特定年龄段人口。辅助信息：瑞典人口寿命表（给出 \(P(R_{it}=1 \mid \text{age})\)）与人口统计（给出 \(P(Z)\)）。 2. 对入组样本建立DP混合纵向模型 + 存活模型，引入练习效应参数 \(\gamma\)。 3. 利用寿命表与人口统计，预测总体中所有人的记忆轨迹与存活状态，计算给定存活的总体记忆均值 \(\mu_t\)。 - 得到什么结果： - 完全样本分析显示记忆在老年期平稳甚至上升（因健康人存活且练习效应）。 - 本文方法校正后，总体记忆轨迹在老年期显著下降（因总体存活率低，且练习效应被校正）。 - 敏感性分析：练习效应 \(\gamma\) 对轨迹形状影响大；脱落MNAR \(\delta\) 影响小。 - 这个例子想说明什么：验证本文方法能揭示完全样本分析掩盖的总体轨迹真相；展示辅助信息（寿命表）在纵向总体推断中的关键锚定作用；展示敏感性分析如何量化不可检验假设的影响。

🔎 结论是否比证明窄： - 本文的核心识别结论（总体部分条件均值的可识别性）完全依赖可移植性假设，但该假设在intro与方法节中被陈述为"合理的"而非"需严格证明的"。在模拟与数据中，该假设被默认成立，仅在敏感性分析中通过 \(\delta\) 间接触及（脱落MNAR可破坏可移植性），但未对可移植性假设本身进行直接的敏感性分析。这是一个"条件X下严格推断，却被泛泛claim为合理"的地方——研究者应追问：若 \(P(Y \mid Z, R=1, S=1) \neq P(Y \mid Z, R=1, S=0)\)，本文估计的偏倚有多大？

四、开放问题（点到为止，扎根具体语句）¶

可移植性假设的敏感性分析缺失：本文对脱落（\(\delta\)）与练习效应（\(\gamma\)）做了敏感性分析，但对最核心的识别假设——可移植性（\(P(Y \mid Z, R=1, S=1) = P(Y \mid Z, R=1, S=0)\)）——未做敏感性量化。要估什么：量化当入组与未入组个体在给定 \(Z, R=1\) 下结局分布偏离时，\(\mu_t\) 的偏倚界。扎根点：方法节3.2段陈述可移植性假设处，以及Scharfstein et al. (2021) 对MNAR的敏感性框架仅覆盖脱落、未覆盖入组选择偏差。
半参数模型的频率派大样本性质：本文的DP混合预测估计器仅有贝叶斯后验计算，无频率派一致性或效率界证明。要证什么：在辅助信息已知、可移植性成立下，该estimand \(\mu_t\) 的半参数效率界是什么？本文的贝叶斯预测估计器是否达到该界？扎根点：讨论节提到"未来可探索频率派性质"，以及intro对IPW方差大的批评暗示了效率问题。
Proximal路线对不可观测入组偏差的识别：本文假设入组偏差在给定 \(Z\) 后可消除（可移植性），但若存在未观测变量 \(U\) 同时影响入组 \(S\) 与结局 \(Y\)，该假设失效。要估什么：能否用Proximal causal inference（用代理变量 \(W, Z\) 识别未观测 \(U\) 的效应）在可移植性失效时仍识别 \(\mu_t\)？扎根点：intro完全未引Proximal文献，但因果推断longitudinal方向的近期进展（Tchetgen Tchetgen et al. 2020）正是处理此类不可观测混杂。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

A Bayesian semiparametric approach for inference on the population partly conditional mean from longitudinal data with dropout¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论