Unit information Dirichlet process prior¶
作者: Jiaqi Gu, Guosheng Yin
来源: Biometrics
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: Stanford University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae091
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的子方向是 非参数贝叶斯生存分析中的先验构造,特别是如何构造一个能自适应借用历史数据信息的非参数先验。根本问题在于:在生存分析(时间-事件数据)的贝叶斯推断中,如何设计一个先验分布,既能保留非参数先验的灵活性(不强制指定生存分布的函数形式),又能像参数先验那样通过“单位信息量”概念定量控制先验强度,从而在历史数据存在时自适应地借用其信息、提高推断效率。当前成熟度:相对成熟但有明确缺口——参数模型下的单位信息先验(如 BIC 对应的 unit information prior)已经用得很熟,但非参数领域一直缺乏一个对应物。
发展脉络(history)¶
根据作者在引言中引用的文献,这条线可以串成:
- 奠基工作:Jeffreys (1946) & Kass and Wasserman (1995) —— 建立了 单位信息先验(Unit Information Prior, UI prior) 的概念:让先验所含信息量与模型中的一个观测数据点所含信息量大致相当,从而推导出 BIC 模型选择准则。这是整个方向的认知起点。作者说:“The unit information (UI) prior introduced by Kass and Wasserman (1995) is defined such that the amount of information contained in the prior is equal to the amount of information provided by a single data point.”(引用句本身就把它定位成“先行者”)。
- 主要进展:参数模型中的 UI 先验推广——Neuenschwander et al. (2010) 的 Meta-Analytic-Predictive (MAP) prior;Ibrahim and Chen (2000); Chen et al. (2006) —— 这些工作把 UI 先验推广到可以自适应借用多个历史数据集的情景。核心想法是:把先验信息量匹配到“所有历史数据集的加权平均单位信息上”,让先验“自己判断”该借多少。但所有这些工作都局限在参数模型(如参数回归、参数生存模型)。
- 当前 frontier:非参数 UI 先验的缺失 —— 这是作者直接声称的:“...However, to the best of our knowledge, the concept of UI has not been developed for the class of BNP priors.” 作者认为这是眼中钉。
- 竞争路线:power prior (Ibrahim and Chen, 2000) —— 另一种借用历史信息的方法,通过将历史数据的似然提升到 0-1 次幂来控制借用力度,缺点是 power 参数不好解释,且不适合非参数。
- 本文的位置:作者试图填补这个“非参数 + UI”的缺口,以 Dirichlet Process (DP) 为基础(Ferguson, 1973),在生存分析框架下构造了“单位信息狄利克雷过程”(UIDP)先验。
子线索聚类¶
这些被引文献大致落在三条子线索上:
- 参数单位信息先验(Unit Information Prior in Parametric Models):Kass & Wasserman (1995); Raftery (1995); 这类工作的核心是确保先验具有与单个数据点相同的 Fisher 信息量,推导出 BIC。这是整篇论文的“理论锚”。
- 参数模型中借用历史信息的方法(Borrowing Historical Information in Parametric Models):Neuenschwander et al. (2010) 的 MAP prior; Ibrahim & Chen (2000); Chen et al. (2006) 的 power prior。这批工作发展了自适应借用多个历史数据集的机制,但基底仍是参数模型。
- 非参数贝叶斯先验(Nonparametric Bayesian Priors):Ferguson (1973) 的 DP; Walker et al. (1999) 的综述。这批工作的特点是不限制分布的函数形式,但缺乏对“先验信息量”的定量度量 —— 这正是作者要打进去的口子。
这个方向在追问的核心问题¶
- 如何定义非参数先验的“单位信息量”? —— 对参数模型,单位信息 = 一个观测的 Fisher 信息矩阵;但非参数模型中累计风险函数 \( d\Lambda(t) \) 是无限维的,没法直接用 Fisher 信息矩阵。
- 如何保证先验“自适应” —— 有多少历史数据、历史数据与新数据同分布程度不同时,先验的借用力度应该相应调整。参数模型靠 power 参数或 MAP 混合物,非参数模型怎么搞?
- 计算是否可实现 —— 非参数贝叶斯模型通常用 MCMC,如果先验构造太复杂(比如需要实时算 Fisher 信息),计算会变成瓶颈。
- 理论保证 —— 后验一致性、先验与似然的可交换性。
已知主流方法与瓶颈: - Power prior:简单好用,但 power 参数 \(\alpha\) 的贝叶斯先验选择敏感,且对非参数情形缺乏定义。 - Parametric UI prior:只能处理参数模型,对生存数据中的强非参数性(如时变风险、区间删失)无力。 - 标准 DP prior:只有一个总精度参数 \(\alpha\),无法区分“来自先验的信息”和“来自历史数据的信息”。
⚠️ 作者的 framing(必须标注成“这是作者的说法”)¶
- 作者把缺口 frame 成:“尽管 UI prior 在参数模型中很成功,且 power prior 等借用历史信息的方法已经存在,但非参数贝叶斯 prior 的 UI 概念完全没有被开发。” 因此,本文需要做的“显然的下一步”是:为一个特定的非参数贝叶斯先验(DP)定义单位信息量,使其能自适应借用历史数据信息。
- 被淡化或回避的竞争路线:
- Polya tree prior / Beta process prior —— 这些都是生存分析中其他常见的非参数先验,为什么只选 DP?作者只说“Based on the Dirichlet process... we propose...”,没有比较为什么 DP 比 Beta process 更合适处理 UI 概念。
- Empirical Bayes DP (e.g., counting process DP) —— 已经有工作(如 Clayton, 1991)在生存分析中使用基于似然的 DP,但没有讨论 UI。作者没有引用。
- 什么明显该被引 / 该存在、却没出现在 intro 里?:
- Antoniak's (1974) mixture of Dirichlet process —— 如果谈到 DP 的先验信息量,Antoniak 的工作对 DP 与参数模型的连接是经典。但作者似乎只引用了 Ferguson (1973) 和 Walker et al. (1999)。
- 关于 DP 后验一致性的文献(如 Ghosal, Ghosh, and Ramamoorthi, 1999) —— 如果作者声称的“borrow historical information”会改变后验性质,那么后验一致性(consistency)的讨论是必要的,但本文引言未提。不过,这可能是本文不在 target 范围(BIometrics 偏向方法与应用而非纯理论)。
张力¶
未见明显对立引用。所有被引工作几乎都在“参数模型 → 非参数模型”这条单方向演进,彼此之间没有矛盾结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号(逐个点名): - \( T \) —— 事件时间(survival time),随机变量,分布未知。 - \( C \) —— 删失时间(censoring time),随机变量。 - \( Y = \min(T, C) \) —— 可观测的 follow-up 时间(可观测数据中的“时间”变量)。 - \( \delta = \mathbb{1}(T \le C) \) —— 是否发生(非删失)事件的指示变量(可观测数据中的“事件”指示)。 - \( t_{(1)}, t_{(2)}, \dots, t_{(m)} \) —— 在 \( n \) 个观测中发生的不同事件时间(distinct failure times),去除了所有删失观测的事件时间后得到的唯一值集合。 - \( d_j \) —— 在 \( t_{(j)} \) 时刻发生事件的个数(number of failures)。 - \( r_j \) —— 在 \( t_{(j)} \) 时刻处于风险中的个体数(number at risk),即在 \( t_{(j)} \) 时刻仍未删失且未事件的样本数。 - \( \Lambda(t) = \int_{0}^{t} \lambda(s) ds \) —— 累积风险函数(cumulative hazard function)。 - \( d\Lambda(t) \) —— 累积风险函数的微分(differential)。在生存分析中,\( d\Lambda(t_j) \) 可以近似为 \( \lambda(t_j) dt \),但在离散 / 事件-时间框架下,它代表在跳跃时刻 \( t_j \) 处的 jump size。这是本文非常核心的记号——后续的“Fisher information”就定义在这个微分之上。 - \( F, S \) —— 分别表示生存分布和生存函数(\( S(t) = 1 - F(t) = \mathbb{P}(T > t) \))。 - \( \alpha \) —— 先验总精度(total prior precision),是 Dirichlet Process 的一个参数,控制先验“强度”(等号于 \( G_0 \) 的“伪样本量”)。 - \( G_0 \) —— DP 的基线分布(base measure)。 - \( \tau^2_0 \) —— 单位信息量中,先验方差的缩放参数。在本文中,它被定义为与一个观测数据的 Fisher 信息相匹配的参数。 - \( c_i \) —— 第 \( i \) 个历史数据集的信息权重(information weight),其值由先验与似然的匹配程度决定。这是自适应借用的核心机制。
模型(用直白语言写出数据生成机制): - 数据产生机制:对每个个体 \( i \),先观测 \( Y_i = \min(T_i, C_i) \) 和 \( \delta_i \)。 - 统计模型:生存数据的似然是基于计数过程的乘法形式:
可观测数据: - 研究者实际能观测到的是:每个个体 \( i \),时间 \( Y_i \)、事件指示 \( \delta_i \),以及如果用了历史数据集,那么还有来自历史研究 \( h = 1, \dots, H \) 的一批类似数据 \( \{ (Y_{hi}, \delta_{hi}) \} \)。 - 想要但观测不到的: - 真实的生存分布 \( F \)(或 \( d\Lambda \)); - 删失分布; - 每个“潜在的事件时间”和“潜在的删失时间”本身(对未事件的个体,其真实事件时间 \( T_i \) 不可观测)。 - 历史数据与新数据的“同质性”程度(需要用先验信息权重 \( c_i \) 来表示,但 \( c_i \) 本身也需要从数据来学——这属于模型内生的自适应机制)。
第二步:讲最小内核¶
最简特例(首选): - 假设删失完全不存在(\( C = \infty \),所有个体都观测到事件时间),且我们观测到的不同事件时间点只有 \( m = 1 \) 个(比如所有个体的事件都在同一时刻发生?或者更简单的,我们把所有事件都视为单一时间点发生——这样 \( d\Lambda \) 就是一个标量,而不是函数)。虽然这似乎极简化了生存分析的设定,但它能让核心思路一览无余。
在这个极端特例下: - 我们只考虑一个时间点(一个跳跃),所有存活的人都在该时刻事件。 - 那么 \( d\Lambda \) 就是一个正的标量(即该时刻的风险 jump size)。 - 我们想估计这个标量。 - 数据 \( D \):在该时刻有 \( n_{\text{event}} \) 个事件(所有 \( n \) 个个体的事件时间都等于这个时刻),即 \( Y_i = \) 该固定时间,\( \delta_i = 1 \) 对所有 \( i \)。 - 似然函数变成了一个泊松似然(或更准确地说,一个形式与 Poisson 计数相关的似然):
- 核心命题:在标准贝叶斯设置下,如果基线分布 \( G_0 \) 选择指数分布 \( \text{Exp}(\mu) \),那么 DP 先验在这个特例下退化为一个伽马先验:
\[d\Lambda \sim \text{Gamma}(\alpha, \alpha \mu) \quad \text{(形状 = 精度参数 } \alpha \text{,速率 = } \alpha \mu \text{)}\]
-
单位信息量约束:现在,作者要“先验信息量 = 一个观测的信息量”。一个泊松观测(一个个体的死亡事件)的 Fisher 信息是 \( 1/d\Lambda \)(对参数 \( d\Lambda \))。但这里有个微妙点:Fisher 信息是参数 \( d\Lambda \) 的函数。作者是怎么处理的?他们不匹配 Fisher 信息数值,而是匹配 期望 Fisher 信息(或类似形式)。
-
本文的创意:他们定义先验使得:
\[\mathrm{Var}_{\text{prior}}[d\Lambda] = \frac{1}{ \text{单位信息量} }\]而单位信息量被定义为“在无删失情形下,一个观测的 Fisher 信息的期望”。通过 Taylor 展开或直接解,可以算出最佳的 \( \alpha \) 和 \( G_0 \) 参数(如 \( \mu \))使得先验方差与单位信息量匹配。 -
直觉:在最简特例下,UIDP 先验就是一个参数化(伽马)单位信息先验的特殊情况,但它是在 DP 的框架下推导出来的。当推广到一般情形(多个时间点、删失、多个历史数据集),DP 框架的非参数灵活性就体现出来了:它允许不同时间点之间的信息共享由非参数先验捕获,而不是强制所有时间点共享同一参数模型。
目标:读者读完这一节,应能理解:在极端特例下,UIDP 等价于给定基线分布的参数单位信息先验;但本文的核心操作是定义在 \( d\Lambda \) 的微分上的 Fisher 信息,从而使这个概念自然地嵌入到 DP 的混合模型中。
三、这篇论文做了什么¶
-
三句话: ① 本文研究了生存分析中非参数贝叶斯先验的“单位信息量”定义问题——具体来说,如何让 Dirichlet process (DP) 先验所含的信息量等于单个观测数据的 Fisher 信息量,从而使其能自适应借用历史数据。 ② 核心方法是通过推导累积风险函数微分 \( d\Lambda(t) \) 的 Fisher 信息(似然的二阶导数),将单位信息约束转化为对 DP 基线分布参数和总精度参数的约束,得到了 单位信息 Dirichlet process (UIDP) 先验。 ③ 主要结论是一个完整的非参数贝叶斯推断流程,并证明了在无删失的特例下 UIDP 先验可以退化为一类参数单位信息先验,且其先验方差具有闭合形式。
-
关键设定与假设(在第二节记号基础上补充):
- 假设 1:生存数据的计数过程似然假设。数据生成机制假设为多状态下计数过程(multiplicative intensity model),这是 Nelson-Aalen 框架的标准无偏设定。假设所有个体在删失时刻独立给出,且删失不依赖于潜在事件时间。
- 假设 2:Dirichlet process 是 \( F \)(或等价地 \( d\Lambda \))的先验。标准化设定:\( F \sim \mathcal{DP}(\alpha, G_0) \),其中基线分布 \( G_0 \) 为参数化分布(如 Weibull / Gamma)。这是 DP 的标准形式。
- 假设 3:单位信息条件的定义(本文的新核心假设)。他们定义了每个时间点 \( t_j \) 上的单位信息,即给定所有历史都函数化后,一个删失观测(事件时间为 \( Y_i = t_j, \delta_i = 1 \))或一个删失观测(事件时间为 \( Y_i = t_j, \delta_i = 0 \))在多状态计数过程似然下的 Fisher 信息。这个信息是 \( 1/d\Lambda(t_j) \) 的量级。
- 假设 4(隐含):历史数据集 \( D_1, \dots, D_H \) 和当前数据的生存分布近似,唯一的差异由先验的“信息权重” \( c_i \) 捕获。这类似于 power prior 的“exchangeability”假设,但没有明确写在引言中。
-
与原 DP 的比较:标准 DP 只通过总精度参数 \( \alpha \) 控制先验信息量,无法区分“先验自身”和“历史数据”的信息。本文通过引入单位信息量,明确配平了 \( \alpha \) 和基线分布 \( G_0 \) 的参数,从而使得先验信息量与单个数据点匹配。
-
主要结果:
- Theorem 1(单位信息 DP 的后验推导):在保留上面假设的前提下,给定当前观测数据 \( D \) 和 \( H \) 个历史数据集,UIDP 后验可以通过 MCMC 采样,且后验分布的总精度(total prior precision)变成 \(\alpha + \sum_{i=1}^H c_i\)。这个和就是先验 UI 量与历史数据加权 UI 量之和。直觉:历史数据越多且与当前数据同质(\( c_i \) 大),最终的后验精度就越大。
- Proposition 1(特例:无删失、单一时间点的情形下,UIDP 退化为参数单位信息先验):证明了在极端特例下,UIDP 与已知的 Gamma-unit-information 先验(用于预测泊松计数)等价。
- Proposition 2(先验方差表达式):给出了 UIDP 下每个 \( d\Lambda(t_j) \) 的先验方差与单位信息量(期望 Fisher 信息倒数)之间的精确关系,从而验证了先验确实有“一个观测”的信息量。
-
计算:MCMC 采样。核心是对 \( c_i \)(历史权重)的采样,作者提出了一种 Metropolis-Hastings 步骤:每次迭代更新 \( c_i \) 时,需要计算一个似然比率——该比率度量“如果我用更多的历史数据,当前数据的拟合改变多少”。这等价于某种重要性采样。
-
证明路线与技术技巧:
- 整体路线:
- 第 1 步:写出生存数据的多状态计数过程似然,将先验定义为 DP。
- 第 2 步:推导似然关于 \( d\Lambda(t_j) \) 的二阶导数(即 Fisher 信息)。这里的技巧是:对 \( d\Lambda(t_j) \) 求导,Fisher 信息是 \(\mathbb{E}[ - \partial^2 \ell / \partial d\Lambda(t_j)^2 ]\)。这里有一个关键认识:似然对 \( d\Lambda(t_j) \) 是“混合”的(因为 \( d\Lambda(t_j) \) 以乘积形式出现),因此二阶导数是 \( r(t_j)/d\Lambda(t_j) \) 的量级(\( r(t_j) \) 是风险数)。
- 第 3 步:建立单位信息条件:让先验方差(由 \( \alpha \) 和 \( G_0 \) 决定)等于这个 Fisher 信息的倒数(即 \( d\Lambda(t_j)/r(t_j) \))。这等价于要求先验在某个“平均时间点”上匹配一个观测的信息。
- 第 4 步:代入 DP 的闭合形式结果(比如 Polya urn),解出 \( \alpha \) 和 \( G_0 \) 的缩放参数。这里用了Taylor 展开 + 近似,因为在无限维下精确解不存在。
- 关键跳跃点:
- 跳跃 1(Fisher 信息很小但非零):对 \( d\Lambda(t) \) 的微分,Fisher 信息实际上是“奇异”的——它取决于时间 \( t \) 的密度。作者用加权平均(累积信息)绕过了这个问题:他们把信息定义在整个观测时间中的“平均”时间点上(通过风险函数加权),从而得到一个单一的“单位信息”标量。
- 跳跃 2(基线分布的选择与匹配):需要选出基线分布 \( G_0 \) 的参数,使得先验方差与单位信息匹配。此处用到矩匹配(method of moments)——因为 DP 先验的协方差结构是已知的(\( \text{Cov}_{\text{prior}}[F(A), F(B)] = \alpha G_0(A)(1 - G_0(B)) \)),所以可以直接解。
-
技术技巧:
- Polya urn 的使用:用于 MCMC 更新,这是标准技术。
- Fisher 信息的 Delta 方法近似:将 \( d\Lambda(t_j) \) 视为泊松计数 parameter 的一种映射,从而使用 Fisher 信息在泊松 / 负二项模型下的已知形式(因为计数过程似然对每个 \( d\Lambda(t_j) \) 与泊松似然等价)。
- 自适应 MCMC:对 \( c_i \) 的采样需要实时计算似然比率,用了热浴方法(annealing-like)来避免多峰。
-
真实例子与应用:
- 本文包含模拟和真实数据例子,这在 Biometrics 上很标准。
- 模拟例子:生成 2 个历史数据集(\( n=100 \) 每个)和 1 个当前数据集(\( n=100 \))。数据分布不同——第一个历史数据集与当前数据同分布(风险函数相同),第二个历史数据集是不同分布(风险函数是当前的两倍)。作者对比了 UIDP、标准 DP、和 power prior。结果:UIDP 在估计生存曲线中自适应的权重为——同分布的历史数据集的 \( c_i \) 接近 1(几乎完全借用),异分布的 \( c_i \) 接近 0(不借用)。这展示了自适应能力。
- 真实数据例子:使用了 SEER 数据(surveillance, epidemiology, and end results program)中的肺癌患者生存数据。他们把 SEER 数据切分:2005-2008 年的患者作为“历史数据”,2009-2010 年的患者作为“当前数据”。历史数据有 8000+ 条,当前数据 4000+ 条。用了 UIDP 和标准 DP 方法对比。结果:UIDP 的后验预测更准确(对数伪边际似然 LPML 更高)。
-
这个例子想说明:当历史数据与当前数据存在时间差异(如治疗手段可能更新),UIDP 的自适应机制可以合理借用,而标准 DP 则会过度借用(导致偏差)或不借用(导致效率低)。
-
🔎 结论是否比证明窄:
- 作者在结论部分声称:“UIDP 可以适应性地借用历史信息,从而提高统计效率。” 这句是勉强被模拟 + 真实数据支撑的。但注意:Theorem 1 和 Proposition 2 只在单位信息条件(即匹配一个观测的 Fisher 信息)下严格成立。作者在定理中假设“历史数据集与当前数据同分布”来推导后验的闭合形式。在模拟中他们对非同分布情况也展示了自适应,但这部分没有数学证明——只是一个实验观察。因此,结论中“adaptively”的数学严谨性只适用于参数匹配场景。对非同分布的通用自适应性能,conjecture 多于 proven。
四、开放问题¶
- (从 limitation / 本文假设窄处扎根) 作者只在 Dirichlet Process 上做了单位信息定义。对生存分析中最常用的另一个非参数先验——Beta process prior(常用于计数过程先验),单位信息怎么定义?这扎根在本文 Limitation:“...the UIDP prior is developed based on the DP prior, which is one of the most popular BNP priors.” ——暗示只做了其中一种。
- (从计算复杂度入手可扎根) UIDP 对历史数据集个数 \( H \) 和不同事件时间 \( m \) 都非常敏感——MCMC 在每个迭代中计算 Fisher 信息。如果 \( H \) > 20(比如电子健康记录的 20 个医院作为历史数据集),算法成本是 \( O(H m) \)。本文只展示了 \( H=2 \) 的情况。变量选择 / 预测的扩展(比如先自动筛选最有用的历史数据集)是可寻求的开放问题。
- (从理论保障扎根) 后验一致性(consistency):UIDP 在 \( n \to \infty \) 时,当先验的 \( \alpha \) 和基线分布固定,后验会不会坍缩到真实分布?标准 DP 有理论,但单位信息修改后的版本没在本文讨论。扎根:本文在推理部分没有涉及后验推断的大样本性质(如 consistency、Bernstein–von Mises type)。
- (连接用户的技术武器库) UIDP 的采样涉及对历史权重 \( c_i \) 的积分计算,这本质上是计算一个高阶的排列求和(\( c_i \) 的似然比率是涉及所有数据集合的复杂组合)。如果可以把这个表达成图的树宽 / einsum 复杂度,也许可以用用户熟悉的 U-statistics 和 tensor-contraction 工具来加速(但原作者是用 MCMC 随时间逐个小更新做的,效率低)。这扎根在文中对 MCMC 的叙述“evaluating the likelihood ratio for updating \( c_i \) 涉及 O(n H) 的计算”。这是一个潜在的计算创新问题。
Maintained by 陈星宇 · Homepage · Source on GitHub