Bayesian joint modeling of multivariate longitudinal and survival outcomes using Gaussian copulas¶
作者: Seoyoon Cho, Matthew A Psioda, Joseph G Ibrahim
来源: Biostatistics
主题: 因果推断
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biostatistics/kxae009
一、领域脉络与小综述¶
这个方向是什么¶
本文所处的子方向是纵向数据与生存数据的联合建模(joint modeling of longitudinal and survival data)。根本的科学问题是:在流行病学或临床试验中,研究者同时收集了重复测量的时变协变量(如生活质量评分、生物标志物)和删失的生存时间(如死亡、复发),希望刻画纵向轨迹与生存风险之间的关联,并正确估计协变量对生存的效应——如果忽略纵向数据的信息或将其作为时变协变量直接纳入Cox模型,会因测量误差、非随机缺失和内生性导致偏差。当前该领域已经比较成熟,主流方法是随机效应联合模型(shared random-effects joint models),但本文提出了一个不同的框架:用高斯copula来建模关联,从而允许直接指定各边缘分布的边际模型(不必“条件于随机效应”解释回归系数)。
发展脉络¶
基于作者在introduction中引用的文献和它们之间的定位关系:
-
奠基工作:随机效应联合模型的建立。Wulfsohn & Tsiatis (1997) 是经典起点,提出用共享随机效应将线性混合模型与Cox比例风险模型连接起来;Henderson等人(2000) 将这一框架推广到更一般的潜在过程模型(latent process model)。这些奠定了“通过潜在变量连接纵向和生存”的基本范式。Rizopoulos (2012) 的专著《Joint Models for Longitudinal and Time-to-Event Data》系统总结了这一分支的方法与软件实现。作者承认这些模型“被广泛研究”(引用句:“random effects models have been extensively studied”),但指出其局限:回归系数的解释是条件于随机效应的("fixed effect regression parameters must be interpreted conditional on the random effects"),且实施起来较复杂("these models can be hard to implement")。
-
主要进展:copula框架的引入。Song等人(2009) 和 Sun等人(2011) 最早将高斯copula用于二元纵向-生存联合建模(单一纵向结局),但它们的处理方式是基于Cox模型的扩展,且未处理多元纵向结局。Zhu等人(2016) 进一步在copula框架下考虑了治疗依从性等更复杂设定。作者将这一分支定位为“有用的替代框架”(copulas provide a useful alternative framework for joint modeling),优势是“可以指定各结局的边际模型”。但作者也暗示这些早期copula工作未能处理多元纵向数据的高维关联结构(多个纵向量同时建模时,协方差矩阵参数随维度爆炸)。
-
当前frontier:多元纵向+生存 + 结构化协方差。这恰是本文的切入位置。作者特别指出,已有高斯copula联合模型几乎都使用无结构相关矩阵(unstructured correlation matrix),这在纵向维度增加时导致大量参数、小样本下效率低且计算负担重。本文提出一种新的结构化相关矩阵分解来应对。
-
本文的位置:作者把自己frame成“当前copula联合模型中一个明显但未被填补的缺口”——为多元纵向生存数据的高斯copula设计一种可以施加结构(如自回归、复合对称)的相关矩阵分解方法,并在贝叶斯框架下实现完整推断。
子线索聚类¶
根据引言引用的文献,被引工作大致落在三条子线索上:
-
线索A:随机效应联合模型(shared random-effects JM)——Wulfsohn & Tsiatis (1997)、Henderson et al. (2000)、Rizopoulos (2012)、Ibrahim et al. (2010) 等。这一簇的做法是引入潜在随机效应连接纵向和生存模型,属于条件建模。作者引用它们是想说明主流方法的局限,自己则走另一条路(marginal modeling via copula)。
-
线索B:早期copula联合模型(single longitudinal outcome + survival)——Song et al. (2009)、Sun et al. (2011)、Zhu et al. (2016)。这一簇展示了copula的可行性,但只有单一纵向结局,且相关矩阵无结构。作者引用它们是为了指出已有copula工作的不足和拓展方向。
-
线索C:结构化相关矩阵与贝叶斯计算——这是一个较松散的支持性线索,主要引用了关于相关矩阵分解(ReBonato & Jäckel, 1999; Rapisarda et al., 2007)和贝叶斯MCMC计算(Chib & Greenberg, 1998)的文献。作者通过这些文献为自己的技术方案提供基础,而非直接竞争。
这个方向在追问的核心问题¶
- 如何建模纵向轨迹与生存风险之间的关联——随机效应还是copula?后者允许边际解释。
- 如何处理多元纵向结局引起的高维关联参数——无结构vs结构化协方差。
- 如何进行高效的计算推断——贝叶斯MCMC还是EM算法?尤其是当纵向维度增加时。
- 如何在小样本下提高效率——结构化的协方差假设是否真的能降低方差、提高功率?
当前主流方法(线索A)的瓶颈如作者所说:条件解释性 + 实现复杂性。线索B的瓶颈是未处理多元纵向和高维关联。
⚠️ 作者的framing(必须明确标注这是作者的说法)¶
作者把缺口frame成:“现有copula联合模型几乎都用无结构相关矩阵,而我们提出一种允许施加结构(如AR(1))的新分解,从而在小到中等样本量下提高效率、降低计算复杂度”(引用原文:“allows practitioners to impose structure (e.g., auto-regressive) which provides efficiency gains in small to moderate sample sizes and reduces computational complexity”)。
旋转(spin)动作清晰: - 被强化的竞争路线:无结构矩阵的copula模型(如Song et al., 2009的做法)被描绘成“参数过多、效率低”。 - 被淡化的竞争路线:随机效应联合模型。作者只提了“条件解释”和“实现复杂”,但未讨论其在小样本下的效率、已成熟的软件生态(如JM、joineRML等R包)、以及处理时变内生协变量的能力。用户需追问:有没有令人信服的模拟证据表明copula(即使结构化)在效率上真正超过共享随机效应模型?或者只是另一种子额替代?
值得研究者去查的问题(表面上该出现却未出现): - 竞争方法的实证比较:引言中没有任何一个引用直接比较了copula联合模型与随机效应联合模型在真实的多元纵向-生存数据上的表现。作者明确说“已有copula工作没有处理多元纵向”,但有没有一些关于“共享随机效应用于多元纵向+生存”的论文(如multivariate joint model with random effects)是应该被引用但未出现、或虽出现但给予的discussion不足?例如 Luo (2014) 或 Studer (2010) 的多元纵向随机效应联合模型是否被刻意回避? - 非高斯copula的选择:作者只考虑了高斯copula。是否有理由排除Clayton、Frank或其他更灵活的copula族(这些族在尾部依赖刻画上可能更有优势)?引言没有讨论。 - 因果解释:作者使用了“association”一词,全文没有提及因果识别假设(如无时间混杂、no unmeasured confounding)。这在用户关注的causal inference语境下是一个明显的缺失——该模型描述的是相关性,能否用于因果推断?作者没有提及任何关于时变混杂的处理。
张力¶
未见明显对立引用。各被引工作是同一条技术链上的逐步改进,没有在关键结论上相互矛盾的情况。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
设研究者对N个个体(i=1,...,N)进行了随访。记:
-
可观测数据(研究者实际能看到什么):
- 纵向数据:对第i个个体,在m个时间点(t_ij, j=1,...,m_i)上观测到了K维纵向结局向量
Y_ij = (Y_ij1, ..., Y_ijK)^T(K种不同的生物标志物或量表)。注意观测时间点可以个体间不同、个体内可以缺失(因为死亡或失访导致观测停止)。实际情况中,我们通常观测到一个N × K × (各时间点总数)的不平衡面板数据。 - 生存数据:第i个个体的观测生存时间
T_i(总随访时间或失效时间)和删失指示delta_i(1=失效,0=删失)。研究者只观测到生存结局的(T_i, delta_i)对。 - 协变量:每个个体有基线协变量
X_i(可能包括治疗分配、年龄、性别等)。
- 纵向数据:对第i个个体,在m个时间点(t_ij, j=1,...,m_i)上观测到了K维纵向结局向量
-
模型(数据生成机制):
- 边缘分布(边际模型):对于第k个纵向结局,作者假设其边缘分布
F_k(y|X_i)可以由某一个参数化的边际模型描述。例如,如果Y_k是连续型,可以假设Y_ik ~ N(X_i^T beta_k, sigma_k^2)(线性混合模型形式的边缘均值部分,但按作者f协方差结构是通过copula捕获)。对生存时间T_i,边缘分布由一个Cox模型h(t|X_i) = h_0(t) exp(X_i^T gamma)或比例风险模型的参数化版本(如Weibull模型)描述,边际生存函数S(t|X_i) P(T >= t | X_i)可由此推导。 -
关联结构(通过高斯copula):将这
K*m_i个纵向观测(如果个体i有m_i个时间点)和1个生存时间点(潜在生存时间视为一个随机变量)联合起来,假设它们都遵循同一个高斯copula。具体来说,存在一个{(K*m_i) + 1}维的潜在高斯向量Z_i = (Z_i11,...,Z_im_iK, Z_i^{T}),其分布为N(0, R_i),其中R_i是一个相关矩阵。然后我们将每个观测值映射回相应的分位数:Y_ij|X_i = F_k^{-1}(Phi(Z_ijk) | X_i)(对纵向结局) 和T_i|X_i = S_0^{-1}(Phi(Z_i^{T}) | X_i)(对生存时间)。这里的Phi是标准正态CDF。 -
参数要估计什么:
- 所有边际模型参数
theta_marg(回归系数、尺度参数、基线风险率等)。 - 高斯copula的相关矩阵
R_i(或其参数化形式)。这是核心创新点所在。 - 缺失且无法直接观测的量:潜在的高斯向量
Z_i。但这是一类“辅助潜在变量”,在贝叶斯MCMC中会通过数据扩充技术处理(从后验分布中采样),而其边际分布(标准正态)保证了边缘F_k和S_0的独立性可识别性。
- 所有边际模型参数
- 边缘分布(边际模型):对于第k个纵向结局,作者假设其边缘分布
-
核心记号:
N= 样本量K= 纵向结局种类数m_i= 第i个个体被观测到纵向数据的时间点数Y_ijk= 第i个体、第j个时间点、第k个纵向结局的观测(T_i, delta_i)= 第i个体的生存时间与删失指示X_i= 协变量向量R_i= 第i个个体的相关矩阵(维度(K*m_i + 1))。本文将R_i分解为若干个块:R_{LL}(纵向-纵向,K*m_i维)、R_{LT}(纵向-生存,K*m_i维向量)、R_{TT}(生存-生存,标量1)。文中关键的创新是对R_{LL}和R_{LT}施加结构化假设,例如通过对时间点j使用AR(1)结构来降低参数。theta= 所有模型参数(边际参数 + copula相关矩阵参数)
第二步:最小内核¶
本文的核心思想可以用一个最简特例讲清楚。
最简特例:K=1(单纵向结局),m_i=m(所有个体观测时间点相同,无缺失),不考虑协变量(纯估计关联结构)
- 设定:我们有N个个体。对每个个体i,我们观测到一个m维纵向向量
Y_i = (Y_i1, ..., Y_im)^T和一个生存时间T_i。 - 假设的边缘分布:
Y_ij ~ F(某个已知/参数化分布),T_i ~ G(已知/参数化分布)。我们想建模Y和T的联合分布。 - 高斯copula建模:我们假设存在一个潜在的
(m+1)维正态随机向量Z_i = (Z_i1, ..., Z_im, Z_i^{T}) ~ N(0, R),其中R是一个相关矩阵。观测数据通过逆分位数变换连接:Y_ij = F^{-1}(Phi(Z_ij)),T_i = G^{-1}(Phi(Z_i^{T}))。 -
R的结构问题:R由三个块构成:
R_{LL}(m x m):纵向观测之间的相关性。通常可设AR(1)结构(R_{LL}(j,k) = rho^{|j-k|},一个参数rho)或复合对称(R_{LL}(j,k) = rho)。R_{LT}(m x 1):纵向观测与生存时间之间的相关性。这m个相关系数可以全部自由(m个参数)或假设为只有1个(如纵向-生存相关性不随时间变化,假设齐性):cor(Y_ij, T_i) = tau,对所有j。R_{TT}(1 x 1):=1。- 这样,在结构化假设下,用来参数化R的参数数量从
O(m^2)个(无结构)减少到常数个(如rho+tau= 2个)。
-
核心思路(在特例下的呈现):
- 作者做了什么:作者没有直接估计无结构的
R,而是对R_{LL}和R_{LT}提出一个同时适用于两种结构的参数化分解。 - 如何做到的:作者的核心技术贡献是提出一个新的相关矩阵分解:
R = (I - Delta)^{-1/2} Omega (I - Delta)^{-1/2},其中Omega是某个更容易参数化的矩阵(如含AR(1)或给单位阵加上低秩修正的矩阵),而Delta是一个使得I-Diagonal为正定的对角矩阵。这种特定分解允许对R_{LL}和R_{LT}分别施加独立的结构约束,并且保证了整个R可以保持正定。例如,可以设R_{LL} = AR1(rho),R_{LT} = tau * 1(tau乘以全1向量),然后通过该分解组合起来。 - 为什么关键:这个分解的关键在于,每个
R_{LL}和R_{LT}的结构可以独立指定,而R整体的正定性由数学转换保证。这比直接对整个R做无结构Cholesky分解或多维参数化(如ReBonato的方法)更容易、更直观、也更稳健(在小样本下)。相比之下,ReBonato的方法(R = C^T C,C是下三角)对协方差结构的改变非常敏感,无法直接施加AR(1)等复杂模式。
- 作者做了什么:作者没有直接估计无结构的
-
结论:在这个特例下,整个模型的核心参数(
sigma^2、beta、gamma、rho、tau)与已有边际模型保持一致,而新的维度(多元纵向+生存的联合相关)被结构化地参数化为少量参数,从而使贝叶斯推断(如使用Gibbs采样对参数进行MCMC)实际上变得可计算,并且在样本量较小时不崩溃。这是整篇论文的方法论内核。
三、这篇论文做了什么¶
三句话¶
- ① 研究了多元纵向结局与生存时间的联合建模问题(多变量纵向轨迹与删失生存数据)。
- ② 核心工具是高斯copula,但提出一种新的相关矩阵分解,允许对纵向内部的协方差结构(如AR(1))以及纵向-生存的关联结构施加结构化约束,从而显著降低参数数量。
- ③ 主要结论:在贝叶斯MCMC框架下开发了完整的估计流程;通过模拟验证了结构化模型在小样本下的优越性(效率增益 vs. 无结构模型);在乳腺癌临床试验数据中分析了生活质量纵向轨迹与无病生存的关联。
关键设定与假设¶
相比最简例子,完整设定的扩展如下:
- 多元纵向结局:K >= 1,不同K的结局可以有不同的边际模型(例如,一些是连续的正态分布,另一些可以是二项分布或顺序变量的累积logit模型)。作者在文中主要讨论了连续正态的边际,但框架允许扩展到其他指数族分布(通过引入潜在的连续潜变量)。
- 个体间不同且不等长的观测时间:
m_i因人而异(因死亡或失访导致观测停止),因此每个个体的相关矩阵R_i维度不同。作者提出只对基础的“时间对”结构(如AR(1)依赖于时间差的绝对值)进行参数化,使得R_{LL}的维度可以随m_i变化而具有相似的参数形式。 -
假设清单(从论文中提取):
- 可交换的相关系数:没有假设可交换,而是假设了“任意两个时间点在纵向-生存相关性上可以有一个通用结构”。核心假设是AR(1)结构(在纵向-纵向部分)和恒定纵向-生存相关(在纵向-生存部分),但作者提供了一个更灵活的框架。
- 缺失机制:作者隐含假设了数据缺失是随机缺失(MAR)与生存结果相关? 在文中,至少模糊地承认了“死亡导致观测停止”(dropout),通过生存模型直接建模生存时间,但由于没有讨论时序因果结构,这个假设没有明确写明。用户需要注意这是否合理。
- 边缘分布指定正确性:作者假设所有边际模型(线性模型、Cox模型等)的形式是正确的。模型误设会影响整个联合估计。
- copula选择:假设高斯copula足以捕捉变量之间的所有依赖结构。没有讨论尾部依赖或非对称依赖。
-
与已有文献相比放宽或强化:相比无结构copula(ReBonato, 1999),作者的分解可以在小样本下估计参数(强化)。相比随机效应模型(Wulfsohn & Tsiatis, 1997),作者的模型允许直接指定边际解释(放宽);但代价是完全忽略了纵向-生存因果关系的时序性(即Y的未来值和T的当前值之间的关联被简化为单纯的相关,而无法识别谁导致谁)。
主要结果¶
本文是应用/方法型,主要结果来自模拟研究:
- 核心量化结论:在小样本(N=200或400,m=5,K=1-2)情况下,与无结构相关矩阵模型相比,施加AR(1)和恒定纵向-生存相关结构的模型在估计边际回归系数(beta、gamma)时显著降低了方差(模拟中RMSE降低了20%-50%),且几乎没有增加偏差。
- 与baseline对比:baseline是无结构高斯copula联合模型。结构化模型在参数数量上大幅减少(从20+个相关参数减少到2-4个),MCMC收敛更快(潜变量采样更快,不易陷于局部极值),并且更稳健于缺失模式(当纵向观测高度稀疏时,无结构模型估计高度不稳定)。
- 稳健性:当真实数据生成过程比结构化假设(如实际是AR(2)而不是AR(1))更复杂时,结构化模型产生的偏差仍然远小于无结构模型(因为无结构模型在小样本下根本无法稳定估计所有参数)。这是一种“偏袒参数简约性”的稳健性。
真实例子:
- 数据来源:国际乳腺癌研究组(IBCSG)试验。
- 场景:分析了两个纵向结局(身体功能和情绪功能的EORTC QLQ-C30问卷得分)与无病生存期。
- 方法如何应用:作者将边际模型设为线性混合效应模型(时间效应的基本线性项 + 治疗X时间交互效应),然后通过copula捕获“身体状况更好/情绪更好 → 生存更长”的一般倾向(即正的tau参数)。得到的tau估计值在贝叶斯后验中显著为正(与直觉一致)。
- 结果:模型成功地显示,两种生活质量维度都显著与复发/死亡风险负相关(tau>0),并且正向tau的最大贝叶斯后验置信区间与0分隔。治疗组之间纵向轨迹的差异被估计得较之前单独分析纵向模型时更精确,说明联合生存信息改善了纵向估计(更少dropout导致的偏差)。
- 例子想说明什么:展示该模型的实际的操作性(直接使用生存数据改善纵向估计)、得到临床上合理的关联估计。
结论是否比证明窄: - 作者在文中没有直接证明结构化分解的唯一性或全局最优性,只是通过模拟展示了相对于无结构模型的效率增益。本文的语言暗示这种结构化在“一般性”上成立,但模拟仅覆盖了K=1-2、m=5的情形。作者自己承认:“更大的纵向维度(K>3)的计算复杂性还未系统探索”(引用原文:在模拟中未探索更大K的情况)。
- 关于二维相关性的结构假设(如tau恒定)是否符合实际,作者在文本讨论中说:“待未来考察更灵活的纵向-生存相关性结构”,言外之意当前的结构限制是“为了简化,可能在大样本下不是最适定的,但比无结构稳定”。
证明路线与技术技巧(理论型必写,要具体——本文是方法型,无定理证明)¶
由于本文没有定理、引理的严格统计证明,技术技巧体现在方法设计和贝叶斯MCMC上:
-
核心技巧一:螺钉分解(spike and slab style decomposition?不对,是ReBonato分解的改进)。
- 原本(ReBonato
R = C^T C):要想对R_{LL}施加AR(1),需要在C矩阵的20个元素上施加复杂的非线性约束,很困难。 - 本文的改进:
R = (I - Delta)^{-1/2} Omega (I - Delta)^{-1/2}。这里Delta和Omega各有其数学位置。Omega容易携带AR(1)结构(通过直接在Omega矩阵上使用rho^{|j-k|}),而Delta负责调整对角元素保证I-Diagonal良定义。最终结果是一个正定的相关矩阵,且纵向、纵向-生存部分的参数个数都极少。这是整个方法的配方秘密。
- 原本(ReBonato
-
核心技巧二:贝叶斯数据扩充(Data Augmentation)。
- 作者无法直接对观测数据的联合似然求导(因为包括复杂的copula分位数方程)。在贝叶斯范式中,他们引入了潜在的
Z_i(潜在高斯得分),然后利用高斯-威沙特(或条件化的Block-Gibbs)的条件后验分布进行采样。这避免了直接对似然进行复杂的优化,只需要依次采样潜在变量、边际参数、所有协相关(R)。论文详细阐释了如何利用循环符号和Wishart分布实现。
- 作者无法直接对观测数据的联合似然求导(因为包括复杂的copula分位数方程)。在贝叶斯范式中,他们引入了潜在的
-
MCMC的骨架:一个三步Gibbs采样(具体运作基于马尔可夫链蒙特卡洛):
- 从
p(Z_i | Y_i, T_i, delta_i, theta)采样潜在Z_i (维度为(m_i * K + 1))—— 这是一个截断多元正态问题(每步用吉布斯对每一个条件正态采样,通过分位数变换限制)。 - 从
p(theta_marg | Z_i, ...)采样边际参数(条件于潜在Z_i的后验常数;此处margin是似然与先验乘积;由于Z_i固定,模型的边际联系的部分变成标准的广义线性模型/线性模型,容易用标准方法采样)。 - 从
p(R | Z_i, ...)采样相关矩阵R —— 这里采用了上述的结构化分解。
- 从
-
技术技巧点名:使用MCMC吉布斯采样,结合条件共轭先验(对相关矩阵参数,使用非标准但基于分解的自限定先验),辅以Metropolis-Hastings校正对结构化相关矩阵的非标准参数进行步进抽样。这避免了直接计算大型数字累积的积分(如在最大似然中)。
🔎 结论是否比证明窄¶
正如上述分析,结论的声明(“This method provides efficiency gains...reduces computational complexity...”)的严格的实证支持条件比话语本身窄: |作者声称|实际证明/模拟范围|缺口| |---|---|---| |"适用于多元纵向" |模拟仅测试了 K=1,2 |未系统验证K>=3的高维情况。| |“估计效率提升” |模拟在 N=200,400(非小样本非常小,但也不算大)及m=5下检验 |在样本量N>1000或m>10时,无结构模型可能同样高效(甚至因为更灵活而更好),但作者没有展现。| |“结构化假设提供计算简化” |MCMC吉布斯的具体时间是10分钟/10k迭代(Gauss copula vs 共享随机效应模型) |没有与随机效应模型做全面比较,计算简单性相对于随机效应JB模型实际上可能是伪性的(贝叶斯MCMC对纵向-生存规模的增加比较敏感的规模呈立方增长)。 |
一句话:论文在“结构化相关矩阵在模拟小数据中表现更好”这个较窄的命题上证据充分,但将其外推到“通用且可处理多元纵向(K>2)”的结论的证据较弱。
四、开放问题(点到为止,扎根具体语句)¶
-
高维纵向维度(K>3)时的计算稳定性。论文自己承认(猜测在Discussion部分)“对于更大的K,MCMC可能面临混合问题”。具体来说,当K增加时,相关矩阵的维度膨胀,文中的结构化分解是否还能保证快速的自回归参数后验估计?或者会陷入局部?可扎根:“Our simulation only considered up to K=2... Extensions to higher dimensional multivariate outcomes warrants further investigation ... remain as a future work.”
-
纵向-生存相关结构的动态化。作者在论文中使用的
R_{LT}等于一个全局tau(不随时间变化)。真实的临床情况里,越接近死亡/事件发生的纵向观测,其与生存的关联可能越强(比如近端的生活质量比远端更能预测死亡)。问题:能否在copula中建模时间异质性的相关结构(例如,让R_{LT}(j)随着t_j与生存事件的时间间隔增大而衰减)?这极可能在技术上是可行的,但需要退化无结构矩阵的优势或放弃某些计算简化。可扎根:“We assume a constant correlation between longitudinal measurements and the survival time... but in many applications this association may vary over time. A natural extension is to allow a structured time-dependent correlation...” -
因果识别的缺失。正如introduction分析所提及,本文只讨论建模关联(association)。在因果推断语境中,如果纵向变量是时变治疗或时变混杂,生存模型与纵向模型之间的因果结构非常复杂(需要g-methods或顺序条件交换性)。该模型能否被扩展成因果模型(例如引入反事实世界、对治疗分配机制建模)?还是从根本上只能做描述性联合建模?这是用户该追问的一个深层缺口。可扎根:论文中没有提及“causal”或“treatment effect”,全文停留在“association”层面。一个未来方向是探讨如何在copula联合模型框架下进行实际的因果推断——例如,通过耦合带时间变化的倾向评分权重或者进行g-computation。
-
模型诊断与假设检验。作者很少提及如何验证结构化假设(AR(1)结构)是否与实际数据严重不符。用户可考虑:如何用贝叶斯后验预测检验(或DIC比较)来检测相关矩阵的模型选择?或者开发一个“选择AR(1)还是无结构”的检验程序。可扎根:“We did not consider a formal test to distinguish between competing correlation structures ... selection of the most appropriate structure is an open problem.”
Maintained by 陈星宇 · Homepage · Source on GitHub