A Bayesian Approach for Nonignorable Dropout in Bivariate Longitudinal Models¶

作者: Andrea Gabrio, Michael J. Daniels, Gianluca Baio
主题: 因果推断
相关性: 6/10
链接: https://arxiv.org/abs/2606.25749

一、领域脉络与小综述¶

这个方向是什么¶

本文所处理的根本问题是：在临床试验中，当纵向收集的双变量结局（例如健康效用和医疗成本）因患者非随机脱落（nonignorable dropout）而缺失时，如何对干预的成本-效果进行统计推断。核心挑战在于：缺失机制不可忽略（MNAR）意味着缺失值本身携带信息，必须对缺失数据分布做出不可验证的假设；而双变量结局的引入又使得脱落模式（每个结局变量可能有不同的脱落时间）变得复杂，传统的单变量方法无法直接推广。该子方向当前处于“从单变量向多变量、从参数向非参数、从点识别向部分识别与敏感性分析”过渡的阶段。

发展脉络（history）¶

奠基工作： - Little (1992, 1994, 1995) 奠定了模式混合模型（pattern mixture model）的基础，将联合分布分解为缺失模式边际分布和给定模式下的结局条件分布，并提出了可用病例缺失值限制（available case missing value restriction, ACMV）作为MAR下的识别策略。这是本文所有识别策略的起点。 - Rubin (1987) 定义了缺失机制的分类（MCAR/MAR/MNAR）和可忽略性条件，为后续所有缺失数据处理提供了概念框架。 - Daniels and Hogan (2000, 2008) 系统化了模式混合模型中的敏感性分析框架，提出通过重参数化将不可识别部分用敏感性参数表达，并利用贝叶斯先验探索不同MNAR假设的影响。本文直接继承这一范式。

主要进展： - Wang and Daniels (2011) 严格研究了模式混合模型中MAR识别限制的存在性条件，指出当模式特定模型为多元正态时，MAR限制可能不存在，并讨论了协变量存在时的识别问题。本文的识别策略（特别是对 d_min ≠ d_max 模式的处理）直接受其启发。 - Linero and Daniels (2015) 提出了一个关键创新：使用工作模型（working model）来拟合观测数据分布，而将外推分布（extrapolation distribution）留作未识别。具体地，他们指定一个Dirichlet过程混合模型作为工作模型，通过数据增广从后验中采样，然后通过识别限制和敏感性参数来识别外推分布。本文的建模框架几乎完全沿用了这一策略，只是从单变量推广到双变量。 - Linero and Daniels (2018) 综述了识别限制在贝叶斯缺失数据处理中的作用，为本文提供了方法论上的统一视角。 - Gaskins, Daniels and Marcus (2016) 将模式混合模型推广到双变量结局（吸烟状态和体重变化），提出了一个新颖的贝叶斯收缩框架来跨模式共享信息，并利用非未来依赖假设和敏感性参数处理MNAR。本文直接引用其为“双变量响应过程在文献中很少受到关注”的证据，并试图填补卫生经济学中的这一空白。

当前frontier与本文位置： - Gabrio et al. (2020) 和 Mason et al. (2021) 提出了处理成本-效用数据复杂性的多变量参数方法，并探索了不同的缺失假设。但两者均为参数方法，对数据分布的灵活性有限。 - Oganisian et al. (2020) 使用了贝叶斯非参数方法（Enriched Dirichlet Process）建模成本-生存时间联合分布，但假设缺失机制可忽略（ignorable）。 - 本文声称自己是第一个在双变量纵向卫生经济学数据中，同时做到以下三点的：①使用贝叶斯非参数模型（Dirichlet过程混合）灵活拟合观测数据；②通过基于双变量脱落指示符的识别限制处理非可忽略缺失；③通过敏感性参数（带copula先验）系统探索MNAR假设的稳健性。

子线索聚类¶

模式混合模型与识别限制（Little, 1994, 1995; Wang and Daniels, 2011; Linero and Daniels, 2018）：这一簇关注如何通过不同的识别限制（如ACMV、NCMV等）将不可识别的外推分布与可识别的观测数据分布连接起来，并研究这些限制的存在性条件。
贝叶斯非参数缺失数据处理（Linero and Daniels, 2015; Gaskins et al., 2016; Oganisian et al., 2020）：这一簇使用Dirichlet过程混合等非参数先验来灵活建模观测数据分布，避免参数模型的误设风险，同时通过工作模型框架将外推分布留作未识别。
卫生经济学中的缺失数据处理（Gabrio et al., 2017, 2019, 2020; Mason et al., 2021; Leurent et al., 2018）：这一簇专门针对成本-效用数据的复杂性（偏态、尖峰、相关性），提出参数或半参数方法，但大多局限于可忽略缺失或单变量设定。
敏感性分析与部分识别（Daniels and Hogan, 2008; Wang and Daniels, 2011; Linero and Daniels, 2015）：这一簇关注如何通过敏感性参数量化不可验证假设对结论的影响，通常使用贝叶斯先验来整合不同假设下的推断。

这个方向在追问的核心问题¶

识别问题：在双变量纵向设定下，给定不同的脱落模式（d_min = d_max vs. d_min ≠ d_max），哪些条件分布是可识别的？需要什么样的识别限制？
效率与稳健性的权衡：非参数模型（如DPM）能更好地拟合观测数据，但代价是什么？在部分识别框架下，非参数模型是否会导致更宽的识别区间（即更大的不确定性）？
敏感性分析的维度灾难：当有多个敏感性参数（每个时间点、每种结局、每种脱落模式）时，如何有效探索参数空间？copula先验是否足够？
计算可行性：贝叶斯非参数模型 + 数据增广 + G-computation 的计算负担在多大程度上限制了实际应用？

当前主流方法与已知瓶颈：主流方法是参数模式混合模型 + 识别限制 + 敏感性分析。瓶颈在于：①参数模型对成本-效用数据的复杂分布拟合不佳；②双变量脱落模式导致识别策略复杂化；③敏感性参数数量随时间和结局维度增长，先验指定困难。

⚠️ 作者的 framing¶

作者的说法：作者将缺口frame为“在双变量纵向卫生经济学数据中，缺乏一个既能灵活拟合观测数据（非参数）、又能处理非可忽略缺失（通过识别限制和敏感性参数）的贝叶斯框架”。他们声称自己的方法是“第一个”做到这一点的。

被淡化或回避的竞争路线： - 多重插补（MI）：虽然MI在卫生经济学中很常见（Leurent et al., 2018 显示30%的研究使用MI），但作者仅在引言中提及“标准实践只使用完整数据”，并未讨论MI在非可忽略缺失下的局限性（MI通常假设MAR）。这可能是为了突出自己方法的必要性。 - 基于工具变量的方法：如Proximal causal inference，可以处理未测量混杂导致的非可忽略缺失，但本文完全未提及。这可能是因为卫生经济学数据中很难找到有效的工具变量。 - 频率学派的部分识别方法：如Manski的部分识别框架，通过边界而非贝叶斯先验来量化不确定性。作者完全采用贝叶斯视角，未与频率学派方法做比较。

什么明显该被引/该存在、却没出现在intro里？： - Molenberghs et al. (1997) 关于非随机脱落下纵向序数数据分析的工作，虽然被引用，但仅作为“结果对假设敏感”的例证，未深入讨论其识别策略与本文的异同。 - Robins (1997) 关于逆概率加权（IPW）在非可忽略缺失下的扩展（如双稳健估计），完全未被引用。这可能是因为作者专注于贝叶斯模式混合模型，而非频率学派的结构化模型。 - Tchetgen Tchetgen and Wirth (2017) 关于双变量缺失数据的识别问题，未被引用。这是一个值得研究者去查的潜在缺口。

张力¶

未见明显对立引用。所有被引工作基本沿着“模式混合模型 + 识别限制 + 敏感性分析”这一主线发展，彼此之间是渐进式改进而非矛盾。唯一的潜在张力在于：Wang and Daniels (2011) 指出MAR识别限制在多元正态模式下可能不存在，而本文的基准场景正是基于MAR限制（ACMV）。作者通过使用非参数DPM模型（而非多元正态）来规避这一问题，但并未明确讨论DPM是否总能保证MAR限制的存在性。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - i = 1, ..., N：个体索引。 - j = 1, ..., J：时间点索引（本文J=3：基线、6个月、12个月）。 - y_ij = (u_ij, c_ij)：个体i在时间j的双变量结局，其中u_ij是健康效用（范围[-0.594, 1]），c_ij是医疗成本（£）。 - u_i = (u_i1, ..., u_iJ)，c_i = (c_i1, ..., c_iJ)：个体i的效用和成本向量。 - r_ij = (r^u_ij, r^c_ij)：个体i在时间j的观测指示符，1=观测到，0=缺失。 - d^u_i 和 d^c_i：个体i的效用和成本脱落时间（最后一次观测到的时间点，取值为1,...,J）。 - d_i = (d^u_i, d^c_i)：双变量脱落指示符。 - d_min = min(d^u, d^c)，d_max = max(d^u, d^c)：最早和最晚脱落时间。 - y_r：观测到的结局（对应r=1的部分），y_¯r：缺失的结局（对应r=0的部分）。 - µ_t = (µ^e_t, µ^c_t)：治疗组t的边际平均QALYs和总成本，是最终目标量。

模型： - 联合模型：p(y, r | ω)，其中ω = (π, θ)。 - 模式混合分解：p(y, r | ω) = p(r | π) * p(y | r, θ)。 - 外推分解：p(y, r | ω) = p(y_¯r | y_r, r, θ_E) * p(y_r, r | θ_O)，其中θ_O可识别，θ_E不可识别。 - 工作模型p^*(y, r | ω)：用于拟合观测数据分布p(y_r, r | ω)，但不用于推断外推分布。本文的工作模型是Dirichlet过程混合（DPM）： - y_i ~ Normal(µ_i, Σ_i) - (µ_i, Σ_i) ~ G - G ~ DP(α, G_0) - 截断近似：y_i ~ Σ_{k=1}^K ν_k Normal(µ_k, Σ_k) - 识别限制：在基准场景下，通过可用病例缺失值限制（ACMV） 将外推分布与观测数据分布连接。例如，对于d_min = d_max = d的模式，在j > d时的条件分布被识别为所有在j及之后仍被观测的模式的混合。

可观测数据： - 可直接观测的：每个个体的治疗组指示符t_i；每个时间点j的效用u_ij和成本c_ij（但部分缺失）；每个时间点的观测指示符r_ij；由此导出的脱落时间d^u_i和d^c_i。 - 想要但观测不到的：缺失的效用和成本值（y_¯r）；外推分布p(y_¯r | y_r, r, θ_E)；敏感性参数∆_j（它们控制外推分布与基准的偏离，本身不是数据，而是模型参数）。 - 关键识别问题：外推分布p(y_¯r | y_r, r, θ_E)完全不可识别，必须通过识别限制和敏感性参数来部分识别。

第二步：讲最小内核¶

最简特例：考虑一个单变量（只有效用u）、两个时间点（J=2：基线j=1，随访j=2）、只有一种脱落模式（所有缺失都是由于在j=2之前脱落，即d_i = 1或d_i = 2）的简化版本。在这个特例下，本文的核心思路可以完全讲清楚。

记号简化： - u_i1：基线效用（完全观测）。 - u_i2：随访效用（部分缺失）。 - d_i：脱落时间（1=基线后脱落，2=完成随访）。 - 可观测数据：(u_i1, d_i)对所有i；u_i2仅对d_i=2的个体。 - 目标：估计边际平均效用µ_2 = E[u_i2]。

核心问题：由于u_i2对d_i=1的个体缺失，E[u_i2]不可识别。我们需要对缺失值做出假设。

本文的解决思路（三步）：

工作模型：指定一个灵活的模型（如DPM）来拟合可观测数据p(u_i1, u_i2 | d_i=2)和p(d_i)。注意，这里不对p(u_i2 | u_i1, d_i=1)做任何假设——它被留作未识别。
基准识别（MAR假设）：假设缺失机制可忽略（MAR），即p(u_i2 | u_i1, d_i=1) = p(u_i2 | u_i1, d_i=2)。这意味着，给定基线效用，脱落与否不提供关于随访效用的额外信息。在这个假设下，E[u_i2]被识别为： E[u_i2] = E[ E[u_i2 | u_i1, d_i=2] ]，其中外层期望对u_i1的边际分布取（该分布可从所有个体估计）。这就是可用病例缺失值限制（ACMV） 在J=2时的特例。
非可忽略偏离（敏感性分析）：放松MAR假设，引入敏感性参数∆，使得： E[u_i2 | u_i1, d_i=1] = E[u_i2 | u_i1, d_i=2] + ∆ 即，脱落者的随访效用均值比可忽略假设下的值高/低∆。∆=0对应MAR。通过为∆指定不同的先验（例如，以观测数据标准差为尺度的正态分布），可以探索不同MNAR场景下的推断。

这个最小内核揭示了本文的核心数学困难：当从单变量推广到双变量时，脱落模式从d变为(d^u, d^c)，导致识别策略需要处理d_min = d_max和d_min ≠ d_max两种情形，后者需要额外的识别步骤（先识别d_min < j ≤ d_max时的缺失，再识别j > d_max时的缺失）。此外，敏感性参数也从单个∆变为每个时间点、每种结局、每种脱落模式各一个，需要copula先验来建模其时间相关性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在临床试验的双变量纵向结局（效用和成本）存在非可忽略脱落时，如何通过贝叶斯非参数方法进行因果推断（估计各治疗组的边际平均QALYs和总成本），并系统评估不同MNAR假设对结论的敏感性。
核心工具/方法：①Dirichlet过程混合（DPM）作为工作模型，灵活拟合观测数据分布；②基于双变量脱落指示符(d_min, d_max)的识别限制（ACMV的推广），在基准场景下识别外推分布；③通过带copula先验（AR(1)结构）的敏感性参数∆_j，探索对基准的偏离。
主要结论：在PBS试验数据上，DPM的拟合优度（WAIC/LOOIC/LPML）显著优于所有参数模型（MVN、Beta-Gamma、Beta-Lognormal）；不同MNAR假设对成本-效果决策有实质性影响——MNAR场景下干预的成本-效果概率低于可忽略场景，表明结论对缺失假设敏感。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）：

数据：N=244（控制组136，干预组108），J=3个时间点。双变量结局y_ij = (u_ij, c_ij)。
脱落模式：每个个体有(d^u_i, d^c_i)，取值范围{1,2,3}^2。实际数据中观察到9种模式（表1）。
模型结构：
脱落概率：π_ti = P(D_i = (d_min, d_max) | t_i)，用Dirichlet先验（公式3），其中x是预期脱落率（设为0.3），Q是加权因子（设为10）。
结局模型：DPM截断为K=20个混合成分。每个成分内，使用GARP/IV分解和一阶马尔可夫假设（公式6-8）：
- f_k(y_i1) ~ Normal(γ_1^(k), Σ_1^(k))
- f_k(y_ij | y_i,j-1) ~ Normal(γ_j^(k) + φ_j^(k)(y_i,j-1 - γ_(j-1)^(k)), Σ_j^(k))，对j=2,3
识别限制：基准场景下，对d_min = d_max模式使用ACMV（公式9）；对d_min ≠ d_max模式使用两步识别（公式10-11）。
敏感性参数：∆_j（对每种结局、每种脱落模式、每个时间点j > d_max或d_min < j ≤ d_max），通过AR(1) copula先验（公式16）建模时间相关性，ρ ∈ {0.1, 0.5, 0.9}。

关键假设： 1. 部分可忽略性（Partial Ignorability）：给定(d_min, d_max)，间歇性缺失（在脱落之前）的机制是可忽略的。这意味着只有脱落时间携带关于缺失值的非可忽略信息，而间歇性缺失模式不携带。这是本文识别策略的核心假设，也是其与完全非可忽略模型的关键区别。 2. 一阶马尔可夫假设：给定前一时刻的结局，当前结局与更早的历史条件独立。这简化了GARP/IV分解，但可能不适用于所有数据。 3. 基准场景下的ACMV限制：假设脱落后的结局分布与仍在观测中的个体的分布相同（给定历史）。这是MAR的推广，但作者通过敏感性参数允许偏离。 4. 敏感性参数的加性位置偏移：非可忽略偏离被建模为对条件均值的加性偏移，而非对分布形状的完全改变。这是一个简化假设。

与已有文献的对比： - 放宽：相比Gabrio et al. (2020)的参数模型，DPM放宽了分布假设。 - 强化：相比Oganisian et al. (2020)的可忽略假设，本文允许MNAR。 - 相同：与Linero and Daniels (2015)的工作模型框架一致，但推广到双变量。

主要结果¶

理论型结果：本文没有渐近理论结果（无定理、无效率界、无minimax率）。所有结果都是基于MCMC后验的数值结果。这是一个方法型/应用型论文。

核心量化结论（表3、图3、图4）：

模型拟合（表2）：DPM的WAIC=8154，LOOIC=8155，LPML IC=8154，远优于MVN（13513/13327/13326）、BG（12696/12518/12520）和BLN（11850/10918/10920）。DPM的拟合优度提升是数量级的（WAIC降低约40%）。
边际均值估计（图3）：在控制组，不同场景下的效用均值估计差异较小（0.44-0.56），但成本均值差异较大（1600-2400）。MNAR场景下的成本均值比可忽略场景高约4.5%。在干预组，差异较小。
成本-效果决策（图4、表3）：
所有场景下，干预均产生QALY增益和成本增加（东北象限）。
ICER：NOIG=19368，BENCH=20273，MNAR M=20346（£/QALY）。
CEAC：在k=£25,000阈值下，NOIG的概率约0.6，IG和BENCH约0.5，MNAR场景约0.4。结论对缺失假设敏感——从NOIG到MNAR H，成本-效果概率下降约20个百分点。
稳健性：三个MNAR场景（ρ=0.1, 0.5, 0.9）之间的差异很小，说明敏感性分析对AR(1)相关系数的选择相对稳健。

证明路线与技术技巧¶

整体路线（这是一个贝叶斯计算流程，而非数学证明）：

步骤1：指定工作模型。定义DPM模型（公式4-8），包括GARP/IV分解和一阶马尔可夫假设。指定脱落概率的Dirichlet先验（公式3）。
步骤2：数据增广MCMC。在每次迭代中：
从当前后验p(ω | y_r, y_¯r^(l-1), d(r))中采样ω^(l)（其中y_¯r^(l-1)是上次迭代的缺失数据插补值）。
从p(y_¯r | y_r, d(r), ω^(l))中采样y_¯r^(l)（在基准场景下，使用ACMV限制；在MNAR场景下，使用带敏感性参数的偏移分布）。
注意：这里的p(y_¯r | y_r, d(r), ω)正是外推分布，它依赖于识别限制和敏感性参数。
步骤3：G-computation。在MCMC收敛后，对每个后验样本ω^(l)：
对每种脱落模式(d_min, d_max)，从p(y | d_min, d_max, ω^(l))中采样伪数据y^*（使用与步骤2相同的识别限制）。
计算目标量T(y^*)（如QALYs和总成本）的蒙特卡洛平均。
对所有后验样本平均，得到后验均值和可信区间。
步骤4：敏感性分析。重复步骤2-3，但将敏感性参数∆_j固定在不同值（或从不同先验中采样），比较不同场景下的结果。

关键跳跃点： - 从单变量到双变量的识别策略（公式9-11）：这是本文最核心的方法论贡献。对于d_min ≠ d_max的模式，需要先识别d_min < j ≤ d_max时“早脱落结局”的缺失分布（公式10），再识别j > d_max时两种结局的缺失分布（公式11）。这个两步策略是本文独有的。 - 工作模型框架的应用：作者没有直接建模p(y_r, r | ω)，而是通过一个全数据模型p^*(y, r | ω)并积分掉缺失值来间接得到它。这避免了直接指定观测数据分布的困难，但代价是计算上需要数据增广。

技术技巧点名： - Dirichlet过程混合（DPM）：用于灵活建模观测数据分布，避免参数假设。截断近似（K=20）用于计算可行性。 - GARP/IV分解：将多元正态分布分解为一系列条件分布，便于结合一阶马尔可夫假设。 - 数据增广（Data Augmentation）：在MCMC中交替采样参数和缺失数据，是贝叶斯缺失数据处理的标准技巧。 - G-computation：从后验预测分布中采样伪数据，计算目标量的蒙特卡洛积分。这是因果推断中的标准方法，但本文将其与模式混合模型结合。 - Copula模型：用于建模敏感性参数的时间相关性，允许分别指定边际分布和依赖结构。AR(1)结构是简化选择。 - 后验预测检查：通过比较复制数据与真实数据的秩相关分布，评估模型绝对拟合（图2）。

真实例子与应用¶

数据：PBS试验（Hassiotis et al., 2018），244名智力障碍患者，随机分配到PBS干预（108人）或常规治疗（136人）。结局为EQ-5D效用和医疗成本，在基线、6个月、12个月收集。

方法应用： 1. 将每个治疗组的数据分别拟合DPM模型（共2个模型）。 2. 对每个模型，在6种场景下进行推断：NOIG（无识别限制，即直接使用工作模型）、IG（MAR限制）、BENCH（基准非可忽略限制）、MNAR L/M/H（带不同ρ值的敏感性分析）。 3. 通过G-computation计算每个场景下的边际平均QALYs和总成本。 4. 绘制CEP和CEAC，比较不同场景下的成本-效果决策。

结果： - DPM拟合显著优于所有参数模型（表2）。 - 后验预测检查显示模型能捕捉大多数变量间的秩相关（图2），但基线-6个月效用相关在控制组被系统性低估。 - 不同MNAR场景对成本-效果概率有实质性影响（图4b），MNAR场景下干预的成本-效果概率比可忽略场景低约20个百分点。

这个例子想说明什么： - 验证方法可行性：DPM + 识别限制 + 敏感性分析可以在真实数据上实现。 - 展示敏感性分析的必要性：不同缺失假设导致不同的成本-效果结论，说明“只做一种假设”是危险的。 - 展示非参数方法的优势：DPM的拟合优度远优于参数模型，说明成本-效用数据的分布确实复杂。

🔎 结论是否比证明窄¶

是。本文的结论“不同MNAR假设对成本-效果决策有实质性影响”是基于一个特定数据集（PBS试验）和一个特定模型（DPM + AR(1) copula）的。作者在讨论中承认了这一点，并指出未来工作可以探索更灵活的模型规格。具体地：

第7节：“A possible extension area for future work is to increase the flexibility of our approach by embedding more flexible parametric specifications within the Dirichlet process mixture...”——作者承认当前DPM规格（一阶马尔可夫、GARP/IV分解）可能不是最优的。
第4.3节：敏感性参数的先验指定（AR(1) copula，ρ在{0.1, 0.5, 0.9}中离散变化）是探索性的，而非穷尽性的。作者没有证明这些先验覆盖了所有合理的MNAR场景。
第5.3节：三个MNAR场景之间的差异很小，但这可能只是因为AR(1)结构限制了敏感性参数的灵活性。如果使用更灵活的copula（如Clayton或Frank），结果可能不同。
没有理论保证：本文没有证明DPM + 识别限制 + 敏感性分析在渐近意义上是一致的或最优的。所有结论都是基于有限样本的MCMC后验。

四、开放问题¶

识别限制的存在性条件：Wang and Daniels (2011) 指出，在多元正态模式下，MAR识别限制可能不存在。本文使用DPM（非参数）来规避这一问题，但未证明DPM是否总能保证ACMV限制的存在性。一个开放问题是：在什么条件下，非参数模式混合模型中的ACMV限制是良定义的？这扎根于本文第3.4节和Wang and Daniels (2011) 的结论。
效率损失：本文的方法通过部分识别引入了额外的（不可约的）不确定性，但未量化这种不确定性相对于完全参数模型的效率损失。一个开放问题是：在双变量纵向设定下，非参数部分识别相对于参数点识别的效率损失有多大？这扎根于本文第5.3节（HPD区间宽度）和Gabrio et al. (2020) 的参数方法。
敏感性参数的维度与先验：本文使用AR(1) copula来建模敏感性参数的时间相关性，但未探索更灵活的依赖结构（如非平稳、非线性）。一个开放问题是：当敏感性参数数量随时间和结局维度增长时，如何设计先验以有效探索参数空间而不引入过强的假设？这扎根于本文第4.3节和Linero and Daniels (2015) 的讨论。
计算可扩展性：本文的MCMC算法（数据增广 + G-computation）在J=3、N=244时可行，但未讨论其在更长随访（J>10）或更大样本下的计算负担。一个开放问题是：是否存在更高效的计算策略（如变分贝叶斯、近似贝叶斯计算）来扩展该方法？这扎根于本文第7节（“computational cost for implementing the model”）。

提醒：要确认第1条是否是真gap，建议去读Wang and Daniels (2011) 和 Linero and Daniels (2018) 的综述，看是否有后续工作讨论了非参数模式混合模型中的识别限制存在性。如果该问题仍未被解决，则是一个值得研究的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub