Low-rank longitudinal factor regression with application to chemical mixtures¶

作者: Glenn Palmer, Amy H. Herring, David B. Dunson
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向的核心是：在发育流行病学设定下，如何从多个高度相关、存在时间维度和非线性效应的环境化学暴露（混合物）中，推断其对远期健康结局的联合与个体效应。这是流行病学界从“单污染物”范式向“多污染物”范式转型的核心方法论挑战。当前成熟度：方法层出不穷，但大多针对横截面数据或简单线性假设，对纵向暴露（多个孕期测量） + 灵活时变与交互效应的场景，尚无公认的“标准答案”。本文正是在这一缺口上提出新方法。

发展脉络¶

奠基工作：从“单污染物”出发，承认混合物的必要性
- Dominici et al. (2010) 在《保护人类健康免受大气污染》一文中，明确提出要“从单污染物向多污染物方法转变”，承认人类总是暴露于更复杂的混合物，但指出挑战巨大。这篇是标志性的“问题宣言”，并非方法贡献。
- Silva et al. (2003) 的工作是基础性的暴露评估：他们为美国人口（NHANES 1999-2000）测量了七种邻苯二甲酸酯的尿液代谢物，发现MEP、MBP、MBzP、MEHP等在超过75%的样本中可检出，证明了广泛、共存的暴露现实——这是所有后续方法的研究对象。
主要进展（处理横截面 / 线性混合暴露的方法）
- 加权分位数和（WQS）回归：Carrico et al. (2014) 提出WQS，建立了一个“身体负担指数”，在高度相关化学物中识别“坏分子”。其核心是：将暴露转换为分位数，赋予权重，用一个加权和作为单一指数进行回归。优点是可解释性（权重代表贡献），但缺点也明显：假设所有暴露效应方向一致，且在特定相关结构下准确率下降（Czarnota et al., 2015 进一步评估了其局限性）。Tanner et al. (2019) 的重复保留法是对WQS稳健性的改进。
- 贝叶斯核机器回归（BKMR）：Bobb et al. (2013, 2018) 提出了一个重要替代方案。BKMR通过高斯过程（或核函数）灵活建模暴露-响应函数，能处理非线性与交互作用，并内置变量选择（含分组选择）。其优势是灵活性，但计算成本高，且对纵向结构（如多个时间点的重复暴露测量时间点的重复暴露测量）没有直接建模。Bobb等人(2015) 在BKMR中加入了变量选择功能。
- 分布滞后非线性模型（DLNM）：Gasparrini et al. (2010) 开创了DLNM，通过定义“交叉基”来同时建模暴露的非线性效应和延迟结构。Gasparrini et al. (2017) 进一步将其推广到惩罚样条框架。DLNM天生适合处理时间序列数据（如气温-死亡率），但其暴露通常是单一或少量指标，处理大量高度相关的纵向混合物时，基函数会急剧膨胀。
- 用于分层交互的套索（hierNet）：Bien et al. (2012) 从“层次性”角度处理（交互）效应，约束交互项的出现必须伴随其主效应。这为处理暴露的交互效应提供了结构化的稀疏方法。
当前Frontier & 本文位置
- 以上方法（WQS, BKMR, DLNM）在处理“大量暴露 + 时间维度 + 交互作用”的组合时，各自有短板：WQS假设过于刚性；BKMR难以直接处理纵向暴露；DLNM的基函数维度爆炸。同时，高维统计 + 因果推断 的领域，如 Zhou, Li & Zhu (2012) 的张量回归和 Bien et al. (2012) 的 hieNet，提供了面向高维/结构化的工具，但并不特服务于环境混合物。
- 本文作者的framing：他们认为，目前缺乏一个能够同时处理“高相关纵向暴露”、“灵活时变效应”和“潜在交互效应”的统一模型。作者的方案是：利用一个贝叶斯动态因子模型对高维、纵向的暴露进行降维，同时与健康结局联合拟合，且模型内嵌了自动坍缩机制——当数据不支持复杂模型（如时变或交互）时，它会自动退化为更简单的子模型。这可以看作是在 BKMR的灵活 和 WQS/Ridge套索的收缩性 之间寻找的第三条路径。
- ⚠️ 作者的framing（来自intro）：作者把缺口明确地frame为“现有方法在处理纵向时间轴上高度相关的多孕期暴露时面临诅咒，需要一种既能降维又能保留灵活性的联合模型”。他们并没有声称该方法在因果推断上解决了未观察混杂问题（这是一类完全不同的缺口）。他们淡化了Pure Bayesian DKMs (如动态因子模型) 的可解释性，也回避了与频率学派高维正则化（如稀疏组套索）方法在纵向场景下的直接比较（可能因为后者难以处理时变效应或需要手动指定基函数）。

子线索聚类¶

混合暴露聚合/降维方法：WQS、BKMR（核降维）、主成分分析（PCA，但通常不是单独文章）。这些方法试图将多维暴露信息“打包”成一个或几个指标。
针对时间/滞后效应的方法：DLNM、分布式滞后模型（DLMs）、惩罚样条DLNM。
用于变量选择和结构收缩的方法：lasso/crossed-lasso、elastic net、hierNet、horseshoe prior、copula模型（用于处理混合数据类型）。
因果推断方法（辅助，非核心）：匹配（Stuart, 2010）、倾向得分、工具变量（本文未详引但被提及）。本文调用这些方法主要是在讨论数据敏感性分析时，而非方法本身。

核心追问与瓶颈¶

核心问题1：如何从高度相关的分子标记物中，唯一且稳定地识别出哪个化学物质是“凶手”？
核心问题2：如何在一个时间维度（如孕期不同阶段）上建模暴露效应，且允许效应随时间变化以及暴露间的交互作用？
核心问题3：如何在高维/纵向场景下避免过拟合，同时保证模型对“简单”和“复杂”的真相都能灵活适应？
当前主流瓶颈：现有方法要么无法处理时变交互（WQS），要么对高维纵向暴露的维度处置不力（BKMR, DLNM）。未见明显对立引用——各方法在不同设定下各有优势，但尚未出现能统一处理的框架。

🔎 值得研究者去查的问题¶

什么明显该存在却未出现在intro里？
- Proximal Causal Inference / 工具变量：虽然本文标题包含“causal inference”，但全文的识别策略几乎完全依赖于可忽略性假设（Ignorability），即假设调整了所有混杂。对于给定时，的更严峻的未观测混杂问题（如遗传因素），本文模型并未提供应对。Tchetgen Tchetgen (2014) 和相关文献（proximal causal inference）在流行病学混杂处理中很热门，但未提及。
- 时间变化的混杂：如果某暴露在时间t是未来健康结局的混杂，又是过去暴露的媒介，这会导致“时变混杂”，需要g-formula或IPW。本文未讨论这个标准挑战。
- 贝叶斯非参因果推断：例如使用Gaussian Process Regression或BART来做因果效应估计的文献。作者使用的是结构更简单的因子模型，但此类方法在因果推断（尤其是处理效应异质性）中相当流行。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

背景：我们研究 \( i=1, \dots, N \) 名母亲妊娠期间某个孕期（例如第1、2、3孕期）的\( K \)种不同化学物（如BPA、DEHP、DBP）暴露。我们最终感兴趣的是这些早期暴露对她们孩子在青少年时期的一个连续健康结局\(Y_i\)（例如糖代谢指标）的影响。

可观测数据： - 每人 \( T=3 \) 个时间点（孕期），每个点测量 \( J \) 种完全相同的化学物。记作 \( \mathbf{X}_{i,t} \in \mathbb{R}^J \)，\( t=1,2,3 \)。比如，\( J=10 \) 种化学物，那么每个孕妇共有 \( 3 \times 10 = 30\) 个暴露变量。 - 健康结局：每个孩子一个连续变量 \( Y_i \in \mathbb{R} \)。 - 协方差（例如母亲教育、收入、年龄、BMI等）记作 \( \mathbf{Z}_i \)。

要估计的目标（Estimand）：我们对每个时间点、每个暴露的特定效应感兴趣，例如“第1孕期DEHP每增加1个IQR，青少年胰岛素抵抗改变多少？” 但因为有30个高度相关的变量，直接回归是不稳定的。降维是核心。

符号： - \( N \)：样本量 - \( T \)：时间点数量 - \( J \)：每个时间点测量的化学物质数量 - \( \mathbf{X}_{i,t} \in \mathbb{R}^J \)：个体\( i \)在时间\( t \)的J维暴露向量 - \( Y_i \in \mathbb{R} \)：个体\( i \)的健康结局 - \( \mathbf{Z}_i \in \mathbb{R}^p \)：个体\( i \)的混杂因素向量（p维） - \( \epsilon_{i,t} \in \mathbb{R}^J \)：暴露模型的噪声 - \( \xi_i \in \mathbb{R} \)：结局模型的噪声

模型（主体是层次贝叶斯模型，这里简写数学核心）： - 暴露模型：假设 \( \mathbf{X}_{i,t} = \mathbf{W}_t \boldsymbol{\mu}_i + \boldsymbol{\lambda}_i + \boldsymbol{\epsilon}_{i,t} \)。这里隐含着时间的动态结构。典型地，\( \boldsymbol{\mu}_i \) 是 \( d \)-维的“潜在因子”（\( d \ll J \)），代表个体体内“整体的化学负担”，随时间变化很小或遵循马尔可夫过程；\( \boldsymbol{\lambda}_i \) 则是个体特有的、不随时间变化的暴露水平。 - 结局模型：假设 \( Y_i = f\left(\boldsymbol{\mu}_i, \boldsymbol{\lambda}_i, \mathbf{Z}_i\right) + \xi_i \)。这里 \( f \) 通过一个包含主效应与可能的交互的线性预测来实现：\( Y_i = \alpha + \mathbf{Z}_i^{\top}\boldsymbol{\beta} + \boldsymbol{\mu}_i^{\top} \boldsymbol{\gamma} + \boldsymbol{\lambda}_i^{\top} \boldsymbol{\delta} + \text{Interactions} + \xi_i\)。这个模型的关键在于通过潜在因子取代了原始的 \( T \times J \) 维暴露，从而降维并建模了时间动态。

第二步：最小内核¶

最简特例：假设数据只有两个时间点（T=2），且每次只测一种化学物质（J=1）。另外，没有混杂（Z=0）。这就是一个简单的重复测量设计：对每个母亲有两个普遍环境测量（第一孕期、第二孕期），对一个后代的结局Y。

在最小特例下，我们想回答：“两个时间点的同一个暴露如何联合影响结局？” 。

原始数据：每个母亲 i，有 \( X_{i,1}, X_{i,2} \)（两个点的暴露），和结局 \( Y_i \)。
不加处理的直接模型：\( Y_i = \alpha + \gamma_1 X_{i,1} + \gamma_2 X_{i,2} + \xi_i \)。这是标准线性模型。若 \( X_{i,1} \) 和 \( X_{i,2} \) 高度相关（同一个体的孕期暴露通常如此），直接估计的 \( \gamma_1, \gamma_2 \) 会是相当不稳定的。

本文的最小内核：做一个低维的因子折叠。假设暴露的实际结构由一个单因子主导：\( X_{i,t} = \omega_t \mu_i + \epsilon_{i,t} \)，其中 \( \mu_i \) 是一个潜在标量（代表母亲在孕期不变的“基础暴露水平”），\( \epsilon_{i,t} \) 是期特异性偏差。\( \omega_t = 1 \) 是固定载荷，且假设 \( \epsilon_{i,t} \) 独立于 \( \mu_i \)。

这就是一个最简单的动态因子模型（DLM）。在这个极简设定下，蕴含的假设是：在控制了基础的“化学负担水平”μ后，两个时间点的剩余变异是独立的噪声。
结局模型变为：\( Y_i = \alpha + \gamma \mu_i + \psi_1 \epsilon_{i,1} + \psi_2 \epsilon_{i,2} + \xi_i \)。这里 \( \gamma \) 是基础水平的效应，\( \psi_1, \psi_2 \) 是期特异性偏差的额外效应（捕获在某个特定阶段偏离基线的冲击的影响）。
核心思路：将一个原始的（高度相关的）J × T 维问题（本例 J=1, T=2）通过一个潜在因子μ和期特异性偏差ε分解成了一个低维结构问题。我们不再直接回归两个高度相关的X，而是回归一个潜变量μ和其扰动项ε01。由于μ和ε正交（假设），大大缓解了共线性。同时，这个结构允许我们单独提问：“基础暴露水平” vs “第2孕期的特异性飙升” 谁对Y的影响更大。

对于原论文，这类似于他们因子扩张一般情形的无损版本。论文的一般情况（J很大，T也很长）就是用更多的潜在因子来分解更复杂的结构。这个核心想法（用结构化的低维潜在变量捕捉高维时间相关暴露的主成分）贯穿全文。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：提出了一个可以处理高度相关的、纵向暴露（如多个孕期的混合化学物）对远期健康结局动态效应的贝叶斯回归模型。
核心工具/方法：将贝叶斯动态因子模型（用于暴露降维与时变结构建模）与暴露-结局回归联合拟合，内嵌模型坍缩机制（在数据不支持时，复杂模型自动坍缩为更简单的子模型），并在因子空间上允许灵活的时变与交互效应。
主要结论：将模型应用于ELEMENT数据，发现第1-2孕期的DEHP和DBP代谢物水平与青少年糖代谢改变相关。模拟表明，在暴露高度相关、存在时变或交互效应时，LowFR在效应估计上优于BKMR和WQS方法。

关键设定与假设¶

暴露-无交互结局模型（基础形式）： \( Y_i = \alpha + \mathbf{Z}_i^{\top}\boldsymbol{\beta} + \boldsymbol{\lambda}_i^{\top}\boldsymbol{\delta} + \sum_{t=1}^{T} \mathbf{X}_{i,t}^{\top}\boldsymbol{\gamma}_t + \xi_i \) 这就是标准线性纵向回归，但\( \mathbf{X}_{i,t} \)是暴露，\( \boldsymbol{\gamma}_t \)是时间特异的系数的第t个部分。这个模型已经包含“时变效应”，因为\( \boldsymbol{\gamma}_t \)随时间变化。
动态因子模型（暴露）：作者将暴露分解为： \( \mathbf{X}_{i,t} = \mathbf{W}_t \boldsymbol{\eta}_i + \boldsymbol{\epsilon}_{i,t} \)
- \( \boldsymbol{\eta}_i \in \mathbb{R}^d \)：个体特异的“潜因子得分”，动态：\( \boldsymbol{\eta}_i \sim N(0, \mathbf{\Sigma}_\eta) \). 这表示个体之间的不变的基础暴露模式。
- \( \mathbf{W}_t \in \mathbb{R}^{J \times d} \)：时间特异性的载荷矩阵。这允许暴露的“因子结构”随时间变化。
- 关键假设：潜因子维度\( d \ll J \)。因为化学物常常被一起使用和代谢，它们的变异的绝大部分可以由少量因子的变化来解释（结构稀疏性）。
低秩纵向因子回归：将因子模型插入结局模型，用因子\( \boldsymbol{\eta}_i \)代替原始暴露\( \mathbf{X}_{i,t} \)： \( Y_i = \alpha + \mathbf{Z}_i^{\top}\boldsymbol{\beta} + \boldsymbol{\eta}_i^{\top}\boldsymbol{\delta} + \sum_{t=1}^{T} (\mathbf{W}_t \boldsymbol{\eta}_i)^{\top} \boldsymbol{\gamma}_t + \xi_i \) 这里的\( \sum_{t=1}^{T} (\mathbf{W}_t \boldsymbol{\eta}_i)^{\top} \boldsymbol{\gamma}_t \) = \( \boldsymbol{\eta}_i^{\top} (\sum_{t=1}^{T} \mathbf{W}_t^{\top} \boldsymbol{\gamma}_t) \)。因此，整个暴露-结局的时变效应完全被压缩到相当于一个关于\( \boldsymbol{\eta}_i \)的常数效应（但通过了载荷矩阵进行加权）。也就是说，在这个基本版本中，时间动态完全被载荷矩阵\( \mathbf{W}_t \)吸收，这意味着\( \mathbf{W}_t \)决定了“哪个时间点哪种化学物的效应更重要”。
扩展：灵活的时变与交互：为了允许时变和交互效应，作者对一般模型做了扩展。例如，允许\( \boldsymbol{\gamma}_t \)在时间上变化，或在因子空间引入二阶项/交互效应\( \eta_{i,k} \cdot \eta_{i,l} \)。这些额外项只在数据支持下得以保留（通过贝叶斯坍缩机制）。
坍缩机制：通过贝叶斯模型选择。如果数据显示的时序变化或交互效应信号不强烈，对应的后验收缩（通过先验）会将其推向零，使模型自动“坍缩”为更简单的子模型（例如无交互的基本纵向回归）。这由作者在Stan中实现的交叉验证实施。

相比已有文献的强化/关联： - 相对WQS：完全避免了“效应方向一致”的刚性假设。 - 相对BKMR：BKMR在一次测量中既降维又建模函数形式，本文则将时间结构显式化（通过因子模型），从而在更高维度的纵向数据上更可行。 - 相对纯DLNM：不需要手动选择基函数；因子模型自动挖掘暴露的时间结构和模式。

主要结果¶

模拟结果：在多个仿真设置下（包括线性、含交互、时变效应），LowFR在估计暴露-结局关系（均方根误差或覆盖概率）上，一致优于 BKMR 和 WQS。尤其在存在交互或时变曲线时，LowFR的优势更明显。在无交互的简单线性设置（模型坍缩）下，LowFR与简单的标准线性回归表现相当，验证了其“坍缩”机制的有效性。
真实数据结果（ELEMENT 数据）：
- 数据：1997-2006年墨西哥城ELEMENT研究，测量120名青少年，有母亲孕期（第1、2、3孕期）的BPA和8种邻苯二甲酸酯代谢物。
- 方法应用：模型在 Stan 中用 HMC（Hamiltonian Monte Carlo）完成，使用分布式滞后版本（将所有暴露效应建模为一条与化学品积累相关的日志曲线）。
- 关键发现（核心量化结论）：
  - 第1-2孕期的DEHP（邻苯二甲酸二(2-乙基己基)酯）和DBP（邻苯二甲酸二丁酯）的代谢物水平，与青少年期的葡糖耐受受损 / 胰岛素抵抗（HOMA-IR升高、空腹血糖升高）呈正相关。这个关联在去掉BMI或其他混杂后仍存在。
  - 第3孕期的DEHP和DBP的效应较弱或不显著。
  - BPA的效应不显著。
- 这个例子想说明：LowFR能够在一个小样本（120人）数据和高维（纵向+多种化学物 + 许多潜变量）情况下，有效识别出特定时间窗口内的特定化学物效应，并给出其不确定性（可信区间）。

证明路线与技术技巧¶

本文是应用/方法型，核心是模型构建与贝叶斯推理，而非经典的统计证明（渐近理论）。因此，“证明路线”指模型构建与MCMC推理的构建路径。

整体路线（模型构建与推理）：
1. 问题构建：定义暴露 \( \mathbf{X}_{i,t} \) 和结局 \( Y_i \) 的联合似然。
2. 降维层：构建动态因子模型：\( \mathbf{X}_{i,t} = \mathbf{W}_t \boldsymbol{\eta}_i + \boldsymbol{\epsilon}_{i,t} \)。先验设定：诱导低秩（\( d \)通过先验（如Horseshoe）或模型选择决定；W\(_t\)加载矩阵有自适应收缩先验）。
3. 关联层：将降维后的潜因子 \( \boldsymbol{\eta}_i \) 与结局 \( Y_i \) 线性关联：\( Y_i \sim \alpha + \mathbf{Z}_i^\top \boldsymbol{\beta} + \text{g}(\boldsymbol{\eta}_i, \mathbf{Z}_i) \)。选择g函数为基本线性形式（纵向效应通过W\(_t\)吸收），并增加交互项，通过先验施加稀疏性。
4. 模型坍缩机制：通过将交互/时变效应项的方差先验设为重尾且浓缩在零附近（类似于马蹄形先验但仅在交互项上）。如果数据信息不足，后验会在零上方急剧收缩，使模型自动“坍缩”为不含交互的简单模型；否则允许自由度。
5. 计算与推理：在Stan中实施马尔可夫链蒙特卡洛（MCMC）——使用序贯MCMC，以及裂变-NUTS（No-U-Turn Sampler）进行后验抽样。每个参数的预测区间通过后验分布获得。
关键跳跃点：
- 并非套壳：不是简单地把因子分析放入回归（那会很难计算且不稳定）。关键跳跃点是时变的载荷矩阵 \( \mathbf{W}_t \)。这使得“同一个化学物在不同时间点上的因子结构”可以不同，从而允许效应时间模式不是由回归系数，而是由主成分的结构变化来驱动——这是一个比固定效应更优雅的降维视角。
- 从因子到整体到交互的跳跃：作者提出了因子空间中主效应的线性回归 + 可以包含因子和因子之间的交互作用。这使得对“混合物的混合”的建模（通过因子的交互）成为可能，且无需处理原始的J×T维交互项。
技术技巧点名：
- 动态因子模型：处理纵向暴露降维。
- 重尾先验 (Horseshoe prior / 塔克收缩)：作者借用了Carvalho等人(2009)的马蹄形先验来诱导稀疏性，用于变量选择和模型坍缩。
- 印迹相关性：后验预测检查利用“印迹图”来评估潜在是否捕获了真实暴露的时间结构。
- 交叉验证：在执行推理外，作者使用额外的留出验证来评估模型在其真实应用中的预测性能（避免过拟合）。

真实例子与应用¶

已经有详细描述（见上“主要结果”的“ELEMENT数据”）。再补充： - 与Baseline对比的模式：在模拟中，作者构建了几个“真模型”，分别对应于简单线性（WQS更优）、有交互（BKMR更优）、有时间效应（作者的低FR更优）。在真实的ELEMENT数据应用中，作者没有像典型的“实证论文”那样，将本文模型（LowFR）与WQS/BKMR在性能指标上（如AIC、DIC）进行表格式比较。他们仅展示了LowFR的结果。这可能是模型同质化（三者似然不同）的困难，但也解释为什么技术上不同模型直接对比偏差大。这或许是为了避免“用作者的模型去拟合竞争模型的较简单框架”的不公平对比。

🔎 结论是否比证明窄¶

是的。作者声称模型具有“灵活的后勤学”和“自动坍缩”，但这完全建立在特定的贝叶斯先验构造上。作者并没有给出频率学派意义上的理论保证，例如：
- “坍缩”机制在何种情景下能保证非渐近地收敛到真模型？
- 当“信号非常微弱且真实结构很复杂”时，坍缩机制是否可能因虚假信号而无法崩解，或是过早充气导致复杂化？
此外，一个明显的窄处在于：作者在ELEMENT数据的分析中，只报告了相关系数（置信区间），但没有提供清晰的因果效应的数量级（比如，DEHP在第二孕期增加一个IQR，HOMA-IR具体增加多少，其标准误）。作者也没有报告敏感度分析（如与标准线性模型、WQS在主效应时的对比）来支持“纵向因子模型”的特有优势。

真正验证了其比现有方法更好的，主要体现在模拟中，而非实证数据中的结论性更强或更稳健。

四、开放问题（点到为止，扎根具体语句）¶

[因果可识别性] 本文的方法本质是“模式识别+关联”，其识别因果效应完全依赖于可忽略性假设。作者在文中（第2页讨论敏感度分析）提到“假设在给定中介（因子）后无混杂”。问题：在真实ELEMENT数据中，能完全排除如“孕期饮食模式”这种同时影响暴露和儿童代谢的未观测混杂吗？如何用与因子模型兼容的方式进行（如Proximal Causal Inference或敏感性分析）来检验偏离可忽略性的影响？扎根点：**未在全文的任何地方明确讨论或检验。
[交互效应的结构假设] 模型假设交互作用仅存在于因子空间（\(\eta_k \cdot \eta_l\)），而非原始暴露空间。这引入了不可避免的建模偏差——如果两个化学物直接作用（生理体径），而不是先通过因子化再相乘。作者承认这是“近似”，但并未量化其偏差或给出连接近似与真实的谱系。问题：能否给出一个理论（或模拟）框架，刻画在原始交互作用不是因子化的情形下，LowFR表现如何？扎根点：作者将其定义为“一种灵活近似”，未经理论证明其一致性。
[贝叶斯理论分析] 缺乏贝叶斯统计收敛性分析。问题：随着样本量N增大或时间点T增长，该因子模型的后验能否一致地恢复出真暴露-结局函数空间（后验一致性与收缩率）？这个问题对主打“灵活长时序”的模型至关重要。扎根点：方法完全是经验性的（模拟验证），未给出任何后验收缩的定理。
[纵向时变结局] 本文中结局是单时间点（青少年期）。问题：如何扩展至纵向时变结局（例如童年、青春期、成年期都测量糖代谢）？动态因子模型可以用于暴露与结局双方，但这会引入复杂的“时变混杂”（因变量本身既是暴露又是结果的混杂）问题。扎根点：文章的局限性证明作者知道是跨节面的扩展。

提醒：要确认“模型坍缩在真复杂的情形下是否真的省时”这一条是不是真gap，请去读rdcpp或bkern等软件包的近期讨论，看是否有人抱怨BKMR计算慢 / 不稳定。

Maintained by 陈星宇 · Homepage · Source on GitHub