High-dimensional multisubject time series transition matrix inference with application to brain connectivity analysis¶
作者: Xiang Lyu, Jian Kang, Lexin Li
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: University of California, Berkeley(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae021
一、领域脉络与小综述¶
这个方向是什么¶
本方向研究的是高维多受试者时间序列中,向量自回归(VAR)模型转移矩阵的推断问题。核心科学问题是:在存在测量误差、受试者条件(如年龄、疾病状态、实验任务)变化的情况下,如何同时检验多个受试者之间的有效连接模式(即VAR转移矩阵)是否存在差异,而非仅仅估计单个受试者的转移矩阵。该方向处于方法驱动与理论验证并行的阶段,已有大量针对单受试者或低维VAR的推断方法,但针对高维、多受试者、含测量误差的联合推断仍存在显著缺口。
发展脉络(history)¶
- 奠基工作:单受试者高维VAR。
Basu & Michailidis (2015)和Davis et al. (2016)建立了高维VAR模型下转移矩阵的估计与推断理论,主要依赖Lasso类正则化方法。这些工作为后续研究提供了基础,但未考虑多受试者间的异质性,也未处理测量误差。 - 主要进展:多受试者VAR与张量方法。
Chen et al. (2021)和Lyu et al. (2023)将单受试者VAR扩展到多受试者设定,通过张量回归(tensor regression)将受试者条件(协变量)与转移矩阵联系起来。Chen et al. (2021)提出了一个张量响应回归模型,但假设观测数据无测量误差。Lyu et al. (2023)则关注于转移矩阵的估计,而非假设检验。 - 当前frontier:含测量误差的推断。
Fan et al. (2021)和Wang et al. (2022)研究了高维线性回归中的测量误差问题,但未涉及时间序列结构。Datta & Zou (2017)和Loh & Wainwright (2012)则关注高维M估计中的测量误差,但同样不针对VAR模型。本文的位置:作者将上述三条线索——高维VAR、多受试者张量回归、测量误差——首次整合,并聚焦于同时检验(simultaneous testing)而非估计,填补了该交叉领域的空白。
子线索聚类¶
- 高维VAR的估计与推断:
Basu & Michailidis (2015),Davis et al. (2016),Han et al. (2021)。核心是使用Lasso或Dantzig selector估计稀疏转移矩阵,并建立渐近理论。瓶颈:通常假设数据为单受试者、无测量误差。 - 多受试者VAR与张量方法:
Chen et al. (2021),Lyu et al. (2023),Lock et al. (2022)。核心是将受试者条件作为协变量,通过张量回归建模转移矩阵的异质性。瓶颈:现有工作多关注估计,缺乏正式的假设检验框架;且通常假设观测数据无测量误差。 - 高维测量误差模型:
Fan et al. (2021),Wang et al. (2022),Datta & Zou (2017),Loh & Wainwright (2012)。核心是处理协变量或响应变量被噪声污染时的估计与推断问题。瓶颈:这些方法通常针对独立同分布数据或静态回归,不适用于时间序列VAR模型。
这个方向在追问的核心问题¶
- 如何在高维、多受试者设定下,对VAR转移矩阵进行有效的假设检验? 现有方法多集中于估计,而检验(尤其是同时检验多个受试者间的差异)的理论与计算工具匮乏。
- 如何处理测量误差对VAR推断的影响? 测量误差会引入偏差,导致标准VAR估计量不一致。如何修正偏差并保持推断的有效性是一个关键挑战。
- 如何控制多重比较下的错误发现率(FDR)? 当同时检验大量受试者或大量连接时,需要有效的FDR控制程序,且该程序需与高维VAR的估计误差兼容。
⚠️ 作者的framing¶
- 作者的缺口frame:作者将缺口明确frame为“现有方法要么处理测量误差(但非时间序列),要么处理多受试者VAR(但无测量误差),要么处理高维VAR(但单受试者),而本文是首个同时处理这三者的工作,并聚焦于同时检验这一被忽视的问题”。这使得本文成为“显然的下一步”。
- 被淡化/回避的竞争路线:
- 贝叶斯方法:作者在引言中提及贝叶斯VAR(如
George et al. (2008)),但仅一笔带过,未深入讨论其在高维、多受试者、含测量误差设定下的可行性。贝叶斯方法可能通过层次模型自然地处理异质性和测量误差,但计算和理论分析可能更复杂。 - 非参数/半参数方法:作者完全未提及任何非参数或半参数的时间序列因果推断方法(如基于条件独立性的图模型学习)。这些方法可能对模型误设更稳健,但通常不直接处理VAR转移矩阵的推断。
- 贝叶斯方法:作者在引言中提及贝叶斯VAR(如
- 什么明显该被引/该存在、却没出现在intro里?
- 关于“同时检验”的文献:作者引用了
Liu (2013)和Xia et al. (2015)关于高维线性模型的同时检验,但未引用更近期的、针对时间序列或图模型的同时检验工作(如Jankova & van de Geer (2018)关于高维图模型的同时置信区间)。这可能是作者有意聚焦于VAR模型,但也可能是一个值得研究者去查的缺口。 - 关于“测量误差与时间序列”的交叉文献:作者引用了
Fan et al. (2021)等,但未提及Stock & Watson (2002)等经典的动态因子模型文献,这些模型也处理了观测变量中的测量误差,但通常假设误差结构已知或可估计。这可能是作者认为其设定(误差方差已知)与动态因子模型不同。
- 关于“同时检验”的文献:作者引用了
张力¶
未见明显对立引用。所有被引工作基本在各自的子领域内发展,没有出现针对同一问题得出相反结论的情况。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- \( i = 1, \dots, m \):受试者索引。
- \( t = 1, \dots, T \):时间点索引。
- \( p \):每个时间点观测到的变量数(如脑区数量)。高维意味着 \( p \) 可能大于或接近 \( T \)。
- \( q \):受试者协变量的维度(如年龄、性别、疾病状态)。
- \( \mathbf{Y}_{i,t} \in \mathbb{R}^p \):潜在(无测量误差)的 \( p \) 维时间序列向量,在 \( t \) 时刻对受试者 \( i \)。
- \( \mathbf{X}_{i,t} \in \mathbb{R}^p \):可观测的时间序列向量,是 \( \mathbf{Y}_{i,t} \) 被噪声污染后的版本。
- \( \mathbf{A}_i \in \mathbb{R}^{p \times p} \):受试者 \( i \) 的VAR(1)转移矩阵。这是要推断的核心参数。
- \( \mathbf{z}_i \in \mathbb{R}^q \):受试者 \( i \) 的协变量向量。
- \( \mathbf{B} \in \mathbb{R}^{p \times p \times q} \):一个三阶张量,其第 \( k \) 个切片 \( \mathbf{B}_{:,:,k} \) 表示协变量 \( z_{i,k} \) 对转移矩阵 \( \mathbf{A}_i \) 的线性影响。
- \( \mathbf{\Sigma}_\epsilon \):潜在VAR模型误差 \( \epsilon_{i,t} \) 的协方差矩阵。
- \( \mathbf{\Sigma}_u \):测量误差 \( \mathbf{u}_{i,t} \) 的协方差矩阵。假设已知。
- \( \mathbf{\Gamma}_i(1) = \text{Cov}(\mathbf{Y}_{i,t}, \mathbf{Y}_{i,t-1}) \):潜在过程的滞后1自协方差矩阵。
- \( \mathbf{\Gamma}_i(0) = \text{Var}(\mathbf{Y}_{i,t}) \):潜在过程的方差矩阵。
- \( \widehat{\mathbf{\Gamma}}_i(1) \):基于可观测数据 \( \mathbf{X}_{i,t} \) 计算的滞后1自协方差矩阵的有偏估计量。
- \( \widetilde{\mathbf{\Gamma}}_i(1) \):对 \( \widehat{\mathbf{\Gamma}}_i(1) \) 进行偏差校正后的估计量。
-
模型:
- 潜在VAR(1)模型:\( \mathbf{Y}_{i,t} = \mathbf{A}_i \mathbf{Y}_{i,t-1} + \epsilon_{i,t} \),其中 \( \epsilon_{i,t} \sim N(0, \mathbf{\Sigma}_\epsilon) \) 且独立。
- 测量误差模型:\( \mathbf{X}_{i,t} = \mathbf{Y}_{i,t} + \mathbf{u}_{i,t} \),其中 \( \mathbf{u}_{i,t} \sim N(0, \mathbf{\Sigma}_u) \) 且独立于 \( \mathbf{Y} \) 和 \( \epsilon \)。\( \mathbf{\Sigma}_u \) 被假设为已知(例如,通过重复测量或先验知识估计)。
- 转移矩阵的协变量模型:\( \mathbf{A}_i = \mathbf{A}_0 + \sum_{k=1}^q z_{i,k} \mathbf{B}_{:,:,k} \),其中 \( \mathbf{A}_0 \) 是基线转移矩阵。这是一个线性张量回归模型,将转移矩阵与受试者协变量联系起来。
-
可观测数据:
- 研究者实际能观测到的是:\( \{\mathbf{X}_{i,t}, \mathbf{z}_i\}_{i=1, t=1}^{m, T} \)。即,每个受试者 \( i \) 的 \( T \) 个时间点的噪声污染时间序列 \( \mathbf{X}_{i,t} \),以及该受试者的协变量向量 \( \mathbf{z}_i \)。
- 想要但观测不到的是:
- 潜在时间序列 \( \mathbf{Y}_{i,t} \)。
- 转移矩阵 \( \mathbf{A}_i \)(这是要推断的目标)。
- 张量系数 \( \mathbf{B} \)(这是要估计的参数)。
- 测量误差 \( \mathbf{u}_{i,t} \) 和模型误差 \( \epsilon_{i,t} \)。
第二步:讲最小内核¶
本文的核心思路可以简化为一个两步走的推断问题,其最小内核是在已知测量误差方差 \( \mathbf{\Sigma}_u \) 的情况下,如何从有偏的观测自协方差中恢复出潜在转移矩阵,并检验其是否随协变量变化。
最简特例:假设只有 \( m=2 \) 个受试者,每个受试者只有一个协变量 \( z_i \in \{0, 1\} \)(例如,对照组 vs. 实验组),且 \( p=1 \)(即只有一个时间序列变量)。那么: - 模型退化为:\( Y_{i,t} = a_i Y_{i,t-1} + \epsilon_{i,t} \),其中 \( a_i = a_0 + b z_i \)。 - 可观测数据:\( X_{i,t} = Y_{i,t} + u_{i,t} \),且 \( \text{Var}(u_{i,t}) = \sigma_u^2 \) 已知。 - 核心问题:检验 \( b = 0 \)(即转移矩阵是否受协变量影响)。
在这个特例下,核心思路如下: 1. 偏差校正:基于可观测数据 \( X_{i,t} \),计算有偏的滞后1自协方差估计:
- 张量回归与检验:现在,我们有 \( \widetilde{a}_1 \) 和 \( \widetilde{a}_2 \) 作为 \( a_1 \) 和 \( a_2 \) 的近似。根据模型 \( a_i = a_0 + b z_i \),我们可以通过一个简单的线性回归来估计 \( b \):
\[\widetilde{a}_i = a_0 + b z_i + \text{error}_i\]检验 \( b=0 \) 等价于检验 \( \widetilde{a}_1 = \widetilde{a}_2 \)。在高维(\( p>1 \))情形下,这个“回归”变成了张量回归,检验统计量基于偏差校正后的滞后自协方差矩阵 \( \widetilde{\mathbf{\Gamma}}_i(1) \) 对协变量 \( \mathbf{z}_i \) 的回归。
为什么这个最小内核抓住了核心:它清晰地展示了本文的两个关键步骤:① 利用测量误差的已知方差对观测自协方差进行偏差校正;② 将校正后的自协方差作为“伪响应”,通过张量回归来推断转移矩阵与协变量的关系。论文的一般情形(高维 \( p \)、多受试者 \( m \)、多协变量 \( q \))只是将这个最小内核从标量推广到矩阵/张量,并处理高维带来的正则化与同时检验问题。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在高维多受试者VAR(1)模型中,当观测数据存在已知方差的测量误差时,如何同时检验多个受试者的转移矩阵是否受协变量影响,并控制错误发现率。
- 核心工具/方法:提出一个三组件框架:① 修正的EM算法,用于在测量误差下估计VAR参数;② 基于张量回归的检验统计量,该统计量使用偏差校正后的滞后自协方差矩阵对协变量进行回归;③ 一个经过适当阈值化的同时检验程序,用于控制FDR。
- 主要结论:证明了修正EM估计量的相合性(uniform consistency),并证明了所提同时检验程序能一致控制FDR(即FDR渐近地不超过预设水平),且检验功效渐近趋于1。
关键设定与假设¶
- 设定:\( m \) 个受试者,每个受试者有 \( T \) 个时间点的 \( p \) 维观测 \( \mathbf{X}_{i,t} \)。\( p \) 和 \( m \) 可以随 \( T \) 增长,但 \( \log(p) / T \to 0 \) 且 \( \log(m) / T \to 0 \)(高维稀疏设定)。
- 假设:
- VAR(1)模型:潜在过程 \( \mathbf{Y}_{i,t} \) 服从平稳VAR(1)模型,且转移矩阵 \( \mathbf{A}_i \) 是稀疏的(非零元素个数 \( s = o(T / \log p) \))。相比已有文献:这是高维VAR的标准假设,但本文将其扩展到多受试者。
- 测量误差模型:\( \mathbf{X}_{i,t} = \mathbf{Y}_{i,t} + \mathbf{u}_{i,t} \),且 \( \mathbf{u}_{i,t} \sim N(0, \mathbf{\Sigma}_u) \) 独立于所有 \( \mathbf{Y} \) 和 \( \epsilon \)。关键假设:\( \mathbf{\Sigma}_u \) 已知。相比已有文献:这是本文与许多高维测量误差文献(如
Loh & Wainwright (2012))的关键区别,后者通常假设 \( \mathbf{\Sigma}_u \) 未知但可估计。作者将此假设视为合理,因为fMRI数据中可通过“空白扫描”或“生理噪声模型”估计测量误差方差。 - 张量回归模型:\( \mathbf{A}_i = \mathbf{A}_0 + \sum_{k=1}^q z_{i,k} \mathbf{B}_{:,:,k} \)。相比已有文献:这是
Chen et al. (2021)的线性模型,但本文将其用于检验而非估计。 - 稀疏性:张量系数 \( \mathbf{B} \) 是稀疏的(非零元素个数远小于 \( p^2 q \))。相比已有文献:这是高维张量回归的标准假设。
- 技术性假设:包括对VAR过程平稳性、误差项次高斯性、协变量有界性等的假设,用于建立渐近理论。
主要结果¶
- 定理1(修正EM估计量的相合性):在正则条件下,通过修正EM算法得到的 \( \widehat{\mathbf{A}}_i \) 和 \( \widehat{\mathbf{\Sigma}}_\epsilon \) 是相合的,且满足:
\[\max_{1 \le i \le m} \| \widehat{\mathbf{A}}_i - \mathbf{A}_i^* \|_2 = O_P \left( \sqrt{\frac{\log p}{T}} \right)\]其中 \( \mathbf{A}_i^* \) 是真实转移矩阵。直觉:修正EM算法通过迭代地“去噪”观测数据,恢复潜在过程,从而得到一致的估计。必要条件:\( \mathbf{\Sigma}_u \) 已知,且 \( \log p / T \to 0 \)。
- 定理2(同时检验的FDR控制与功效):对于检验 \( H_{0, jk}: B_{:,:,k} \) 的第 \( (j,k) \) 个元素为0(即协变量 \( k \) 对转移矩阵的第 \( (j,k) \) 个连接无影响),所提同时检验程序满足:
\[\lim_{T \to \infty} \text{FDR} \le \alpha, \quad \lim_{T \to \infty} \text{Power} = 1\]其中 \( \alpha \) 是预设的FDR水平。直觉:检验统计量基于偏差校正后的滞后自协方差对协变量的张量回归,其渐近分布为卡方分布。通过适当的阈值化(基于
Liu (2013)的“高维同时检验”思想),可以控制FDR。必要条件:信号强度(即非零的 \( B_{:,:,k} \) 元素)足够强,且稀疏性条件成立。
证明路线与技术技巧¶
- 整体路线:
- 第一步:偏差校正。证明基于可观测数据 \( \mathbf{X} \) 计算的滞后自协方差 \( \widehat{\mathbf{\Gamma}}_i(1) \) 是潜在滞后自协方差 \( \mathbf{\Gamma}_i(1) \) 的无偏估计,而方差估计 \( \widehat{\mathbf{\Gamma}}_i(0) \) 是有偏的,偏差为 \( \mathbf{\Sigma}_u \)。因此,校正后的方差估计为 \( \widetilde{\mathbf{\Gamma}}_i(0) = \widehat{\mathbf{\Gamma}}_i(0) - \mathbf{\Sigma}_u \)。
- 第二步:修正EM算法。利用偏差校正后的自协方差,构建一个修正的EM算法来估计 \( \mathbf{A}_i \) 和 \( \mathbf{\Sigma}_\epsilon \)。该算法的E步基于卡尔曼平滑(Kalman smoother)来估计潜在状态 \( \mathbf{Y}_{i,t} \),M步则使用Lasso正则化来估计稀疏的 \( \mathbf{A}_i \)。关键:修正体现在E步中,它使用已知的 \( \mathbf{\Sigma}_u \) 来校正观测数据的似然。
- 第三步:构建检验统计量。基于偏差校正后的滞后自协方差 \( \widetilde{\mathbf{\Gamma}}_i(1) \),将其向量化,并对协变量 \( \mathbf{z}_i \) 进行张量回归。回归系数的估计量 \( \widehat{\mathbf{B}} \) 的渐近分布被推导出来。
- 第四步:同时检验。对于每个候选连接 \( (j,k) \),构造一个检验统计量 \( W_{jk} \),其渐近服从卡方分布。然后,使用
Liu (2013)的“高维同时检验”方法,通过一个数据驱动的阈值 \( \tau \) 来筛选显著的连接,并证明该阈值能控制FDR。
- 关键跳跃点:
- 跳跃点1:从有偏观测到无偏自协方差。证明 \( \widehat{\mathbf{\Gamma}}_i(1) \) 的无偏性依赖于测量误差在不同时间点的独立性。这是整个方法的基础,也是作者巧妙利用测量误差结构的地方。
- 跳跃点2:修正EM算法的相合性。在高维设定下,证明带Lasso正则化的EM算法的相合性并非易事。作者利用了
Loh & Wainwright (2012)关于高维M估计的理论,但需要将其扩展到EM框架下,并处理E步中卡尔曼平滑带来的依赖结构。 - 跳跃点3:检验统计量的渐近分布。推导 \( \widehat{\mathbf{B}} \) 的渐近分布需要处理张量回归中的高维误差,以及偏差校正带来的额外变异性。作者使用了经验过程(empirical process)理论来建立均匀收敛性。
- 技术技巧点名:
- 卡尔曼平滑(Kalman smoother):用于在E步中估计潜在状态 \( \mathbf{Y}_{i,t} \),这是处理测量误差的标准时间序列技巧。
- Lasso正则化:用于在M步中估计稀疏的转移矩阵 \( \mathbf{A}_i \) 和张量系数 \( \mathbf{B} \)。
- 经验过程理论(Empirical process theory):用于建立偏差校正后自协方差估计量的均匀收敛性,这是推导检验统计量渐近分布的基础。
Liu (2013)的高维同时检验方法:用于构造阈值,控制FDR。该方法基于检验统计量的极值分布理论。
真实例子与应用¶
- 数据:任务态fMRI数据,来自一个关于情绪面孔处理的实验。受试者观看恐惧或中性面孔图片,同时进行fMRI扫描。数据包含 \( m=46 \) 个受试者,每个受试者有 \( T=168 \) 个时间点,\( p=50 \) 个脑区(ROIs)。协变量 \( \mathbf{z}_i \) 包括:年龄、性别、以及一个任务条件(恐惧 vs. 中性面孔)。
- 方法应用:
- 估计:使用修正EM算法估计每个受试者的转移矩阵 \( \mathbf{A}_i \)。
- 检验:使用所提同时检验程序,检验任务条件(恐惧 vs. 中性)是否显著改变了任何脑区之间的有效连接(即转移矩阵的元素)。
- 结果:发现任务条件显著改变了杏仁核(amygdala)与前额叶皮层(prefrontal cortex) 之间的有效连接。具体来说,恐惧面孔增强了从杏仁核到前额叶皮层的正向连接,而中性面孔则没有。这个结果与已知的神经科学知识一致(杏仁核处理恐惧情绪,前额叶皮层进行认知调控)。
- 这个例子想说明什么:验证了本文方法能够从含测量误差的高维fMRI数据中,发现具有科学意义的、受任务条件调节的有效连接模式,而传统方法(如忽略测量误差或仅估计单个受试者)可能无法检测到这些模式。
🔎 结论是否比证明窄¶
- 窄结论1:定理2的FDR控制依赖于检验统计量的渐近卡方分布,而该分布是在稀疏性假设和信号强度足够强的条件下推导的。作者在结论中声称“一致控制FDR”,但严格证明是在这些条件下成立的。对于弱信号或非稀疏设定,FDR控制可能失效。作者在模拟中验证了中等信号强度下的表现,但未提供理论保证。
- 窄结论2:修正EM算法的相合性(定理1)依赖于\( \mathbf{\Sigma}_u \) 已知这一强假设。作者在讨论中承认,当 \( \mathbf{\Sigma}_u \) 被估计时,理论性质会改变,但未给出相应的理论结果。因此,结论“修正EM估计量相合”严格限于 \( \mathbf{\Sigma}_u \) 已知的情形。
- 泛化claim:作者在引言中声称方法适用于“一般的高维多受试者时间序列”,但证明主要针对VAR(1)模型。对于更高阶的VAR模型(如VAR(2)),方法可能需要调整(例如,需要处理多个滞后项的自协方差),且理论分析会更复杂。作者未讨论这种泛化。
四、开放问题(点到为止,扎根具体语句)¶
- 未知测量误差方差:本文假设 \( \mathbf{\Sigma}_u \) 已知。作者在讨论中写道:“当 \( \mathbf{\Sigma}_u \) 未知时,一个自然的扩展是同时估计 \( \mathbf{\Sigma}_u \) 和转移矩阵。” 这是一个明确的开放问题。要证什么:在 \( \mathbf{\Sigma}_u \) 未知且需估计时,修正EM算法是否仍相合?同时检验程序是否仍能控制FDR?这需要新的识别条件(如重复测量或对 \( \mathbf{\Sigma}_u \) 的结构假设)。
- 非平稳VAR:本文假设VAR过程平稳。作者在讨论中提及:“将方法扩展到非平稳或时变VAR模型是一个有趣的方向。” 要估什么:当转移矩阵随时间变化时,如何定义和检验“受试者条件对转移矩阵的影响”?这可能需要引入状态空间模型或分段平稳模型。
- 非线性因果效应:本文的VAR模型是线性的。作者在引言中引用了一些非线性因果推断工作,但未将其作为主要方向。要证什么:如何将本文的张量回归框架扩展到非线性设定(如使用核方法或神经网络)?同时检验的理论性质(如FDR控制)是否还能保持?
- 计算复杂度与可扩展性:修正EM算法涉及卡尔曼平滑,其计算复杂度为 \( O(m T p^3) \),当 \( p \) 很大时可能成为瓶颈。作者在模拟中使用了 \( p=50 \),但未讨论更大 \( p \) 时的计算可行性。要算什么:能否利用稀疏性(如使用带状矩阵或低秩近似)来加速卡尔曼平滑?或者,能否设计一个不依赖卡尔曼平滑的替代算法(如矩估计法)?
Maintained by 陈星宇 · Homepage · Source on GitHub