Minimax estimation of partially-observed vector autoregressions¶

作者: Guillaume Dalle, Yohann De Castro
来源: Electronic Journal of Statistics
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 高维时间序列（特别是向量自回归 VAR）的稀疏转移矩阵估计，是高维统计与时间序列分析的交叉子领域。其根本统计问题是：当时间序列的维度 \(d\) 远大于观测时间长度 \(n\) 时，如何利用转移矩阵的稀疏性恢复系统的动态结构，并获得非渐近的、显式依赖 \(d, n, s\)（非零元个数）的收敛率。当前该方向在完全观测设定下已高度成熟，收敛率与 minimax 下界已基本闭合；但在部分观测 / 数据缺失设定下，由于观测机制引入的时空相关性破坏了经典高维回归的 i.i.d. 或弱相依结构，收敛率的刻画与 minimax 最优性仍存在明显缺口。

发展脉络 - 奠基工作：Loh & Wainwright (2012) 开创了高维回归中带噪与缺失数据（noisy and missing data）的非凸优化估计框架，证明了在 i.i.d. 设定下，即使数据缺失，投影梯度下降仍能收敛到全局极小值附近，给出了非渐近上界。作者在 intro 中将其定位为“这一趋势的起点”。 - 主要进展（VAR 专化）：随后一系列工作将高维稀疏估计从 i.i.d. 回归搬入 VAR 时间序列设定，推导 Lasso 的非渐近上界： - Basu & Michailidis (2015) 引入基于谱密度的稳定性度量，推导了 \(\ell_1\)-正则化估计的误差界； - Kock & Callot (2015) 建立了 VAR 中 Lasso 的 oracle 不等式，证明了变量选择的符号一致性； - Melnyk & Banerjee (2016) 将结构推广到任意范数（group lasso 等），证明误差阶与 i.i.d. Lasso 同阶。 - 当前 frontier（缺失数据 + 时间序列）：Jalali & Willett (2018) 首次直面“高维 VAR + 随机缺失数据”设定，推导了新的一致性结果与浓度不等式。作者引用此文，但隐含指出其设定仍局限于观测缺失是随机的、但观测到的那部分是干净的，且未给出 minimax 下界以闭合收敛率。 - 本文的位置：本文推进到部分观测 + 观测带噪 + 观测机制本身具有时间相关性的 VAR 设定，构造了基于 Yule-Walker 与 Dantzig selector 的估计器，给出了上界，并首次给出了匹配的 minimax 下界，闭合了收敛率。

子线索聚类 1. 高维回归的缺失/带噪数据适应（i.i.d. 设定）：Loh & Wainwright (2012) 为代表，处理 \(y = X\beta + z\) 中 \(X\) 有缺失或加噪的情形，核心是修正设计矩阵使之满足 restricted eigenvalue 条件。 2. 高维 VAR 的完全观测稀疏估计：Basu & Michailidis (2015), Kock & Callot (2015), Melnyk & Banerjee (2016), Han et al. (2015)（用线性规划替代 Lasso）。核心是处理时间序列的谱稳定性与相依样本的浓度不等式。 3. 高维 VAR 的部分观测/缺失数据估计：Jalali & Willett (2018) 为代表，处理观测随机缺失但无额外加噪的 VAR，推导一致性。本文属于此簇的推进。

这个方向在追问的核心问题 1. 观测缺失与加噪如何改变高维 VAR 估计的收敛率？ 采样比例 \(\pi\)、噪声方差 \(\sigma_\epsilon^2\)、稀疏度 \(s\) 如何进入收敛率的指数或对数项？ 2. 观测机制的时间相关性（非 i.i.d. 缺失）是否引入额外的统计代价？ 经典浓度不等式在 Markov 相依采样下是否仍成立，代价因子是什么？ 3. 在部分观测设定下，minimax lower bound 是什么？ 上界给出的率是否可达，是否存在统计-计算间隙？

⚠️ 作者的 framing（这是作者的说法） - 作者将缺口 frame 为：已有 VAR 缺失数据工作（如 Jalali & Willett 2018）未考虑观测噪声，且未考虑观测机制本身的时间相关性，更未提供 minimax 下界以验证估计器的近最优性。这使得本文的“带噪 + 时间相关采样 + minimax 下界”设定成为显然的下一步。 - 被淡化的竞争路线：Intro 几乎未讨论基于 EM 算法或状态空间模型滤波（Kalman filter 变体）的估计路线，仅在 Loh & Wainwright 的引用中提及“EM 导致非凸优化难以保证全局收敛”。此外，对 Lasso 与 Dantzig selector 的比较仅引用 Bickel et al. (2009) 说两者行为类似但 Dantzig 有计算优势，未深入讨论 Lasso 在此设定下的下界是否也可闭合。 - 明显该被引却未出现的：关于 Markov 链浓度不等式的更系统工作（如 Paulin 2015 的 Chernoff bound for Markov chains，本文仅引用了 Chung et al. 2012 的简化版），以及高维缺失数据下 Lasso 的更近进展（如 S. Negahban 等的统一框架）。这值得研究者去查：作者是否刻意回避了能统一处理 Markov 相依的更强浓度工具？

张力未见明显对立引用。各工作均在不同设定（i.i.d. vs 时间序列、完全观测 vs 随机缺失）下推导上界，结论形式相似（\(\sqrt{s \log d / n}\) 的变体），未见在相同设定下得出相反收敛率的冲突。唯一隐含张力是：Loh & Wainwright (2012) 在 i.i.d. 缺失下证明非凸优化可达全局极小，而本文退回凸优化（Dantzig selector），暗示在带噪 + 时间相关采样下非凸优化的全局收敛保证可能不再成立，但未显式论证。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(d\)：状态向量的维度（系统总变量数）。
\(n\)：离散时间点的总数（时间序列长度）。
\(s\)：转移矩阵 \(\Theta\) 的每行非零元素个数的最大值（行稀疏度）。
\(\Theta \in \mathbb{R}^{d \times d}\)：VAR(1) 的转移矩阵（要估的目标参数 / estimand）。
\(X_t \in \mathbb{R}^d\)：时间 \(t\) 的潜在状态向量（不可直接观测）。
\(E_t \in \mathbb{R}^d\)：时间 \(t\) 的系统噪声（驱动 VAR 的创新项），服从 i.i.d. \(\mathcal{N}(0, \Sigma_E)\)，\(\Sigma_E\) 对角阵，方差为 \(\sigma_E^2\)。
\(O_t \in \{0, 1\}^d\)：时间 \(t\) 的观测指示向量（随机变量），\(O_{t,i} = 1\) 表示第 \(i\) 个分量在时间 \(t\) 被采样。
\(\epsilon_t \in \mathbb{R}^d\)：时间 \(t\) 的观测噪声（不可观测），\(O_{t,i} = 1\) 时叠加在真实状态上。
\(Y_t \in \mathbb{R}^d\)：时间 \(t\) 的可观测数据（研究者实际拿到的样本），定义为：
\[Y_{t,i} = O_{t,i} (X_{t,i} + \epsilon_{t,i})\]
即：若未被采样（\(O_{t,i}=0\)），\(Y_{t,i}=0\)；若被采样，\(Y_{t,i}\) 是真实状态加观测噪声。
\(\pi\)：采样比例，\(\mathbb{E}[O_{t,i}] = \pi\)（每个分量每个时间点被采样的概率）。
\(\rho\)：观测过程 \(O_t\) 的时间相关性参数（Markov 链的混合率相关）。
\(\sigma_\epsilon^2\)：观测噪声 \(\epsilon_t\) 的方差（每个被采样分量的加噪强度）。
\(\Gamma_h\)：状态过程 \(X_t\) 的滞后 \(h\) 自协方差矩阵，\(\Gamma_h = \mathbb{E}[X_t X_{t-h}^\top]\)。
\(\hat{\Gamma}_h\)：基于可观测数据 \(Y_t\) 构造的 \(\Gamma_h\) 的修正样本自协方差（本文的核心构造）。

模型（数据生成机制） 1. 潜在 VAR(1) 过程：\(X_t = \Theta X_{t-1} + E_t\)，\(E_t\) i.i.d. 高斯，\(\Theta\) 稳定（谱半径 \(<1\)）。 2. 观测机制：\(O_t\) 是一个平稳 Markov 链（或满足某种时间相依结构），转移矩阵决定 \(\rho\)，稳态分布给出 \(\pi\)。 3. 观测噪声：\(\epsilon_t\) i.i.d. 高斯，与 \(X_t, O_t\) 独立。 4. 可观测数据：研究者只拿到 \(\{Y_1, \ldots, Y_n\}\)，其中 \(Y_t\) 由上述 \(O_t, X_t, \epsilon_t\) 联合生成，0 值既可能代表“未采样”也可能代表“采样到 0”（本文通过假设 \(X_t\) 无 0 均值分量或通过修正项回避了此混淆）。

第二步：讲最小内核（\(d=1\)，单变量，最简特例）

剥掉所有高维与矩阵结构，考虑 \(d=1\) 的 VAR(1)：

\[X_t = \theta X_{t-1} + E_t, \quad |\theta| < 1, \quad E_t \sim \mathcal{N}(0, \sigma_E^2)\]

此时 \(\Gamma_0 = \mathbb{E}[X_t^2] = \frac{\sigma_E^2}{1-\theta^2}\)，\(\Gamma_1 = \mathbb{E}[X_t X_{t-1}] = \theta \Gamma_0\)。 Yule-Walker 方程退化为：\(\theta = \Gamma_1 / \Gamma_0\)。

观测机制：每个时间点 \(t\)，以概率 \(\pi\) 观测到 \(Y_t = X_t + \epsilon_t\)（\(\epsilon_t \sim \mathcal{N}(0, \sigma_\epsilon^2)\)），以概率 \(1-\pi\) 观测到 \(Y_t = 0\)（缺失）。观测指示 \(O_t\) 是 Markov 链，混合时间与 \(\rho\) 相关。

核心思路：由于 \(Y_t\) 有缺失与加噪，直接用 \(Y_t Y_{t-1}\) 估计 \(\Gamma_1\) 会严重偏离。本文构造修正样本自协方差：

\[\hat{\Gamma}_1 = \frac{1}{n} \sum_{t=2}^n \frac{Y_t Y_{t-1}}{\pi^2} - \text{噪声修正项}\]

（分母 \(\pi^2\) 补偿缺失概率，噪声修正项减去 \(\mathbb{E}[\epsilon_t \epsilon_{t-1}]\) 的估计以消除观测噪声的偏置）。同理构造 \(\hat{\Gamma}_0\)。

估计器：在 \(d=1\) 下，Dantzig selector 退化为：

\[\hat{\theta} = \arg\min |\theta|, \quad \text{s.t.} \quad |\hat{\Gamma}_1 - \theta \hat{\Gamma}_0| \leq \lambda_1\]

其中 \(\lambda_1\) 是浓度不等式给出的阈值，依赖 \(\pi, \sigma_\epsilon, \rho, n\)。

要证的命题（退化形式）：在适当 \(\lambda_1\) 选择下，

\[|\hat{\theta} - \theta| \leq C \cdot \frac{\lambda_1}{\Gamma_0}\]

且 minimax 下界表明，任何估计器在部分观测设定下的误差下界亦为 \(\Omega(\lambda_1 / \Gamma_0)\)，故 \(\hat{\theta}\) 近最优。

为什么成立： 1. 修正自协方差 \(\hat{\Gamma}_h\) 是 \(\Gamma_h\) 的无偏估计（乘 \(1/\pi^2\) 补缺失，减噪声项补加噪）。 2. 由于 \(O_t\) 是 Markov 链，\(\hat{\Gamma}_h\) 的方差不能用 i.i.d. Bernstein，必须用Markov 链的浓度不等式（Chung et al. 2012），引入混合时间因子 \(\rho\)，使得 \(\lambda_1 \approx \sqrt{\frac{s \log d}{n \pi^2}} + \frac{\sigma_\epsilon^2}{\pi}\) 的变体。 3. Dantzig selector 的约束保证 \(\hat{\theta}\) 在 \(\ell_1\) 球内且满足 Yule-Walker 近似等式，结合 \(\hat{\Gamma}_0\) 的 restricted eigenvalue 条件（由 \(\Gamma_0\) 的谱性质保证），推出误差界。

最小内核揭示了什么：整篇论文的数学本质是在相依采样下构造无偏自协方差估计，并用 Markov 浓度不等式控制其偏差，再套用高维 Dantzig selector 的标准误差界框架。一般 \(d\) 维情形只是将标量 \(\theta\) 换成矩阵 \(\Theta\)，将 \(\Gamma_0\) 的正定性换成 restricted eigenvalue 条件，将浓度不等式换成矩阵/向量形式。

三、这篇论文做了什么¶

三句话 ①研究了高维 VAR(1) 过程在部分观测（随机缺失 + 观测加噪 + 采样过程时间相依）设定下稀疏转移矩阵 \(\Theta\) 的估计问题； ②核心工具是基于修正样本自协方差的 Yule-Walker 方程 + Dantzig selector，并利用 Markov 链浓度不等式控制估计偏差； ③主要结论是给出了估计器的非渐近 \(\ell_1 / \ell_2\) 误差上界，并构造了匹配的 minimax 下界，证明了近最优性，收敛率显式揭示了采样比例 \(\pi\)、噪声 \(\sigma_\epsilon\)、稀疏度 \(s\) 与时间相关性 \(\rho\) 的作用。

关键设定与假设 在第二节最小记号基础上补全： - VAR(1) 稳定性：\(\Theta\) 的谱半径 \(\rho(\Theta) < 1\)（保证 \(X_t\) 平稳），等价于存在 \(c > 0, \rho_0 \in (0,1)\) 使得 \(\|\Theta^k\| \leq c \rho_0^k\)。统计含义：过程有界记忆，自协方差 \(\Gamma_h\) 随 \(h\) 指数衰减。 - 行稀疏性：\(\Theta\) 每行至多 \(s\) 个非零元，\(\|\Theta_{i,\cdot}\|_0 \leq s\)。统计含义：每个变量只依赖少数其他变量，高维估计可行。 - 观测机制：\(O_t\) 是平稳 Markov 链，稳态分布 \(\pi\)，混合时间 \(t_{\text{mix}}\)（或谱隙 \(1-\rho\)）。假设 \(O_t\) 与 \(X_t, E_t\) 独立。统计含义：缺失模式有时间聚集性但最终混合，不可观测与系统动态解耦。 - 观测噪声：\(\epsilon_t\) i.i.d. \(\mathcal{N}(0, \sigma_\epsilon^2 I_d)\)，与 \(O_t, X_t\) 独立。统计含义：测量误差是加性白噪。 - 自协方差谱条件：\(\Gamma_0\) 的最小特征值 \(\lambda_{\min}(\Gamma_0) \geq \kappa > 0\)（保证 restricted eigenvalue 条件）。统计含义：系统各方向均有足够方差，避免退化。 - 与已有文献的对比：相比 Jalali & Willett (2018)，本文增加了观测噪声 \(\epsilon_t\)（他们的 \(Y_t = O_t X_t\)，无加噪），且允许 \(O_t\) 是 Markov 链（他们假设 \(O_t\) i.i.d.）。相比 Loh & Wainwright (2012)，本文处理时间序列相依而非 i.i.d. 回归。

主要结果 1. 定理 3.1（估计器上界）：在上述假设下，选择合适的正则化参数 \(\lambda_1\)（显式公式依赖 \(\pi, \sigma_\epsilon, \rho, s, d, n\)），Dantzig selector 估计器 \(\hat{\Theta}\) 满足：

\[\|\hat{\Theta} - \Theta\|_{\ell_1 / \ell_2} \leq C \cdot s \cdot \frac{\lambda_1}{\kappa}\]

其中 \(\lambda_1\) 的阶为 \(\sqrt{\frac{\log d}{n \pi^2}} + \frac{\sigma_\epsilon^2}{\pi}\)（忽略 \(\rho\) 的对数因子）。 - 直觉：缺失比例 \(1-\pi\) 使有效样本量缩为 \(n \pi^2\)（因自协方差涉及两个时间点的乘积，需两点均被采样），观测噪声 \(\sigma_\epsilon^2\) 引入额外偏置项 \(\sigma_\epsilon^2 / \pi\)。 - 必要条件：\(n \pi^2 \gg s \log d\)（有效样本量需超过稀疏度与维度的对数），且 \(\sigma_\epsilon^2 / \pi\) 不能太大（噪声不能淹没信号）。

定理 4.1（Minimax 下界）：对于任何估计器 \(\tilde{\Theta}\)，在部分观测 VAR(1) 模型类上，
\[\inf_{\tilde{\Theta}} \sup_{\Theta} \mathbb{E}[\|\tilde{\Theta} - \Theta\|_{\ell_1 / \ell_2}] \geq c \cdot s \cdot \left( \sqrt{\frac{\log d}{n \pi^2}} + \frac{\sigma_\epsilon^2}{\pi} \right) / \kappa\]
直觉：下界与上界同阶，证明 Dantzig selector 近最优。
技术难点：构造多个“难以区分”的 \(\Theta\) 假设，使得在部分观测下它们的似然比被 \(\pi\) 与 \(\sigma_\epsilon\) 调控，用 Fano 不等式或 Le Cam 方法推导下界。

证明路线与技术技巧 - 整体路线： 1. 构造修正自协方差：定义 \(\hat{\Gamma}_0, \hat{\Gamma}_1\)，证明它们是 \(\Gamma_0, \Gamma_1\) 的无偏估计（乘 \(1/\pi^2\) 补缺失，减噪声协方差补加噪）。 2. 浓度不等式：用 Markov 链的 Chernoff-Hoeffding 界（Chung et al. 2012）控制 \(\|\hat{\Gamma}_h - \Gamma_h\|\) 的偏差，得到 \(\lambda_1\) 的显式阈值。 3. Restricted eigenvalue 条件：证明 \(\hat{\Gamma}_0\) 在高概率下满足 RE 条件（基于 \(\Gamma_0\) 的谱性质与浓度界）。 4. Dantzig selector 误差界：套用 Bickel et al. (2009) 的标准框架，从 RE 条件与约束偏差推出 \(\|\hat{\Theta} - \Theta\|\) 的界。 5. Minimax 下界：构造稀疏 \(\Theta\) 的局部假设集，用 Fano 不等式推导下界，匹配上界阶。

关键跳跃点：
Markov 链浓度不等式的适配：\(\hat{\Gamma}_h\) 涉及 \(O_t O_{t-h} X_t X_{t-h}\) 的求和，由于 \(O_t\) 是 Markov 链，该求和不是 i.i.d. 也不是函数的简单 Markov 链（因涉及滞后 \(h\) 的乘积）。作者必须将 \(O_t O_{t-h}\) 的相依结构拆解，用 Chung et al. (2012) 的 Markov Chernoff 界处理，引入混合时间因子。这是证明中最吃功夫的引理（Lemma B.3/B.4 附近）。
噪声修正项的控制：\(\hat{\Gamma}_0\) 的构造中减去 \(\frac{\sigma_\epsilon^2}{\pi} I_d\) 以消除 \(\epsilon_t\) 的偏置，但 \(\sigma_\epsilon^2\) 未知时需用估计值，这引入额外偏差，作者在定理中假设 \(\sigma_\epsilon^2\) 已知或用保守上界替代（这是一个简化，见后文“结论比证明窄”部分）。
技术技巧点名：
Markov 链浓度不等式（Chung et al. 2012）：用于控制 \(\hat{\Gamma}_h\) 的偏差，替代 i.i.d. Bernstein，引入混合时间 \(t_{\text{mix}}\) 的对数因子。
Yule-Walker 方程修正：将 VAR 的自协方差与转移矩阵的线性关系 \(\Gamma_1 = \Theta \Gamma_0\) 搬到部分观测设定，用修正 \(\hat{\Gamma}_h\) 替代 \(\Gamma_h\)。
Dantzig selector 框架（Candès & Tao 2005, Bickel et al. 2009）：将估计问题化为线性约束下的 \(\ell_1\) 最小化，利用 RE 条件推出误差界。
Fano 不等式 / Le Cam 方法：用于 minimax 下界，构造局部假设集使似然比在部分观测下被 \(\pi, \sigma_\epsilon\) 调控。
谱稳定性传递（Basu & Michailidis 2015）：用 \(\Theta\) 的谱半径条件保证 \(\Gamma_0\) 的 RE 条件，从系统动态性质导出估计所需的设计矩阵性质。

真实例子与应用 本文包含模拟实验（无真实数据例子）： - 用的什么数据：合成数据，生成 VAR(1) 过程（\(d=50, 100\)），转移矩阵 \(\Theta\) 为随机稀疏 Erdős-Rényi 图，观测机制 \(O_t\) 为 Markov 链（不同 \(\pi\) 与混合时间），观测噪声 \(\epsilon_t\) 为高斯（不同 \(\sigma_\epsilon^2\)）。 - 怎么把本文方法用上去：对合成数据计算修正自协方差 \(\hat{\Gamma}_0, \hat{\Gamma}_1\)，用 Dantzig selector（通过 CVXPY / JuMP 求解线性规划）估计 \(\hat{\Theta}\)，计算 \(\|\hat{\Theta} - \Theta\|_{\ell_1 / \ell_2}\)。 - 得到什么结果：误差随 \(n\) 增大而下降，随 \(\pi\) 减小或 \(\sigma_\epsilon^2\) 增大而上升，与理论预测的收敛率趋势吻合。对比了不同 \(\pi\) 与 \(\sigma_\epsilon^2\) 组合下的误差曲线。 - 这个例子想说明什么：验证理论收敛率对关键参数（\(\pi, \sigma_\epsilon, n\)）的依赖关系，展示 Dantzig selector 在部分观测设定下的实际可行性（线性规划可解）。

🔎 结论是否比证明窄 - 噪声方差 \(\sigma_\epsilon^2\) 的已知性：定理 3.1 的证明中，修正自协方差 \(\hat{\Gamma}_0\) 减去了 \(\frac{\sigma_\epsilon^2}{\pi} I_d\)，这要求 \(\sigma_\epsilon^2\) 已知。作者在文中未显式处理 \(\sigma_\epsilon^2\) 未知的情形，仅在模拟中假设已知。这是一个证明严格依赖的条件，但被泛泛 claim 为适用于“带噪观测”——若 \(\sigma_\epsilon^2\) 未知需估计，额外偏差如何影响 \(\lambda_1\) 与 RE 条件，证明未覆盖。 - 观测指示 \(O_t\) 与 \(X_t\) 的独立性：证明全程假设 \(O_t\) 与系统动态 \(X_t\) 独立（缺失机制与状态无关）。这在现实中常不成立（如传感器在信号强时更易触发），但作者未讨论此假设的放宽，结论的“部分观测”框架比证明的“随机缺失”设定更宽。

四、开放问题（点到为止，扎根具体语句）¶

\(\sigma_\epsilon^2\) 未知时的估计与误差界：定理 3.1 依赖 \(\sigma_\epsilon^2\) 已知以构造修正自协方差（减去 \(\frac{\sigma_\epsilon^2}{\pi} I_d\)）。若 \(\sigma_\epsilon^2\) 未知，需从数据中估计（如用重复观测或方差分解），这引入额外偏差与浓度要求。扎根点：定理 3.1 的证明步骤 1 中“减去噪声协方差”的操作，以及模拟实验中假设 \(\sigma_\epsilon^2\) 已知。
观测机制 \(O_t\) 与状态 \(X_t\) 相依（非随机缺失）：当前假设 \(O_t\) 与 \(X_t\) 独立（Section 2.2 的观测模型定义），但现实中缺失常与状态相关（如 censoring）。放宽此假设后，修正自协方差的无偏性是否仍成立？扎根点：Section 2.2 的“\(O_t\) is independent of \(X_t\) and \(E_t\)”假设，以及 intro 中对“realistic data acquisition scenarios”的 claim（现实场景常含状态相依缺失）。
VAR(\(p\))（\(p > 1\)）的推广：本文仅处理 VAR(1)，Yule-Walker 方程为 \(\Gamma_1 = \Theta \Gamma_0\)。VAR(\(p\)) 的 Yule-Walker 涉及块矩阵与多滞后自协方差，部分观测下的修正与浓度不等式需推广。扎根点：Section 2.1 仅定义 VAR(1)，intro 未显式讨论高阶推广的困难。
非高斯创新 \(E_t\) 与重尾观测噪声：浓度不等式依赖高斯或次高斯假设（Chung et al. 2012 的 Markov Chernoff 界要求有界或次高斯），重尾下是否仍可用替代浓度工具（如 sub-exponential Markov 界）闭合收敛率？扎根点：附录 B 的浓度不等式证明依赖次高斯矩条件。

要确认某条是否真 gap，建议读同子领域（高维 VAR 缺失数据估计）近期约 5 篇的 intro：若都指向“未知噪声方差 / 非随机缺失 / VAR(\(p\))”为局限 = 共识真 gap；若互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Minimax estimation of partially-observed vector autoregressions¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论