ℓ1-regularized generalized least squares¶

作者: Kaveh S. Nobari, Alex Gibberd
来源: Electronic Journal of Statistics
主题: 高维统计 / 随机矩阵
相关性: 6/10
机构绿灯: London School of Economics and Political Science（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/26-ejs2515

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理高维稀疏线性回归中误差项存在相关结构（特别是时间序列自相关） 的问题。经典的高维稀疏回归（LASSO）假设误差为独立同分布的噪声，但这一假设在涉及时间序列、空间数据或面板数据的应用中常被违背。如果忽视误差相关性，LASSO的预测和变量选择性质会退化。因此，该子方向的核心问题是：如何在保持高维稀疏性和计算可行性的前提下，对已知或未知的误差协方差结构进行调整，以恢复或接近广义最小二乘（GLS）的效率。

发展脉络¶

奠基工作 (LASSO, Tibshirani 1996)：ℓ1-正则化最小二乘。建立了高维稀疏估计的基本框架。留下的问题：误差独立同分布假设在时序数据中不成立。
主要进展 1 (带相关误差的LASSO变体)：若干工作尝试将误差相关结构纳入高维估计框架，例如在优化目标中加入对误差协方差的显式建模（如广义LASSO），或对数据进行预白化（pre-whitening）再运行LASSO。
主要进展 2 (可行GLS的首次提出与理论)：本文直接引用的工作是[Ehrenreich and Brown 2023, 引文1]等，它们提出了一个两步程序：先做普通LASSO，用残差估计AR(1)参数，再做白化后LASSO。留下的口子：[Ehrenreich and Brown 2023] 的分析限于确定性设计，且重点放在AR(1)误差这一特例上。
当前前沿与本文位置：Nobari和Gibberd的文章将可行性GLS-LASSO扩展至sub-Gaussian随机设计和任意阶自回归误差 (AR(p))。它的关键创新在于：严格刻画了白化旋转（whitening rotation）过程对设计矩阵受限特征值条件（Restricted Eigenvalue Condition）的影响，并据此推出了非渐近估计误差界。它的位置是“把可行性GLS-LASSO从确定性设计和AR(1)的‘易处理特例’，推广到随机设计和一般AR(p)的理论上更通用的设定”。

子线索聚类¶

聚类1: 纯高维稀疏回归理论 (LASSO, 相容性条件, 受限特征值等)。这是基石，但未处理误差相关。
聚类2: 带相依误差的扩展 (GLS-LASSO, 前沿工作如Ehrenreich and Brown 2023, 可能还包括带mixing误差的LASSO理论)。这是本文的直接竞争/先驱。
聚类3: 估计误差协方差的结构 (可行GLS步骤)：这是方法的关键组成部分，通常用Yule-Walker方程或CSS估计AR系数。其理论在高维场景下的收敛性（特别是基于LASSO残差）是本文分析的核心瓶颈之一。

核心追问与瓶颈¶

白化旋转对高维设计的影响：旋转是否会恶化设计矩阵的条件数/受限特征值，从而损害LASSO的估计性能？这是本方向最具体的理论问题。
残差估计误差的传播：第一步LASSO的估计误差如何传播到第二步的AR系数估计？这个噪音又如何在第三步的旋转与LASSO中累积？
何时比普通LASSO更好？：理论必须精确描述出“误差自相关足够强，以至于值得付出额外步骤”的阈值。

⚠️ 作者的Framing¶

作者的缺口定义：作者将缺口明确frame为“从确定性设计到随机设计，从AR(1)到AR(p)”。他们把已有工作（[1]等）定义为一个‘特定设计的易处理起点’，而自己的工作是‘迈向更通用随机设定的一般理论’。
淡化/回避的竞争路线：作者明确提到了他的工作与带mixing误差的LASSO理论不同。他选择了绝对可行的GLS步骤，而回避了如果误差协方差是完全未知（非参数）时的情况。这回避了一条潜在更复杂的路线。
值得查证的问题：Intro中没有引用任何关于带相关误差的高维惩罚GMM或工具变量的文献。在高维时间序列计量经济学中，这类方法也很常见（如带惩罚的GMM估计器）。作者为什么没有把那条线路作为竞争/替代来讨论？这是一个值得去查的信号。

张力¶

未见明显对立引用。但是存在一个潜在的、未被明确处理的张力：如果误差相关性很弱（接近白噪声），可行GLS-LASSO是否可能比普通LASSO表现更差（因为第一步估计的AR参数会引入额外噪音和旋转的随机性）？ 作者在模拟中触及了这个“持平”情况，但理论上未给出一个严格的强弱判别准则（即自相关强度到底多大时，GLS-LASSO的误差界严格小于普通LASSO）。

二、最核心、最简单的例子 / 数学问题¶

符号、模型、可观测数据交代¶

符号：
- \( n \) : 样本量。
- \( p \) : 特征维度， \( p \gg n \) 的高维情形是兴趣核心。
- \( \mathbf{y} \in \mathbb{R}^n \) : 观测到的响应向量。
- \( \mathbf{X} \in \mathbb{R}^{n \times p} \) : 设计矩阵（特征矩阵）。
- \( \boldsymbol{\beta}^* \in \mathbb{R}^p \) : 真实的、稀疏的回归系数向量（参数/estimand）。
- \( \boldsymbol{\varepsilon} \in \mathbb{R}^n \) : 误差向量。不可观测，假定服从一个平稳的AR(p)过程。
- \( \boldsymbol{\Sigma}_\varepsilon \in \mathbb{R}^{n \times n} \) : 误差协方差矩阵（未知，由其AR系数决定）。
- \( \mathbf{\Omega} \in \mathbb{R}^{n \times n} \) : 旋转矩阵/白化矩阵，满足 \( \boldsymbol{\Omega}^{\top} \boldsymbol{\Omega} = \boldsymbol{\Sigma}_\varepsilon^{-1} \)，即 \( \mathbf{\Omega} \) 是 \( \boldsymbol{\Sigma}_\varepsilon^{-1/2} \) 的平方根。
- \( \widetilde{\mathbf{y}} = \boldsymbol{\Omega} \mathbf{y} \) ; \( \widetilde{\mathbf{X}} = \boldsymbol{\Omega} \mathbf{X} \) : 旋转后的响应与设计矩阵。
- \( \hat{\boldsymbol{\beta}}^{\text{GLS}} \) ; \( \hat{\boldsymbol{\beta}}^{\text{feas. GLS}} \) ：理论GLS和可行GLS的LASSO估计量。
- \( \theta \) : 自回归系数模。
模型： \(\mathbf{y} = \mathbf{X}\boldsymbol{\beta}^* + \boldsymbol{\varepsilon}\) 其中 \(\varepsilon_t\) 是均值为零的平稳AR(p)过程： \(\varepsilon_t = \phi_1\varepsilon_{t-1} + \cdots + \phi_p\varepsilon_{t-p} + w_t\), \(w_t\) 是均值为零、方差为 \(\sigma^2\) 的独立同分布白噪声。该AR过程是因果的 (对应的特征多项式根在单位圆外)，保证了平稳性和可逆性。
可观测数据：
- 研究者在第一步直接观测到：完整的数据集 \( \{ (\mathbf{x}_i, y_i) \}_{i=1}^n \)，其中 \(\mathbf{x}_i\) 是第i个观测的p维特征向量。
- 研究者能计算/估计但不能直接观测：
  - 第一步LASSO估计得到 \( \hat{\boldsymbol{\beta}}^{\text{LASSO}} \) 和残差 \(\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}^{\text{LASSO}}\)。
  - 基于残差，通过Yule-Walker方程或CSS估计AR系数 \( \hat{\phi}_1, \dots, \hat{\phi}_p \)。
  - 进而构造 \( \hat{\boldsymbol{\Sigma}}_\varepsilon \) 和 \( \hat{\boldsymbol{\Omega}} \)，从而得到旋转后的数据 \( \widetilde{\mathbf{y}}, \widetilde{\mathbf{X}} \)。
- 永远不可观测/只能通过假设识别：真实的、准确的误差项 \( \boldsymbol{\varepsilon} \) 及其真正的AR系数 \( \phi_j \)。白化旋转的精确性是建立在这些系数的一致估计之上的。

最小内核：AR(1) 误差下的GLS-LASSO¶

剥去所有一般性，这个论文的核心思路在AR(1) (\( p=1, \varepsilon_t = \phi \varepsilon_{t-1} + w_t \))的特例下展现得最清楚。

全流程（在特例下）： 1. 初始LASSO：求解标准LASSO \( \hat{\boldsymbol{\beta}}^{(1)} = \arg\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|_2^2 + \lambda_1 \|\boldsymbol{\beta}\|_1 \)。得到一个稀疏的初始估计。得到残差 \( \hat{\varepsilon}_t = y_t - \mathbf{x}_t^{\top}\hat{\boldsymbol{\beta}}^{(1)} \)。 2. AR(1)参数估计：用OLS或Yule-Walker法，基于残差估计 \( \hat{\phi} = \frac{\sum_{t=2}^n \hat{\varepsilon}_t \hat{\varepsilon}_{t-1}}{\sum_{t=1}^{n-1} \hat{\varepsilon}_t^2} \)。 3. 白化旋转：构造旋转矩阵。对于AR(1)，一个方便的表达式是： \( \boldsymbol{\Omega} = \begin{pmatrix} \sqrt{1-\phi^2} & 0 & \cdots & 0 \\ -\phi & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & -\phi & 1 \end{pmatrix}_{n \times n} \) 对应的旋转操作为： \( \tilde{y}_1 = \sqrt{1-\phi^2} y_1 \); \( \tilde{y}_t = y_t - \phi y_{t-1} \) 对于 \( t = 2, \dots, n \)。对设计矩阵同样的操作：\( \tilde{\mathbf{x}}_1 = \sqrt{1-\phi^2} \mathbf{x}_1 \); \( \tilde{\mathbf{x}}_t = \mathbf{x}_t - \phi \mathbf{x}_{t-1} \)。 核心概念：这个旋转白化了误差，使\( \boldsymbol{\Omega}\boldsymbol{\varepsilon} \)成为独立同分布的白噪声（因为 \( \varepsilon_t - \phi\varepsilon_{t-1} = w_t \)）。现在模型变成 \( \tilde{\mathbf{y}} = \tilde{\mathbf{X}}\boldsymbol{\beta}^* + \tilde{\mathbf{w}} \)，其中误差 \( \tilde{\mathbf{w}} \) 是独立同分布的。 4. 最终LASSO：在旋转后的数据上求解LASSO： \( \hat{\boldsymbol{\beta}}^{(2)} = \arg\min_{\boldsymbol{\beta}} \|\tilde{\mathbf{y}} - \tilde{\mathbf{X}}\boldsymbol{\beta}\|_2^2 + \lambda_2 \|\boldsymbol{\beta}\|_1 \)。

为什么这个最小核抓住了论文的数学本质： - 旋转对设计矩阵的影响：\( \widetilde{\mathbf{X}} = \boldsymbol{\Omega}(\phi) \mathbf{X} \)。论文的核心理论任务，就是在随机设计的假设下，分析 \(\widetilde{\mathbf{X}}\) 的受限特征值条件 (Restricted Eigenvalue Condition, REC) 比 \(\mathbf{X}\) 的REC是更好还是更糟。在AR(1)例子中，旋转是一个稀疏的、依赖\(\phi\)的线性变换。直觉上，如果\(\phi > 0\) (正自相关)，则 \(\tilde{\mathbf{x}}_t = \mathbf{x}_t - \phi \mathbf{x}_{t-1}\) 可以看作对时间序列作“差分”减去一个趋势。如果 \(\mathbf{x}_t\) 本身是时间上平滑的（比如缓慢变化的趋势变量），那么这个旋转会起到去相关/去趋势的作用，可能使\(\widetilde{\mathbf{X}}\)的列相关性减弱，从而改善REC条件。如果\(\phi \approx 1\)（非平稳边缘），那旋转几乎就是一个差分算子，本质上是做预白化。这就是论文分析的落脚点：旋转不会使REC条件变差（在弱回归性假设下），甚至可能改善。

这个特例下的数学结论是：\( \|\hat{\boldsymbol{\beta}}^{(2)} - \boldsymbol{\beta}^*\|_2 \) 的上界受限于\( \widetilde{\mathbf{X}} \)的REC（和噪声水平），而后者通过旋转与\( \mathbf{X} \)的REC以及\( \phi \)相关。这就是Nobari和Gibberd全文的核心“最小内核”的具象化。

三、这篇论文做了什么（重心）¶

三句话¶

研究了什么问题：在高维稀疏线性回归中，当误差服从未知的平稳AR(p)过程时，提出了一个三步可行GLS-LASSO估计器，并建立了其在sub-Gaussian随机设计下的有限样本误差界。
核心工具/方法：核心方法是用第一步LASSO的残差来估计AR(p)参数，然后用估计的白化矩阵\( \hat{\boldsymbol{\Omega}} \)对数据进行旋转（白化），最后在旋转后的数据上运行LASSO。核心理论工具是分析旋转对设计矩阵受限特征值条件的影响。
主要结论：证明该可行GLS-LASSO的估计误差上界，是由普通LASSO在旋转后的设计\( \tilde{\mathbf{X}} \)上的误差界加上一个来自AR系数估计误差的项形成的。当误差存在显著自相关时，该界比未调整的LASSO更紧。在不存在自相关（白噪声）时，该界与普通LASSO持平。

关键设定与假设¶

在第二节的最小标记基础上，增加/明确： - 假设1 (Sub-Gaussian随机设计)：设计矩阵\( \mathbf{X} \)的行是独立同分布的，来自一个各分量是sub-Gaussian的随机向量。这是允许分析旋转后设计的\( \ell_2 \)范数性质的关键。与[Ehrenreich and Brown 2023]的确定性设计假设形成重要对比。 - 假设2 (AR(p)过程)：误差\( \varepsilon_t \)来自一个因果平稳的AR(p)过程，系数向量\( \boldsymbol{\phi} \in \mathbb{R}^p \)位于单位圆内（对特征多项式的根而言）。这是保证白化矩阵\( \boldsymbol{\Omega} \)存在且对所有\( t \)有效的基础。 - 假设3 (稀疏性：真实参数\( \boldsymbol{\beta}^* \)的支撑集大小\( s \ll n \)。 - 假设4 (受限特征值条件REC：假定旋转后的设计矩阵\( \widetilde{\mathbf{X}} \)（由其第i行定义为\( \tilde{\mathbf{x}}_i \)）满足一个关于其经验协方差矩阵的REC条件。这是所有LASSO理论的标准条件。相对于已有文献：作者强调他们的贡献在于证明在子高斯设计下，即使\( \mathbf{X} \)满足REC，\( \widetilde{\mathbf{X}} \)也保持（或改善）该条件，而无需额外更强的假设。这比单纯假设旋转后设计满足REC更强。 - 假设5 (AR估计的一致性)：估计AR系数\( \hat{\boldsymbol{\phi}} \)在其高维一致性上需要一些假设（如mixing条件）。作者通过证明\( \|\hat{\boldsymbol{\phi}} - \boldsymbol{\phi}\|_2 = O_p(s\sqrt{\log(p)/n}) \)来处理，其中\( s \)是支撑集大小。相比已有文献：他们对AR估计误差的界依赖于残差被足够好地估计这一事实，而这又依赖于第一步LASSO的一致性（因此需要REC条件和合适的选择）。

主要结果¶

定理1 (GLS-LASSO的理论误差界)：假设我们知道真正的\( \boldsymbol{\Omega} \)（即知道误差协方差），则在\( \widetilde{\mathbf{y}} = \boldsymbol{\Omega}\mathbf{y}, \widetilde{\mathbf{X}} = \boldsymbol{\Omega}\mathbf{X} \)上求解LASSO，其估计误差满足： \( \|\hat{\boldsymbol{\beta}}^{\text{GLS}} - \boldsymbol{\beta}^*\|_2 \lesssim \frac{\sigma \sqrt{s \log p}}{\phi_{\text{min}}(\widetilde{\mathbf{X}})} \) 其中\( \phi_{\text{min}} \)是旋转后设计\( \widetilde{\mathbf{X}} \)的受限特征值的最小值。这个界限与标准LASSO的结果完全相同，只是将\( \mathbf{X} \)换成了\( \widetilde{\mathbf{X}} \)。直觉：这是定理的“理想”情况——完美知道误差协方差，旋转后的数据就是独立同分布噪声下的标准线性模型。
定理2 (可行GLS-LASSO的误差界)：这是论文的核心定理。考虑三步程序。假如误差是AR(p)的。那么最终估计量\( \hat{\boldsymbol{\beta}}^{\text{feas. GLS}} \)满足： \( \|\hat{\boldsymbol{\beta}}^{\text{feas. GLS}} - \boldsymbol{\beta}^*\|_2 \lesssim \text{(Theorem 1 bound)} + \text{(AR estimation error term)} \). 具体而言，AR估计误差项由\( \|\hat{\boldsymbol{\phi}} - \boldsymbol{\phi}\|_2 \)缩放来控制。证明目标是证明当\( s \log p / n \)够小（第一步LASSO工作良好）时，AR估计误差项可以被第一步LASSO的误差界所控制。直觉：这定理表明，只要初始LASSO足够好，第二步AR估计的误差相比于最终的估计误差是可忽略的，因此可行版本与理论版本的差距不大。条件：AR(p)的阶数p是固定的（不随n增长）。较已有文献的强化：这一边界适用于随机设计，而且误差项精细地处理了旋转对设计阵列统计性能的影响。

证明路线与技术技巧¶

整体路线 (三步证明)：
- Step 0: 设定和引理。证明旋转矩阵\( \boldsymbol{\Omega} \)是一个稀疏矩阵，其谱范数有界（取决于AR参数）。证明在sub-Gaussian设计下，\( \widetilde{\mathbf{X}} \)的列是sub-Gaussian。
- Step 1: 建立理论GLS界 (假设知道\( \boldsymbol{\Omega}\) )。直接应用标准LASSO的有限样本界（基于REC条件）到\( \widetilde{\mathbf{X}}, \widetilde{\mathbf{y}} \)上。结论依赖定理1。
- Step 2: 控制AR估计误差。证明第一步LASSO产生的残差\( \hat{\boldsymbol{\varepsilon}}\)足够好地近似真实误差\( \boldsymbol{\varepsilon} \) (误差界 \( \|\hat{\boldsymbol{\varepsilon}} - \boldsymbol{\varepsilon}\|_2 \) 由LASSO界给出)。然后，利用这些残差估计AR(p)参数\( \hat{\boldsymbol{\phi}} \)。需要证明基于残差的Yule-Walker或最小二乘估计相对于基于真实误差的估计是一致的。这部分很关键，需要假设AR过程mixing或线性过程性质。
- Step 3: 可行GLS界。将\( \hat{\boldsymbol{\Omega}} \)中的估计\( \hat{\boldsymbol{\phi}} \)代入到旋转矩阵\( \boldsymbol{\Omega} \)，得到近似旋转后的模型\( \hat{\widetilde{\mathbf{y}}}, \hat{\widetilde{\mathbf{X}}} \)。然后在近似数据上运行LASSO。难点：证明\( \|\hat{\boldsymbol{\beta}}^{\text{feas. GLS}} - \boldsymbol{\beta}^*\|_2 \)可以用\( \|\text{(Theorem 1 bound)}\|_2 \)加上一个依赖于\( \|\hat{\boldsymbol{\phi}} - \boldsymbol{\phi}\|_2 \)的项来控制。这通过将近似旋转误差分解为两项：一项来自\( \boldsymbol{\Omega} \)的未知性（标准估计误差），另一项来自数据生成中的噪声。
关键跳跃点：
- 跳跃1: 证明旋转后的设计矩阵\( \widetilde{\mathbf{X}} \)满足REC条件。这是论文的核心技术贡献。标准LASSO的REC条件是关于\( \mathbf{X} \)的样本协方差矩阵的。这里作者需要证明转换后的\( \boldsymbol{\Omega}\mathbf{X} \)的样本协方差矩阵也满足一个类似的REC条件。关键技巧：因为\( \boldsymbol{\Omega} \)是稀疏的（特别是对于平稳AR(p)），所以对\( \mathbf{X} \)的旋转本质上是一个仅依赖于\( \mathbf{X} \)的\( O(1) \)个相邻行的线性组合。因此，可以通过比较特征值来证明REC条件。作者利用了\( \mathbf{X} \)的sub-Gaussian性，通过对\( \boldsymbol{\Omega} \)的谱范数进行界定的引理，保证了旋转不会显著扩张特征值，从而维持REC成立。
- 跳跃2: 控制AR拟合误差传播。这不是简单的“把估计出来的\(\hat{\phi}\)直接代入”，而是要证明由第一步LASSO带来的残差估计误差，在拟合AR模型时不会使\( \|\hat{\boldsymbol{\phi}} - \boldsymbol{\phi}\|_2 \)失控。技巧：对Yule-Walker估计器的敏感度分析。作者证明了在高维稀疏性下（s小），残差估计误差的效应是可控制的，并给出一个幂律误差界。
技术技巧点名：
- 格点覆盖 (Chaining/Empirical Process)：用来证明旋转后设计矩阵的样本协方差矩阵的谱范数（和REC条件）的非渐近边界。这是高维统计中证明random design下LASSO界的标准工具。
- 扰动理论 (Perturbation Theory)：用来分析基于残差估计的AR系数的一致性。这本质上是将基于真实误差的估计与基于估计误差的估计联系起来。
- 矩阵摄动分析：将\( \hat{\boldsymbol{\Omega}} \)与\( \boldsymbol{\Omega} \)的差异，通过矩阵理扩张成R.E.C.条件扰动。

真实例子与应用¶

本文为纯理论/无实证例子（只有模拟）。但有一段模拟： - 用的模拟设定：\( n = 100 \), \( p = 500 \), \( s = 10 \)。设计矩阵是AR(1) (\( r = 0.8 \))或白噪声误差。比较了普通LASSO、理想GLS-LASSO（已知AR系数）、和两步可行GLS-LASSO。 - 核心结果： - 当误差为AR(1)且自相关强(\( \phi = 0.8 \))时，可行GLS-LASSO的\(\ell_2\)估计误差明显小于普通LASSO，与理论GLS-LASSO相近。 - 当误差为白噪声时，三种方法表现持平。这验证了理论预测：误差不存在自相关时，旋转不会增加估计误差（即作者声称的“表现持平”是成立的），因为旋转矩阵恒等于I。 - 模拟想说明什么：有效验证了理论结果中关于“误差相关性变强时，可行GLS-LASSO相对普通LASSO具有优势”的预测。说明了方法在实际可行（N=100）时可以工作，且自相关足够强时改善是显著的。

🔎 结论是否比证明窄¶

是，结论是窄的。证明是在固定阶数p的AR(p)假设下严格进行的。论文只在模拟中展示了p=1的情况。作者的conclusion部分提到“可将误差过程假设扩展为更一般的结构如ARMA”，但这不是本文证明的一部分，而是一个conjecture。此外，证明依赖于旋转矩阵Ω在spectral norm下是稀疏和有界的，这不一定对所有ARMA都成立（特别是对于近单位根过程）。因此，本文的泛化性声明比证明框架窄。

四、开放问题（点到为止）¶

未知误差结构：当误差结构不是参数化的AR(p)，而是更一般的非参数形式时（如长记忆过程、异方差），是否可以发展一个类似的“自适应”预白化方法？其误差界估计会如何？——扎根于Conclusion部分提及的“扩展为ARMA”。
AR(p)阶数p随n增长：论文假设p固定。如果p随着样本量n增长（例如p=log n），证明中的谱范数界限和估计一致性分析是否会失效？描述中的稀疏性假设与p增长会如何交互？需要在假设A2（AR过程）背后添加更多条件。
计算效率：在第三步拟合更一般的模型（如ARMA，GRACH）时，三步法的计算复杂度增长如何？能否利用einsum/tensor-contraction的低秩或稀疏结构来加速？尤其对于\(p\)很大的情形，旋转计算\( \boldsymbol{\Omega}\mathbf{X} \)的朴素开销是\( O(n^2 p) \)。但是AR旋转图本质上是稀疏（带状）的，可以利用u-stat的图论技术来描述计算代价。这个问题直接链接到研究者的计算工具集。
反事实推理：这个“去噪-估计”框架是一个“先估计噪声，再回归修正”的通用模式。对于高维时间序列因果效应估计（如带稀疏倾向得分的动态处理效应），这里的用第一步LASSO残差去估计噪声依赖结构的方法，能不能迁移到处理自相关混杂变量下的因果推断？——扎根于对因果推断的兴趣，但本文未提及任何此类应用，这条是一个纯粹的个人推断。

Maintained by 陈星宇 · Homepage · Source on GitHub