Online Sparse Regression with Expanding Observables¶

作者: Ying Yang, Fang Yao
主题: 高维统计 / 随机矩阵
相关性: 7/10
链接: https://arxiv.org/abs/2606.00478

一、领域脉络与小综述¶

这个方向是什么：在线高维稀疏回归要解决的根本统计问题是：当数据以流式到达、样本量 \(N\) 逐渐增大时，如何在内存与单步计算时间受限（不能存储全部历史数据或计算全样本 Gram 矩阵）的条件下，动态更新稀疏模型的变量选择与参数估计，并保持与离线（offline）方法同阶的统计收敛速率。当前该方向的成熟度处于“方法多样、理论初步成型但设定受限”的阶段：主流工作已能处理固定特征空间下的在线 Lasso/debiased Lasso，但对特征空间本身随时间动态扩张（即新变量逐步可观测）这一普遍现实场景，尚无系统性的统计框架与误差界分析。

发展脉络（history）：把 intro 引用的工作串成一条线： - 奠基工作：Tibshirani (1996), Fan & Li (2001), Zhang (2010), Bühlmann & Van De Geer (2011) 建立了离线高维稀疏回归的 Lasso/非凸惩罚/Oracle 性质等基石，但完全依赖全样本与固定特征集。 - 主要进展（在线优化视角）：Langford et al. (2009) 引入截断梯度做稀疏在线学习；Duchi & Singer (2009) 建立了在线近端梯度框架；Foster et al. (2016) 研究每轮输入有限特征的 regret minimization。作者明确指出这些工作的缺口：“they do not address the selection of the regularization parameter or the issue of statistical convergence”——它们只管优化 regret，不管统计收敛与调参。 - 主要进展（统计收敛视角）：Fan et al. (2018) 提出两步法（burn-in + truncated SGD）；Han et al. (2021) 提出 online debiased lasso 与“rolling-original-recalibration”调参；Yang et al. (2023) 解决了带线性化损失与预设调参的在线优化。这些工作补上了统计收敛，但作者指出其共同缺口：“existing research has predominantly focused on the setting of fully observed feature space, where all candidate features, including important ones, are observed from the beginning”。 - 当前 frontier 与本文位置：本文定位在“特征集随时间扩张”这一新设定，填补上述全观测假设的缺口，提出 RAVAS 算法与 regression faithfulness / separation structure 等新假设，建立模型选择覆盖与估计误差界。

子线索聚类：被引文献大致落在三条子线索上： 1. 在线凸优化与稀疏学习（Langford 2009, Duchi 2009, Foster 2016, Sun & Barbu 2021 等）：关注 regret bound 与优化收敛，不涉及统计调参与假设检验。 2. 在线高维统计推断（Fan 2018, Han 2021, Yang 2023, Zhang & Cheng 2017 等）：关注在线 debiased/一步更新、调参策略、统计收敛速率，但假设特征集静态完全可观测。 3. 变量筛选与图模型信仰性（Fan & Lv 2008, Bühlmann et al. 2010, Ma et al. 2020 等）：关注高维筛选与 faithfulness 条件，本文借用其思想但改造为“regression faithfulness”以处理未观测重要变量导致的伪相关。

这个方向在追问的核心问题： 1. 在线设定下，稀疏估计能否达到与离线同阶的收敛速率？ 当前已知在线 Lasso 可达 \(O(\sqrt{s \log p / N})\) 的 \(\ell_1\) 误差，但依赖全特征可观测与精心调参。 2. 特征集动态扩张时，如何保证未观测的重要变量在后续被观测后不被误删？ 这是本文的核心追问，传统 screening 方法在缺失重要变量时会产生伪信号，导致误删。 3. 在线流式数据下，如何不存储全样本而自适应选择调参参数 \(\lambda\)？ Han et al. (2021) 用历史做训练、新数据做测试；本文扩展为在线 \(L\)-fold CV 与 scaled lasso 噪声估计。 4. 当前主流瓶颈：对协方差结构的限制——本文明确指出“continuously varying covariance structures are not suitable... the pseudo-bias term tends to diffuse its mass across many coordinates, failing to produce a clear contrast”，即平滑指数衰减型协方差下伪偏差非稀疏，Lasso 筛选失效。

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：将“特征逐步可观测”frame 为高维在线回归的“显然下一步”，强调真实数据（传感器部署、金融平台属性扩展）中全观测假设不现实，从而让 RAVAS 成为自然解法。 - 哪些竞争路线被他淡化或回避了： 1. 在线 debiased / one-step 更新路线（Han 2021, Deshpande et al. 2019 等）：intro 仅提 Han 2021 的调参，未提 debiased lasso 的在线推断（置信区间）能力，而 RAVAS 目前只给点估计与变量选择，无在线推断。 2. 非凸惩罚（SCAD/MCP）路线：intro 提了 Fan & Li (2001) 与 Zhang (2010)，但 RAVAS 算法核心仍用 Lasso + 硬阈值，未讨论非凸惩罚在扩张设定下的优势或困难。 3. 因果发现 / 结构学习路线：作者借用了图模型 faithfulness 概念，但未引用因果发现领域的最新工作（如 Chickering 2002, Peters et al. 2014 等），这些工作对未观测混杂与 faithfulness 有更系统的讨论。 - 什么明显该被引 / 该存在、却没出现在 intro 里： 1. 在线推断的半参数理论：如在线 one-step estimator 的效率界理论，若要连接研究者的 semiparametric efficiency 兴趣，这是缺失的引用。 2. 缺失数据 / 未观测混杂的因果推断文献：作者处理的是“未观测重要变量”，这与因果推断中的 unmeasured confounding 问题高度同构，但 intro 未引用任何因果推断文献（如 Proximal causal inference, negative control 等）。 3. 统计-计算权衡：作者强调内存与计算受限，但未引用任何 stat-computational tradeoff / information-computation gap 的文献，未讨论在更强计算约束（如单步时间 \(O(s)\) 而非 \(O(s^2)\)）下的理论可能性。

张力：未见明显对立引用。各被引工作在不同设定下得出不同结论（优化视角给 regret bound，统计视角给收敛速率），但无直接矛盾。唯一隐含张力：Fan et al. (2018) 的 truncated SGD 依赖 burn-in 期全特征可观测，而本文设定下 burn-in 期特征不全，故不能直接用其框架——本文通过 soft-hard selection 绕过，但代价是引入更强的协方差结构假设。

二、这篇论文做了什么¶

类型判断：方法 / 理论混合型（有算法设计、理论定理、模拟与真实数据），重点拆方法设计与理论假设。

三句话： ①研究了在线高维线性回归中，候选特征集随时间逐步扩张（而非一开始全可观测）时的变量选择与估计问题； ②核心工具是 RAVAS 算法（递归式 soft Lasso + hard OLS 阈值选择 + 在线充分统计量更新）与 regression faithfulness / separation structure 等新假设； ③主要结论是：在扩张设定下，RAVAS 以高概率覆盖所有已观测的重要变量、控制选中模型维度为 \(O(\log \Delta p)\) 或 \(s^*\)，并在全观测后达到 \(\ell_2\) 误差 \(O(s^* / (\zeta_t n))\) 的 oracle 速率。

关键设定与假设： - 模型：\(y_t = X_t \alpha_*^{(t)} + U_t \gamma_*^{(t)} + \varepsilon_t\)，其中 \(X_t\) 为已观测特征（\(p_t\) 维），\(U_t\) 为未观测特征（\(q_t\) 维），\(\alpha_*^{(t)}\) 稀疏（\(s_t \ll p_t\)），总潜在特征 \(Z = (X, U)\) 维度 \(p_Z\) 固定，\(\beta_* = (\alpha_*, \gamma_*)\) 不随时间变。 - 扩张过程：\(p_t\) 随时间增加，\(q_t\) 减少；存在未知时间 \(\tau_K\) 后所有重要变量可观测（\(\gamma_*^{(t)} = 0\)）。 - Assumption 1（Restricted Eigenvalue for submatrices）：只在变化点 \(\tau_k + \iota_0\) 处、对包含新特征与先前选中特征的子矩阵 \(C_{J,k}\) 要求 RE 条件，维度 \(O(\Delta p)\) 而非全维度 \(p_t\)。统计含义：局部设计矩阵在稀疏方向上足够正定，比全局 RE 更弱。 - Assumption 2（Sub-Gaussian design and noise）：标准随机设计假设。 - Assumption 3（Regression faithfulness）：对任何 \(j \in J(\alpha_*^{(t)})\)，伪系数 \(\tilde{\alpha}_{0,j}^{(t)}\) 不被伪偏差项抵消至接近零，\(|\tilde{\alpha}_{0,j}^{(t)}| \gtrsim \varsigma\)。统计含义：未观测重要变量产生的伪相关不会掩盖真实信号，类似图模型 faithfulness 排除极端抵消。相比已有文献：Bühlmann et al. (2010) 与 Ma et al. (2020) 在静态缺失设定下用类似条件，本文扩展到动态扩张设定并给出 \(\varsigma\) 的具体阶。 - Assumption 4（Separation structure）：矩阵 \(M_t = \Sigma_{J_t}^{-1} \Sigma_{J_t U}\) 的行可分为“强行”（与 \(\bar{\gamma}_t\) 对齐，投影非微小）与“弱行”（\(\ell_1\) 范数 \(\ll \varsigma / \psi\)），且强行数量 \(O(\log |J_t|)\)。统计含义：伪偏差 \(M_t \gamma_*^{(t)}\) 近稀疏，只有少数坐标产生非微小伪信号。相比已有文献：新假设，专为扩张设定设计，排除平滑指数衰减协方差（此时伪偏差弥漫、不稀疏）。 - Assumption 5（Sparsity and minimal signal）：\(s^* = O(\log \Delta p)\)，\(\min_{j \in J(\beta^*)} |\beta^*_{j}| \gtrsim \varsigma\)。标准高维假设，但稀疏度阶绑定在 \(\Delta p\) 而非 \(p_Z\)。

主要结果： 1. Theorem 1（模型维度控制）：每轮循环中，若循环短（\(\tau_{k+1} - \tau_k \leq \iota^*\)），soft selection 将维度降至 \(O(\mu s_{0,t})\)；若循环长，hard selection 将维度降至 \(s_{0,t}\)。概率 \(1 - O(k (\iota_0 n)^{-c_1})\) 或 \(1 - O(k \Delta p^{-c_2})\)。直觉：soft selection 用宽松 \(\lambda\) 保留潜在重要变量但维度偏高，hard selection 用 OLS + 阈值进一步精简。技术难点：动态扩张下 Gram 矩阵正定性不确定，需依赖局部 RE 与分离结构保证 OLS 可解。 2. Theorem 2（覆盖率）：对任何 \(\tau_k \leq t < \tau_{k+1}\)，\(P(J(\alpha_*^{(t)}) \subset \hat{J}_t) = 1 - O(k \Delta p^{-c_3})\)。直觉：宽松 \(\lambda\) 与 faithfulness 保证真实信号不被误删。技术难点：伪信号可能导致误选，但 faithfulness 保证真实信号在伪偏差叠加下仍可检测。 3. Theorem 3（估计误差）：全观测后（\(t \geq \tau_K\)），soft selection 阶段 \(\ell_1\) 误差 \(O(s^* \sqrt{\log d_{t-1} / (\zeta_t n)})\)，hard selection 阶段 \(\ell_2\) 误差 \(O(s^* / (\zeta_t n))\)。概率 \(1 - O(d_{t-1}^{-1} + (k-1)\Delta p^{-c_4})\) 或 \(1 - O(k \Delta p^{-c_5})\)。直觉：维度降至 \(s^*\) 后，问题退化为低维回归，达 oracle 速率。技术难点：在线更新下误差累积的控制，概率界随 \(k\) 衰减反映多轮循环的累积风险。

方法 / 证明骨架： 1. 每轮循环开始时，将新特征加入选中集 \(\hat{J}_{\tau_k}\)，维度跳至 \(O(\Delta p + \iota_0 n)\)。 2. Warm-up 阶段（\(\zeta_t \leq \iota_0\)）：用标准 Lasso（\(\lambda^*_t\) 阶）在选中子模型上估计，积累充分统计量 \(C_{Xy}(\hat{J}_t), C_X(\hat{J}_t)\)。 3. Soft selection 阶段（\(\iota_0 < \zeta_t \leq \iota^*\)）：用宽松 \(\lambda^0_t\)（比最优 \(\lambda^*_t\) 小）做 Lasso，保留更多变量，保证覆盖率；同时用 \(\lambda^*_t\) 做独立 Lasso 供最终估计用。 4. Hard selection 阶段（\(\zeta_t > \iota^*\)）：在选中子模型上做 OLS，再用硬阈值 \(\hat{\alpha}^{ols}_t\) 删除小系数，精简至 \(s_{0,t}\)。 5. 在线调参：用 \(L\)-fold CV 选 \(C_\lambda\)，用 scaled lasso 估 \(\sigma_e\)（含伪偏差的噪声水平）。

🔎 结论是否比证明窄： - Theorem 3 的 \(\ell_2\) 误差界：在 hard selection 阶段，结论声称 \(\|\hat{\alpha}^*_t - \beta^*\|_2^2 = O(s^* / (\zeta_t n))\)，但证明依赖 OLS 在子模型上的正定性（\(C_X(\hat{J}_{t-1})\) 可逆），这只在 \(\zeta_t n \gg d_{t-1}\) 时成立，而定理陈述未显式列出此必要条件，仅隐含在“hard selection 阶段”定义中——这是最干净的问题种子：若 \(\zeta_t n\) 与 \(d_{t-1}\) 的比例处于边界情况，OLS 的正定性如何退化？误差界如何连续过渡？ - Discussion 中的泛泛 claim：“Future investigations could explore the extension of the RAVAS framework to scenarios involving dynamic underlying coefficients... incorporating more sophisticated methods for handling unobserved important data such as instrumental variable method”。这是未证明的 conjecture，且 IV 方法在扩张设定下的在线实现无任何理论支撑，属于窄结论被泛泛扩展的典型情况。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料： - 反复出现 / 社区真在乎的开放问题： 1. 在线高维推断：Han et al. (2021) 的 online debiased lasso 只给点估计与调参，未给置信区间；Fan et al. (2018) 也无在线推断。近期多篇在线高维工作的 intro 都指向“在线推断/置信区间”为下一步——这是共识性真 gap。 2. 特征动态扩张的统计理论：本文是首篇系统处理扩张设定的理论工作，但假设较强（faithfulness, separation structure）。同子领域近期 5 篇 intro 是否都指向此问题需自查——若只有本文作者在做，则属一家之言；若多篇都提及“特征不全/逐步可观测”为现实挑战，则为真 gap。 3. 统计-计算权衡下的在线稀疏学习：本文强调内存/计算受限，但未触及 polynomial-time possibility vs. statistical threshold 的 gap。近期在线学习与高维统计交叉领域（如 Foster et al. 2016 的 regret minimization）开始关注计算约束下的统计极限，但尚未与扩张设定结合——这可能是机会，也可能是边缘问题。 - 只是本文作者一家之言的问题： 1. Regression faithfulness 的必要性：作者声称此条件“generic”（参数空间中薄集），但未与因果发现领域的 faithfulness 讨论对接，也未给出反例说明无此条件时 RAVAS 必失败。需自查近期高维筛选文献是否接受此类条件。 2. Separation structure 的普适性：作者承认平滑指数衰减协方差下此条件不成立，但未讨论此类协方差在真实数据中的频率——若常见，则本文理论适用范围受限。

问题种子清单：

(A) 立即可做（用 very_familiar 就能动手）：

问题表述：证明在扩张设定下，RAVAS 的 \(\ell_2\) 估计误差率 \(O(s^* / (\zeta_t n))\) 是否达到 minimax 最优，或构造一个 minimax lower bound 显示不可改进的速率。
扎根在本文哪里：Theorem 3(2) 给出 \(\ell_2\) 误差 \(O(s^* / (\zeta_t n))\)，但未讨论此速率在扩张设定下的 minimax 性质；若 lower bound 更高，则存在 stat-computational gap 或信息论瓶颈。
攻它需要什么：用 very_familiar 的 minimax bounds for estimation 构造扩张设定下的最困难参数子集（需设计协方差结构使 faithfulness/separation structure 刚好满足但信号最弱），计算 Fano's lemma 或 Le Cam's bound。成本：纯理论推导，无数据/算力需求。
谁已经在附近做：高维线性回归的 minimax lower bound 已有经典结果（Raskutti et al. 2011, Ye & Zhang 2010），但均在固定特征设定下；扩张设定下的 minimax 理论需自查拥挤度。
武器库匹配 + 独特角度：very_familiar 的 minimax bounds for estimation 可直接用；独特角度：将扩张过程（\(\Delta p\) 的增长阶、\(\tau_K\) 的位置）编码进最困难参数族，看 lower bound 是否依赖 \(\Delta p\) 或 \(\tau_K\)——若依赖，则 RAVAS 的速率可能非最优。
问题表述：将 RAVAS 的在线充分统计量更新机制嵌入 online one-step / debiased 框架，构造扩张设定下的在线半参数有效估计量与置信区间。
扎根在本文哪里：Theorem 3 只给点估计误差界，Discussion 提“instrumental variable method”但未提在线推断/置信区间；Han et al. (2021) 的 online debiased lasso 在固定特征下给置信区间，但扩张设定下无。
攻它需要什么：用 very_familiar 的 estimation theory in causal inference + high-dimensional asymptotics，推导扩张设定下 debiased estimator 的渐近分布（需处理伪偏差 \(M_t \gamma_*^{(t)}\) 对 one-step correction 的影响）。成本：理论推导 + 模拟验证（用本文 GitHub 代码改写）。
谁已经在附近做：Han et al. (2021) 在固定特征下做 online debiased；扩张设定下的在线推断需自查拥挤度（可能空白）。
武器库匹配 + 独特角度：very_familiar 的高维渐近与因果推断估计理论可直接用；独特角度：伪偏差 \(M_t \gamma_*^{(t)}\) 在 one-step correction 中产生额外 bias 项，需用 HOIF（moderately_familiar）做高阶偏差校正——这连接到研究者的高阶 U-统计量理论。

(B) 中期可做（需补 moderately_familiar 的具体块）：

问题表述：在扩张设定下，当伪偏差 \(M_t \gamma_*^{(t)}\) 不满足 separation structure（即伪信号弥漫、非近稀疏）时，用 HOIF 构造高阶偏差校正的在线筛选方法，替代 Lasso 的 soft selection。
扎根在本文哪里：Section 3.2 明确指出“continuously varying covariance structures are not suitable... the pseudo-bias term tends to diffuse its mass across many coordinates, failing to produce a clear contrast”，即 separation structure 不成立时 Lasso 筛选失效；这是本文理论的明确边界。
攻它需要什么：补 moderately_familiar 的 HOIF 高阶 bias 表达式（需读 Robins et al. 2008, 2017 的 HOIF 理论）+ 高阶 U-统计量的在线计算（用 very_familiar 的 tensor contraction / einsum 优化计算）。补完后接回：构造在线 HOIF-corrected screening，在伪偏差弥漫时仍保证覆盖率。成本：理论推导（HOIF 在扩张设定下的偏差界）+ 软件开发（einsum 实现在线高阶 U-统计量更新）。
谁已经在附近做：HOIF 在因果推断的缺失混杂处理中已有应用，但未与在线高维筛选结合；需自查拥挤度。
武器库匹配 + 独特角度：moderately_familiar 的 HOIF + very_familiar 的高阶 U-统计量计算；独特角度：用 tensor contraction / einsum 将 HOIF 的在线计算成本降至 \(O(s^k)\) 而非 \(O(p^k)\)，实现计算可行的在线高阶偏差校正筛选。
问题表述：在扩张设定下，当真实系数 \(\beta^*\) 随时间缓慢变化（非恒定）时，建立在线 RAVAS + 在线 debiased 的追踪估计理论，给出动态系数下的估计误差界与置信区间。
扎根在本文哪里：Discussion 明确提“Future investigations could explore the extension of the RAVAS framework to scenarios involving dynamic underlying coefficients”，但无任何理论或方法。
攻它需要什么：补 moderately_familiar 的 M-estimation theory（动态参数下的在线 M-estimator 收敛性，需读在线优化与动态参数估计的交叉文献，如 Kivinen et al. 2004, Besbes et al. 2015）+ 在线 debiased 的动态版本。补完后接回：构造动态系数下的在线 RAVAS-debiased，给出 \(\ell_2\) 误差界 \(O(s^* \sqrt{\log p / N} + \text{variation budget})\) 与渐近分布。成本：理论推导 + 模拟（动态系数数据生成）。
谁已经在附近做：动态定价中有在线高维估计（Fan et al. 2024, Wang et al. 2024a），但假设系数恒定或已知变化点；动态系数下的在线高维推断需自查拥挤度。
武器库匹配 + 独特角度：moderately_familiar 的 M-estimation theory + very_familiar 的高维渐近；独特角度：将动态系数的变化预算编码进 minimax bound，看在线估计的 stat-computational tradeoff 如何随变化预算增长。

(C) 暂不建议：

问题表述：在强计算约束（单步时间 \(O(\text{poly}(s))\)、内存 \(O(s \log p)\)）下，证明扩张设定存在 information-computation gap：统计最优速率需 \(\Omega(\text{poly}(p))\) 单步时间，而多项式时间算法只能达更慢速率。
扎根在本文哪里：本文强调内存/计算受限，但未触及 stat-computational tradeoff 的理论极限；这是隐含的深层问题。
攻它需要什么：核心机器缺 low-degree polynomial barrier / SQ lower bounds / SoS hierarchy 的具体技术（需读 Hopkins 2018, Brennan & Bresler 2020 等），且需将扩张设定编码进 planted model（如新增特征中隐藏稀疏信号）。成本：大量新理论工具学习 + 构造特定硬实例。
为何从武器库不易绕过：研究者对 average-case complexity / low-degree likelihood ratio 是 outsider，且此问题需构造特定协方差结构使低阶多项式无法检测新增信号，这涉及代数几何或随机矩阵谱分析的精细工具，非 minimax bound 或高阶 U-统计量能直接替代。

迁移视角（多样性的来源）：

迁移口子 1：将 RAVAS 的“在线充分统计量更新 + soft-hard selection”机制迁移到在线因果推断中的 Proximal Causal Inference（负控制）设定。
方法 T：RAVAS 的在线 Gram 短阵与交叉协方差更新 \(C_X, C_{Xy}\)，以及 soft Lasso + hard OLS 阈值选择。
目标领域：Proximal causal inference 中，负控制变量（negative controls）可能随时间逐步可用（新传感器/新生物标记物被发现），且需在线更新因果效应估计。当前 Proximal CI 文献（Tchetgen et al. 2024）假设所有负控制一开始可观测，无在线版本。
为什么可行：研究者 very_familiar 因果推断估计理论 + moderately_familiar 因果识别理论；Proximal CI 的核心是解高维协方差方程（类似 RAVAS 的 OLS 步），且负控制的逐步可用与特征扩张同构。用 RAVAS 的在线更新可构造在线 Proximal CI 估计量，用 soft selection 篮选负控制，用 hard selection 精简至有效负控制集。
迁移口子 2：将高阶 U-统计量的 tensor contraction / einsum 计算优化迁移到在线高维假设检验的多重比较设定。
方法 T：高阶 U-统计量的 treewidth / tensor contraction 优化计算。
目标领域：在线高维回归中，对新增特征的显著性做在线假设检验（如每轮新增 \(\Delta p\) 个特征，需检验哪些非零），当前在线检验文献（如 online debiased lasso 的 \(z\)-检验）只处理固定特征，且计算成本 \(O(p)\) 每步。用高阶 U-统计量可构造更高效的在线检验统计量（如高阶交互项检验），且 einsum 可将计算降至 \(O(s^k)\)。
为什么可行：研究者 very_familiar 高阶 U-统计量计算 + moderately_familiar HOIF 理论；在线假设检验是高维在线推断的自然下一步，且高阶 U-统计量在此领域几乎空白。

四、延伸与下一步¶

沿引用链的阅读路线： - 地基（先读）： 1. Bühlmann & Van De Geer (2011)：高维 Lasso 统计理论的系统教材，建立 RE 条件、Oracle 性质等基石。 2. Fan & Lv (2008)：Sure independence screening 的奠基工作，理解本文 soft selection 的思想来源。 3. Han et al. (2021)：Online debiased lasso，理解在线高维推断的当前 frontier 与调参策略。 - Frontier（再读）： 1. Fan et al. (2018)：在线稀疏回归的 diffusion approximation 视角，对比 RAVAS 的递归更新。 2. Yang et al. (2023)：Online linearized lasso，对比 RAVAS 的线性化损失与调参选择。 3. Bühlmann et al. (2010)：Partial faithfulness 与 PC-simple 算法，理解 regression faithfulness 的图模型根源。 4. Ma et al. (2020)：Variable screening with multiple studies，理解多研究下缺失变量的筛选理论。 5. Sun & Zhang (2012, 2013)：Scaled lasso，理解本文噪声估计的在线扩展。

假设扰动： - 改动 Assumption 4（Separation structure）：假设伪偏差 \(M_t \gamma_*^{(t)}\) 不满足强-弱行分离，而是弥漫分布（如平滑指数衰减协方差下），此时伪信号非近稀疏。 - 结论变化：Theorem 1 的维度控制失效（soft selection 无法将维度降至 \(O(\log \Delta p)\)），Theorem 2 的覆盖率可能仍成立（若 faithfulness 满足），但 Theorem 3 的估计误差界因维度过高而退化至 \(O(\sqrt{s_{\text{diffuse}} \log p / N})\)，\(s_{\text{diffuse}} \gg s^*\)。 - 需要的新工具：HOIF 高阶偏差校正（moderately_familiar）+ 高阶 U-统计量的在线计算，或非凸惩罚（SCAD/MCP）在弥漫伪偏差下的筛选理论。 - 落入哪档：B 档（需补 HOIF 理论，补完后可构造在线 HOIF-corrected screening）。

改动 Assumption 5（系数恒定 \(\beta^*\)）：假设 \(\beta^*\) 随时间缓慢变化，\(\|\beta^{(t)} - \beta^{(t-1)}\|_2 \leq v_t\)，\(v_t \to 0\)。
结论变化：Theorem 3 的 oracle 速率需加变化预算项 \(O(\sum v_t^2)\)，且在线 debiased 的渐近分布需重新推导（偏差项含变化轨迹）。
需要的新工具：动态参数下的在线 M-estimation 理论（moderately_familiar）+ 变化预算下的 minimax bound（very_familiar）。
落入哪档：B 档（需补动态 M-estimation，补完后可给动态系数下的在线估计界）。

理解检测题：在 RAVAS 算法中，soft selection 阶段使用宽松惩罚 \(\lambda^0_t\)（比最优 \(\lambda^*_t\) 小），而 hard selection 阶段使用 OLS + 硬阈值。假设在某轮循环中，新增特征包含一个重要变量 \(j^*\)，但其真实系数 \(\beta^*_{j^*}\) 较弱（\(|\beta^*_{j^*}| = \varsigma / 2\)，刚好低于 Assumption 3 的 faithfulness 下界），且此变量与一个未观测重要变量 \(u\) 强相关（\(\Sigma_{j^*, u} = 0.8\)）。请分析： 1. 在 soft selection 阶段，\(j^*\) 是否会被选入 \(\hat{J}_t\)？为什么？ 2. 若 \(j^*\) 在 soft selection 被误删，在后续循环中（当 \(u\) 变为可观测后），\(j^*\) 是否能被重新选入？此过程对估计误差的累积有何影响？ 3. 此情景违反了哪条假设？若放宽该假设（允许 \(|\tilde{\alpha}_{0,j^*}| < \varsigma\)），RAVAS 的理论保证会如何崩溃？

（此题要求应用 faithfulness 的直觉与 soft/hard selection 的机制，而非记忆定理陈述。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Online Sparse Regression with Expanding Observables¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论