Generated outcomes as generated regressors: Equivalences in recursive causal estimation¶

作者: Wisse Rutgers, Rahul Singh
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.29009

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在递归因果估计（recursive causal estimation）中，不同估计量之间的代数等价关系。具体来说，当目标参数（如时间变处理效应、替代变量识别效应、中介效应）被识别为递归回归（recursive regression）——即一个回归的预测值成为下一个回归的“生成结果”（generated outcome）——时，三种标准估计量（递归plug-in、递归平衡权重、递归双重稳健）在有限样本下是否数值等价？这种等价性如何随正则化（ridge、一般凸惩罚）和递归深度（时间期数T）变化？该方向直接继承自横截面因果推断中已知的等价性结果（OLS回归、平衡权重、双重稳健估计量在特定条件下数值等价），并将其推广到纵向/递归设定。

发展脉络¶

奠基工作：横截面因果推断中的等价性

Rubin (1980)、Robins et al. (2007)、Kline (2011)、Chattopadhyay & Zubizarreta (2023)：这些工作逐步揭示了在横截面设定下，OLS回归、逆概率加权（IPW）和双重稳健估计量之间的数值等价性。Robins et al. (2007) 特别指出，当倾向得分和结果模型都线性时，IPW和回归估计量等价。Chattopadhyay & Zubizarreta (2023) 进一步给出了回归估计量隐含权重的闭式表达式，并建立了与凸优化问题的等价性。本文引用语境：“Most directly, we build on previous work that characterizes numerical equivalences in cross-sectional causal inference”。
Bruns-Smith et al. (2025)：这是本文最直接的先驱。他们证明，当结果模型和Riesz representer都用ridge回归估计时，增广估计量（augmented estimator）代数等价于一个单一的欠光滑ridge回归。本文引用语境：“Bruns-Smith et al. (2025) show that when both the outcome model and the Riesz representer are estimated by ridge regression, the augmented estimator is algebraically equivalent to a single undersmoothed outcome regression; this equivalence is the direct precursor to our recursive results.” 该工作将等价性从OLS推广到ridge正则化，并给出了“debiasing = undersmoothing”的直观解释。

主要进展：递归因果推断的识别与估计

Robins (1986)：提出了g-computation公式，将时间变处理效应识别为递归回归。这是递归因果推断的奠基性识别结果。
Bang & Robins (2005)：提出了递归双重稳健估计量，用于时间变处理效应。这是递归设定下双重稳健估计的早期工作。
Pearl (2001)、Robins & Greenland (1992)、Imai et al. (2010)：建立了中介效应的识别与估计框架，其中自然间接效应（natural indirect effect）被识别为T=2的递归回归。
Athey et al. (2025)：提出了替代变量指数（surrogate index）方法，将长期处理效应的估计转化为递归回归问题（T=2，且涉及两个不同样本的分布偏移）。
Chernozhukov et al. (2022b)：提出了“自动去偏机器学习”（AutoDML）的递归版本，给出了递归函数类的Neyman正交矩和递归混合偏置性质。这是本文的直接理论框架。本文引用语境：“Following Chernozhukov et al. (2022b), each stage t contains three time-varying objects: (i) the conditioning variables Zt; (ii) an expectation Et(·); and (iii) a linear formula mt.”
Rotnitzky et al. (2021, 2025)：刻画了具有“混合偏置性质”（mixed bias property）的参数类，并证明了一类更广泛的参数（包括递归函数类）的等价性。Rotnitzky et al. (2025) 将Bruns-Smith et al. (2025)的等价性推广到混合偏置类。本文引用语境：“Recently, Rotnitzky et al. (2025) generalize this equivalence to the class of mixed bias linear functionals defined by Rotnitzky et al. (2021).”

当前Frontier与本文位置

递归平衡权重：已有工作提出了递归平衡准则，包括参数（Bang & Robins, 2005）、核（Kallus & Santacatterina, 2021）、高维线性（Viviano & Bradic, 2021）和通用机器学习（Chernozhukov et al., 2022b）函数空间。这些工作主要关注估计量的概率收敛性质（一致性、渐近正态性），而非代数等价性。
本文的独特贡献：本文不提出新的平衡准则，而是分析递归平衡权重与递归回归之间的代数等价性。具体来说，它回答了以下问题：横截面因果推断中已知的等价性（OLS回归=平衡权重=双重稳健）是否推广到纵向设定？debiasing作为undersmoothing的直观解释是否仍然成立？本文的答案是：等价性成立（当每阶段用OLS且无正则化时，三种估计量在任意有限样本下数值等价），但debiasing作为undersmoothing的直观解释随时间期数增加而减弱（ridge下OLS权重几何衰减）。

子线索聚类¶

横截面等价性线索：Rubin (1980), Robins et al. (2007), Kline (2011), Chattopadhyay & Zubizarreta (2023), Bruns-Smith et al. (2025), Rotnitzky et al. (2025)。这一簇主要关注单期（T=1）设定下，回归、平衡权重和双重稳健估计量之间的代数等价性，以及正则化如何改变这种等价性。
递归识别与估计线索：Robins (1986), Bang & Robins (2005), Pearl (2001), Imai et al. (2010), Athey et al. (2025), Chernozhukov et al. (2022b), Molina et al. (2017), Luedtke et al. (2017), Rotnitzky et al. (2017)。这一簇关注多期（T≥2）设定下，递归函数类的识别、正交矩、双重/多重稳健估计，以及渐近性质。
平衡权重与Riesz回归线索：Zubizarreta (2015), Athey et al. (2018), Hirshberg & Wager (2021), Kallus (2020), Hirshberg et al. (2019), Singh (2021), Chernozhukov et al. (2021, 2023), Viviano & Bradic (2021), Kallus & Santacatterina (2021)。这一簇关注如何通过最小化平衡准则（如协变量平衡）来构造权重，以及这些权重与Riesz representer的关系。本文的Lemma 1（递归平衡-Riesz等价性）直接连接了这一簇。

这个方向在追问的核心问题¶

等价性是否成立：在递归设定下，plug-in、平衡权重和双重稳健估计量是否数值等价？在什么条件下成立（OLS vs. 正则化）？
正则化的影响：当每阶段使用正则化（ridge、lasso、一般凸惩罚）时，等价性如何变化？debiasing是否仍然等价于undersmoothing？
递归深度的影响：随着时间期数T增加，正则化对估计量的影响如何累积？OLS权重是否几何衰减？
计算与统计的权衡：递归估计量的计算复杂度（如通过张量收缩/树宽分析）与统计效率之间是否存在权衡？

⚠️ 作者的Framing¶

作者把缺口frame成什么：作者将缺口frame为“横截面等价性是否推广到递归设定”以及“debiasing作为undersmoothing的直观是否仍然成立”。具体来说，作者指出：“Unlike earlier work, the class we study includes the canonical models of time-varying treatment effects, surrogate analysis, and mediation analysis, which are widely used in empirical research.” 这意味着作者将自己的工作定位为将Bruns-Smith et al. (2025)的等价性从横截面推广到纵向，从而填补一个明显的应用缺口。

哪些竞争路线被淡化或回避： - 作者明确说“Our contribution is not to propose a new balancing criterion”，从而回避了与Viviano & Bradic (2021)、Kallus & Santacatterina (2021)等提出新平衡准则的工作的直接竞争。 - 作者将工作定位为“deterministic algebraic equivalences”而非“probabilistic convergence properties”，从而回避了与Chernozhukov et al. (2022b)、Rotnitzky et al. (2017)等关注渐近性质的工作的直接比较。

什么明显该被引/该存在、却没出现在intro里： - 高阶影响函数（HOIF）：本文的递归设定与高阶影响函数（如Robins et al. (2008)的“higher-order influence functions”）有潜在联系，但intro未提及。HOIF可用于分析递归估计量的高阶偏置，这与本文的“递归混合偏置性质”可能互补。 - 计算复杂度分析：本文的递归估计量涉及多阶段矩阵运算，其计算复杂度（如通过树宽/张量收缩分析）未被讨论。这与研究者的higher-order U-statistics工作（使用einsum复杂度）有潜在联系。

张力¶

未见明显对立引用。各被引工作之间在等价性、正交性和渐近性质上基本一致，没有在略不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - W：可观测随机向量，包含所有时间点的变量。有n个i.i.d.副本。 - T：时间期数（递归深度）。T=1为横截面，T=2为时间变处理/替代变量/中介效应。 - Zt：第t阶段的条件变量（conditioning variables）。例如，在时间变处理中，Z1 = (X1, D1)，Z2 = (X1, D1, X2, D2)。 - Et(·)：第t阶段的期望测度（可能随时间变化）。例如，在替代变量分析中，E1是实验样本的期望，E2是观测样本的期望。 - mt(W; g)：第t阶段的线性公式（linear formula），是g的线性泛函。例如，在时间变处理中，m2(W; g) = g(X1, d1, X2, d2)（将g在反事实处理序列处求值）。 - ft(zt)：第t阶段的结果回归（outcome regression），ft(zt) = Et[mt+1(W; ft+1) | Zt = zt]。fT(zT) = ET[Y | ZT = zT]。 - αt(zt)：第t阶段的Riesz representer，满足Et-1[αt-1(Zt-1) mt(W; g)] = Et[αt(Zt) g(Zt)]对所有平方可积g成立。α0 := 1。 - θ0：目标参数，θ0 = E0[m1(W; f1)]，即反事实结果的均值。 - ϕt：第t阶段的字典（basis functions），ϕt: Zt → R^{kt}。ft(Zt) = ϕt' βt，αt(Zt) = ϕt' ηt。 - ϕt^d：字典在阶段泛函下的像，(ϕt^d)j := mt(W; ϕt,j)。 - βt：结果回归的系数向量，βt ∈ R^{kt}。 - ηt：Riesz回归的系数向量，ηt ∈ R^{kt}。 - λt, δt：第t阶段结果回归和Riesz回归的正则化参数。 - Pt, Qt：第t阶段结果回归和Riesz回归的凸惩罚函数。 - ˆGt：第t阶段的样本Gram矩阵，ˆGt := ˆEt[ϕt ϕt']。 - ˆMt：第t阶段的样本交叉矩矩阵，ˆMt := ˆEt[ϕt (ϕ{t+1}^d)']，t=1,...,T-1。 - ˆτt：第t阶段的Riesz目标向量，ˆτ1 = ˆE0[ϕ1^d]，ˆτt = ˆM_{t-1}' ˆη_{t-1} (t≥2)。 - ct：第t阶段的Riesz残差，ct := ˆτt - ˆGt ˆηt。 - ˆεt：第t阶段的结果残差，ˆεt = (ϕ_{t+1}^d)' ˆβ_{t+1} - ϕt' ˆβt (t<T)，ˆεT = Y - ϕT' ˆβT。

模型： - 数据生成机制：观测到n个i.i.d.副本的W，其分布由某个未知的联合分布P决定。 - 目标参数θ0被识别为递归函数类（1）-（3），即g-computation公式的推广。 - 每个阶段的ft和αt被假设为字典ϕt的线性组合：ft(Zt) = ϕt' βt，αt(Zt) = ϕt' ηt。 - 正则化：每个阶段的结果回归和Riesz回归可以分别使用凸惩罚Pt和Qt进行正则化。

可观测数据： - 可观测：W的n个i.i.d.副本，包括所有时间点的变量（如X1, D1, X2, D2, Y）。 - 想要但观测不到：反事实结果Y(d1, d2)（在时间变处理中）或Y(d, M(1-d))（在中介效应中）。这些只能通过识别假设（如顺序可忽略性、替代变量有效性）与可观测数据联系起来。 - 关键区分：在递归设定中，第t阶段的“生成结果”（ϕ_{t+1}^d)' ˆβ_{t+1}是可计算的（基于估计的系数），但它是反事实的（在反事实处理路径下求值）。同样，“生成回归变量”ˆα_{t-1} = ϕ_{t-1}' ˆη_{t-1}也是可计算的，但它是估计的Riesz representer。

第二步：最小内核¶

最简特例：T=2，OLS无正则化，时间变处理效应

考虑T=2的时间变处理效应（Example 2）。我们观测到n个i.i.d.轨迹W = (X1, D1, X2, D2, Y)，其中Dt ∈ {0,1}是二值处理。目标参数是反事实均值θ0(d1, d2) = E[Y(d1, d2)]。

可观测数据：{X1,i, D1,i, X2,i, D2,i, Yi}_{i=1}^n。

字典：假设每阶段使用线性字典，即ϕ1 = (1, X1, D1)'，ϕ2 = (1, X1, D1, X2, D2)'。注意，ϕ1^d = (1, X1, d1)'（将D1替换为反事实d1），ϕ2^d = (1, X1, d1, X2, d2)'（将D1, D2替换为反事实d1, d2）。

OLS估计（无正则化，λt = δt = 0）：

结果回归（后向递归）： - 阶段2：ˆβ2^{OLS} = ˆG2^{-1} ˆE2[Y ϕ2]（将Y对ϕ2回归）。 - 阶段1：ˆβ1^{OLS} = ˆG1^{-1} ˆM1 ˆβ2^{OLS}（将生成结果(ϕ2^d)' ˆβ2^{OLS}对ϕ1回归）。 - Plug-in估计量：ˆθ^P = ˆE0[(ϕ1^d)'] ˆβ1^{OLS}。

Riesz回归（前向递归）： - 阶段1：ˆη1^{OLS} = ˆG1^{-1} ˆE0[ϕ1^d]（将ϕ1^d对ϕ1回归）。 - 阶段2：ˆη2^{OLS} = ˆG2^{-1} ˆM1' ˆη1^{OLS}（将生成回归变量ˆα1 = ϕ1' ˆη1^{OLS}通过ˆM1'前向传播）。 - 平衡权重估计量：ˆθ^Q = ˆE2[Y ϕ2'] ˆη2^{OLS}。

双重稳健估计量： - ˆθ^DR = ˆθ^P + ˆE1[ˆα1^{OLS} ˆε1] + ˆE2[ˆα2^{OLS} ˆε2]，其中ˆε1 = (ϕ2^d)' ˆβ2^{OLS} - ϕ1' ˆβ1^{OLS}，ˆε2 = Y - ϕ2' ˆβ2^{OLS}。

Theorem 1的核心断言：在OLS下，ˆθ^P = ˆθ^Q = ˆθ^DR。

为什么成立（直觉）： 1. 每个去偏修正项为零：由于OLS的正交性，ˆE1[ˆα1^{OLS} ˆε1] = (ˆη1^{OLS})' ˆE1[ϕ1 ˆε1] = 0，因为ˆE1[ϕ1 ˆε1] = 0（OLS残差与回归变量正交）。同样，ˆE2[ˆα2^{OLS} ˆε2] = 0。因此ˆθ^DR = ˆθ^P。 2. 所有中间项相等：通过前向和后向OLS的FOC，可以证明(ˆηt^{OLS})' ˆGt ˆβt^{OLS}对所有t相等，且等于ˆθ^P和ˆθ^Q。具体来说，从t=T开始，ˆθ^Q = (ˆηT^{OLS})' ˆGT ˆβT^{OLS}。然后利用前向FOC（ˆM_t' ˆηt^{OLS} = ˆG_{t+1} ˆη_{t+1}^{OLS}）和后向FOC（ˆMt ˆβ_{t+1}^{OLS} = ˆGt ˆβt^{OLS}），可以逐步将等式从t=T推到t=1，最终得到ˆθ^Q = ˆθ^P。

这个特例揭示了什么：即使模型被错误设定（线性模型不正确），只要每阶段使用OLS且Gram矩阵可逆，三种估计量在任意有限样本下数值等价。这意味着在递归设定下，研究者可以自由选择plug-in、平衡权重或双重稳健估计量，而不会改变数值结果——只要他们使用OLS。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在递归因果估计（时间变处理效应、替代变量识别效应、中介效应）中，递归plug-in、递归平衡权重和递归双重稳健三种估计量之间的代数等价关系，以及正则化（ridge、一般凸惩罚）和递归深度（T）如何改变这种等价性。
核心工具/方法：线性估计框架（每阶段使用字典ϕt的线性组合），结合OLS、ridge和一般凸惩罚的正则化，通过前向（Riesz）和后向（结果）递归的FOC推导代数恒等式。
主要结论：(i) 当每阶段使用OLS且无正则化时，三种估计量在任意有限样本下数值等价，无论模型是否正确设定；(ii) 在ridge惩罚下，双重稳健估计量表现为各阶段惩罚回归与OLS回归混合的向后递归，其中OLS回归的权重随时期数几何衰减；(iii) 对于一般凸惩罚，推导了每阶段的恒等式（telescoping identity）。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）：

线性估计框架（Section 2.3）：每阶段的ft和αt被假设为字典ϕt的线性组合。这涵盖了级数、lasso和核方法等非参数估计量。作者指出“Many nonparametric estimators have the property of linearity in ϕt, e.g. series, lasso, and kernel methods, as well as certain neural networks and random forests.”
Gram矩阵可逆性：在Section 3（OLS等价性）和Section 4（ridge）中，假设每个ˆGt可逆（即kt ≤ nt）。在Section 5（一般凸惩罚）中，Theorem 3的(43)需要可逆性，但(42)不需要。
凸惩罚：Pt和Qt是凸惩罚函数，λt, δt ≥ 0是正则化参数。
递归函数类（Section 2.1）：目标参数θ0被识别为递归函数类（1）-（3），这要求每个阶段的条件期望存在且线性泛函mt是均方连续的。

相比已有文献的放宽或强化： - 放宽：与Bruns-Smith et al. (2025)的T=1设定相比，本文推广到任意T≥1，涵盖了时间变处理、替代变量和中介效应等更丰富的设定。 - 强化：与Chernozhukov et al. (2022b)的递归AutoDML相比，本文不关注渐近性质（正交性、一致性），而是关注有限样本下的代数等价性。因此，本文不需要Donsker条件或交叉拟合等概率假设。

主要结果¶

Theorem 1（OLS等价性）： - 陈述：当每阶段使用OLS且无正则化时，递归plug-in、递归平衡权重和递归双重稳健估计量在任意有限样本下数值等价，无论模型是否正确设定。 - 直觉：OLS的正交性使每个去偏修正项为零（ˆEt[ˆαt ˆεt] = 0），且前向和后向FOC使所有中间项相等。 - 必要条件：每个ˆGt可逆。 - 解决的技术难点：证明跨阶段的内积相等需要同时使用前向和后向FOC，并迭代从t=T到t=1。

Theorem 2（递归ridge收缩）： - 陈述：当Riesz representer用ridge估计但结果回归用任意线性估计量时，双重稳健估计量等价于一个单一的递归结果回归，其增广系数由后向递归定义：ˆβ_T^{Aug} = (I - AT) ˆβ_T^{Gen} + AT ˆβ_T^{OLS}，ˆβ_t^{Aug} = (I - At) ˆβ_t^{Gen} + At ˆβ_t^{Aug-OLS}，其中ˆβ_t^{Aug-OLS} = ˆG_t^{-1} ˆMt ˆβ_{t+1}^{Aug}。 - 直觉：每个阶段将惩罚回归ˆβ_t^{Gen}向OLS回归ˆβ_t^{Aug-OLS}收缩，但ˆβ_t^{Aug-OLS}本身是增广的（包含后续阶段的收缩）。 - 必要条件：每个ˆGt可逆。 - 解决的技术难点：证明需要归纳法，将T阶段问题分解为1阶段（最后阶段）和(T-1)阶段（内部阶段），并利用ridge Riesz的闭式解。

Corollary 1（OLS权重的几何衰减）： - 陈述：在标量对角情形（ˆGt = σ_t^2 I）下，递归OLS plug-in系数ˆβ_1^{OLS}上的权重为∏_{t=1}^T at，其中at = σ_t^2 / (σ_t^2 + δ_t) ∈ (0,1)。 - 直觉：每增加一个时间期，OLS权重乘以一个小于1的因子，因此随T指数衰减。

Theorem 3（一般凸惩罚的telescoping identity）： - 陈述：对于任意Riesz系数ˆηt和任意结果回归ˆβ_t^{Gen}，双重稳健估计量满足ˆθ^DR = ˆθ^Q + ∑{t=1}^T ct' ˆβ_t^{Gen} = ˆθ^OLS + ∑{t=1}^T ct' (ˆβ_t^{Gen} - ˆβ_t^{OLS})。 - 直觉：双重稳健估计量等于OLS加上每阶段Riesz残差与结果回归偏差的内积之和。当Riesz残差为零（OLS Riesz）或结果回归偏差为零（OLS结果）时，该阶段不贡献修正。 - 必要条件：Theorem 3的(42)不需要任何可逆性假设或最优性条件，仅依赖于残差和目标的定义。

证明路线与技术技巧¶

整体路线（以Theorem 1为例）： 1. 步骤1：证明每个去偏修正项为零。利用OLS的FOC（ˆGt ˆβ_t^{OLS} = ˆEt[Y ϕt]（t=T）或ˆGt ˆβ_t^{OLS} = ˆMt ˆβ_{t+1}^{OLS}（t<T）），得到ˆEt[ϕt ˆεt] = 0。由于ˆαt = ϕt' ˆηt在ϕt的张成空间中，ˆEt[ˆαt ˆεt] = (ˆηt)' ˆEt[ϕt ˆεt] = 0。 2. 步骤2：证明所有中间项相等。从ˆθ^Q = (ˆη_T^{OLS})' ˆGT ˆβ_T^{OLS}开始。利用前向FOC（ˆM_t' ˆη_t^{OLS} = ˆG_{t+1} ˆη_{t+1}^{OLS}）和后向FOC（ˆMt ˆβ_{t+1}^{OLS} = ˆGt ˆβ_t^{OLS}），得到(ˆη_{t+1}^{OLS})' ˆG_{t+1} ˆβ_{t+1}^{OLS} = (ˆη_t^{OLS})' ˆGt ˆβ_t^{OLS}。迭代得到所有阶段相等。 3. 步骤3：结合步骤1和2，得到ˆθ^DR = ˆθ^P = ˆθ^Q。

关键跳跃点： - Theorem 2的归纳证明：将T阶段问题分解为1阶段（最后阶段）和(T-1)阶段（内部阶段）。关键跳跃在于识别出内部阶段的“外目标”是ˆM_1' ˆη_1^R，并利用归纳假设将其与增广系数联系起来。 - Theorem 3的telescoping identity：关键跳跃在于将双重稳健估计量展开为ˆθ^Q加上Riesz残差与结果回归的内积之和。这需要巧妙地利用Riesz残差定义（ct = ˆτt - ˆGt ˆηt）和交叉矩的转置关系（ˆη_t' ˆMt = ˆη_{t+1}' ˆG_{t+1} + c_{t+1}'）。

技术技巧点名： - FOC操作：OLS和ridge的FOC是推导所有恒等式的核心工具。 - 归纳法：Theorem 2的证明使用归纳法，将T阶段问题归约为1阶段问题。 - telescoping sum：Theorem 3的证明使用telescoping sum，将多阶段修正分解为每阶段内积之和。 - Riesz残差：引入Riesz残差ct作为关键中间量，使得一般凸惩罚下的恒等式得以简洁表达。

真实例子与应用¶

本文为纯理论，无实证例子。作者在Section 2.2中给出了三个运行例子（时间变处理、替代变量、中介效应），但这些仅用于说明递归函数类的具体形式，并未进行数值模拟或真实数据分析。作者在Conclusion中写道：“This paper takes the dissection of Bruns-Smith et al. (2025) from a single penalised regression into the recursive setting of Chernozhukov et al. (2022b)”，表明本文是理论扩展工作。

🔎 结论是否比证明窄¶

Theorem 1：证明严格依赖于OLS的FOC和Gram矩阵可逆性。结论声称“whether or not the linear models are correctly specified”，这确实是证明所涵盖的——证明只用了代数恒等式，没有用到任何模型正确设定的概率假设。因此结论不比证明窄。
Theorem 2：证明假设每个ˆGt可逆，且Riesz回归使用ridge。结论声称“arbitrary outcome regressions ˆβ_t^{Gen}”，这确实是证明所涵盖的——证明只用了ˆβ_t^{Gen}是任意线性估计量这一事实。因此结论不比证明窄。
Theorem 3：证明的(42)部分不依赖于任何可逆性假设或最优性条件，仅依赖于残差和目标的定义。结论声称“any coefficient vectors ˆηt”和“any outcome regressions ˆβ_t^{Gen}”，这确实是证明所涵盖的。因此结论不比证明窄。
Corollary 1：证明假设标量对角Gram矩阵（ˆGt = σ_t^2 I）。结论声称“the coefficient on the recursive OLS plug-in coefficients ˆβ_1^{OLS} is ∏_{t=1}^T at”。这严格依赖于标量对角假设，在一般Gram矩阵下不成立（Corollary 2给出了更弱的收缩界）。因此结论不比证明窄——作者明确将Corollary 1限制在标量对角情形。

四、开放问题¶

非线性字典的等价性：本文的等价性严格依赖于每阶段使用相同字典ϕt的线性组合。对于非线性估计量（如深度神经网络、随机森林），等价性是否仍然成立？这扎根于Section 2.3的线性估计框架假设。作者在Appendix E中讨论了核ridge回归的扩展，但未涉及更一般的非线性方法。
概率收敛性质：本文只研究了有限样本下的代数等价性，未讨论估计量的渐近性质（一致性、渐近正态性、效率）。在递归设定下，这些代数等价性是否意味着渐近等价性？这扎根于本文与Chernozhukov et al. (2022b)等关注渐近性质的工作之间的张力。
计算复杂度分析：递归估计量的计算复杂度（如矩阵求逆、前向/后向传播）随T和kt如何变化？是否存在更高效的计算策略（如利用张量收缩/树宽结构）？这扎根于本文未讨论的计算方面，与研究者的higher-order U-statistics工作（使用einsum复杂度）有潜在联系。
正则化参数的选择：Theorem 2和Corollary 1揭示了ridge下OLS权重的几何衰减，但未讨论如何选择正则化参数δt（或λt）以优化估计量的均方误差。是否存在数据驱动的选择准则？这扎根于本文未讨论的调参问题。

Maintained by 陈星宇 · Homepage · Source on GitHub