跳转至

Generated outcomes as generated regressors: Equivalences in recursive causal estimation

作者: Wisse Rutgers, Rahul Singh
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.29009


一、领域脉络与小综述

这个方向是什么

本文研究的核心问题是:在递归因果估计(recursive causal estimation)中,不同估计量之间的代数等价关系。具体来说,当目标参数(如时间变处理效应、替代变量识别效应、中介效应)被识别为递归回归(recursive regression)——即一个回归的预测值成为下一个回归的“生成结果”(generated outcome)——时,三种标准估计量(递归plug-in、递归平衡权重、递归双重稳健)在有限样本下是否数值等价?这种等价性如何随正则化(ridge、一般凸惩罚)和递归深度(时间期数T)变化?该方向直接继承自横截面因果推断中已知的等价性结果(OLS回归、平衡权重、双重稳健估计量在特定条件下数值等价),并将其推广到纵向/递归设定

发展脉络

奠基工作:横截面因果推断中的等价性

  • Rubin (1980)Robins et al. (2007)Kline (2011)Chattopadhyay & Zubizarreta (2023):这些工作逐步揭示了在横截面设定下,OLS回归、逆概率加权(IPW)和双重稳健估计量之间的数值等价性。Robins et al. (2007) 特别指出,当倾向得分和结果模型都线性时,IPW和回归估计量等价。Chattopadhyay & Zubizarreta (2023) 进一步给出了回归估计量隐含权重的闭式表达式,并建立了与凸优化问题的等价性。本文引用语境:“Most directly, we build on previous work that characterizes numerical equivalences in cross-sectional causal inference”。

  • Bruns-Smith et al. (2025):这是本文最直接的先驱。他们证明,当结果模型和Riesz representer都用ridge回归估计时,增广估计量(augmented estimator)代数等价于一个单一的欠光滑ridge回归。本文引用语境:“Bruns-Smith et al. (2025) show that when both the outcome model and the Riesz representer are estimated by ridge regression, the augmented estimator is algebraically equivalent to a single undersmoothed outcome regression; this equivalence is the direct precursor to our recursive results.” 该工作将等价性从OLS推广到ridge正则化,并给出了“debiasing = undersmoothing”的直观解释。

主要进展:递归因果推断的识别与估计

  • Robins (1986):提出了g-computation公式,将时间变处理效应识别为递归回归。这是递归因果推断的奠基性识别结果。

  • Bang & Robins (2005):提出了递归双重稳健估计量,用于时间变处理效应。这是递归设定下双重稳健估计的早期工作。

  • Pearl (2001)Robins & Greenland (1992)Imai et al. (2010):建立了中介效应的识别与估计框架,其中自然间接效应(natural indirect effect)被识别为T=2的递归回归。

  • Athey et al. (2025):提出了替代变量指数(surrogate index)方法,将长期处理效应的估计转化为递归回归问题(T=2,且涉及两个不同样本的分布偏移)。

  • Chernozhukov et al. (2022b):提出了“自动去偏机器学习”(AutoDML)的递归版本,给出了递归函数类的Neyman正交矩和递归混合偏置性质。这是本文的直接理论框架。本文引用语境:“Following Chernozhukov et al. (2022b), each stage t contains three time-varying objects: (i) the conditioning variables Zt; (ii) an expectation Et(·); and (iii) a linear formula mt.”

  • Rotnitzky et al. (2021, 2025):刻画了具有“混合偏置性质”(mixed bias property)的参数类,并证明了一类更广泛的参数(包括递归函数类)的等价性。Rotnitzky et al. (2025) 将Bruns-Smith et al. (2025)的等价性推广到混合偏置类。本文引用语境:“Recently, Rotnitzky et al. (2025) generalize this equivalence to the class of mixed bias linear functionals defined by Rotnitzky et al. (2021).”

当前Frontier与本文位置

  • 递归平衡权重:已有工作提出了递归平衡准则,包括参数(Bang & Robins, 2005)、核(Kallus & Santacatterina, 2021)、高维线性(Viviano & Bradic, 2021)和通用机器学习(Chernozhukov et al., 2022b)函数空间。这些工作主要关注估计量的概率收敛性质(一致性、渐近正态性),而非代数等价性

  • 本文的独特贡献:本文不提出新的平衡准则,而是分析递归平衡权重与递归回归之间的代数等价性。具体来说,它回答了以下问题:横截面因果推断中已知的等价性(OLS回归=平衡权重=双重稳健)是否推广到纵向设定?debiasing作为undersmoothing的直观解释是否仍然成立?本文的答案是:等价性成立(当每阶段用OLS且无正则化时,三种估计量在任意有限样本下数值等价),但debiasing作为undersmoothing的直观解释随时间期数增加而减弱(ridge下OLS权重几何衰减)。

子线索聚类

  1. 横截面等价性线索:Rubin (1980), Robins et al. (2007), Kline (2011), Chattopadhyay & Zubizarreta (2023), Bruns-Smith et al. (2025), Rotnitzky et al. (2025)。这一簇主要关注单期(T=1)设定下,回归、平衡权重和双重稳健估计量之间的代数等价性,以及正则化如何改变这种等价性。

  2. 递归识别与估计线索:Robins (1986), Bang & Robins (2005), Pearl (2001), Imai et al. (2010), Athey et al. (2025), Chernozhukov et al. (2022b), Molina et al. (2017), Luedtke et al. (2017), Rotnitzky et al. (2017)。这一簇关注多期(T≥2)设定下,递归函数类的识别、正交矩、双重/多重稳健估计,以及渐近性质。

  3. 平衡权重与Riesz回归线索:Zubizarreta (2015), Athey et al. (2018), Hirshberg & Wager (2021), Kallus (2020), Hirshberg et al. (2019), Singh (2021), Chernozhukov et al. (2021, 2023), Viviano & Bradic (2021), Kallus & Santacatterina (2021)。这一簇关注如何通过最小化平衡准则(如协变量平衡)来构造权重,以及这些权重与Riesz representer的关系。本文的Lemma 1(递归平衡-Riesz等价性)直接连接了这一簇。

这个方向在追问的核心问题

  1. 等价性是否成立:在递归设定下,plug-in、平衡权重和双重稳健估计量是否数值等价?在什么条件下成立(OLS vs. 正则化)?

  2. 正则化的影响:当每阶段使用正则化(ridge、lasso、一般凸惩罚)时,等价性如何变化?debiasing是否仍然等价于undersmoothing?

  3. 递归深度的影响:随着时间期数T增加,正则化对估计量的影响如何累积?OLS权重是否几何衰减?

  4. 计算与统计的权衡:递归估计量的计算复杂度(如通过张量收缩/树宽分析)与统计效率之间是否存在权衡?

⚠️ 作者的Framing

作者把缺口frame成什么:作者将缺口frame为“横截面等价性是否推广到递归设定”以及“debiasing作为undersmoothing的直观是否仍然成立”。具体来说,作者指出:“Unlike earlier work, the class we study includes the canonical models of time-varying treatment effects, surrogate analysis, and mediation analysis, which are widely used in empirical research.” 这意味着作者将自己的工作定位为将Bruns-Smith et al. (2025)的等价性从横截面推广到纵向,从而填补一个明显的应用缺口。

哪些竞争路线被淡化或回避: - 作者明确说“Our contribution is not to propose a new balancing criterion”,从而回避了与Viviano & Bradic (2021)、Kallus & Santacatterina (2021)等提出新平衡准则的工作的直接竞争。 - 作者将工作定位为“deterministic algebraic equivalences”而非“probabilistic convergence properties”,从而回避了与Chernozhukov et al. (2022b)、Rotnitzky et al. (2017)等关注渐近性质的工作的直接比较。

什么明显该被引/该存在、却没出现在intro里: - 高阶影响函数(HOIF):本文的递归设定与高阶影响函数(如Robins et al. (2008)的“higher-order influence functions”)有潜在联系,但intro未提及。HOIF可用于分析递归估计量的高阶偏置,这与本文的“递归混合偏置性质”可能互补。 - 计算复杂度分析:本文的递归估计量涉及多阶段矩阵运算,其计算复杂度(如通过树宽/张量收缩分析)未被讨论。这与研究者的higher-order U-statistics工作(使用einsum复杂度)有潜在联系。

张力

未见明显对立引用。各被引工作之间在等价性、正交性和渐近性质上基本一致,没有在略不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号: - W:可观测随机向量,包含所有时间点的变量。有n个i.i.d.副本。 - T:时间期数(递归深度)。T=1为横截面,T=2为时间变处理/替代变量/中介效应。 - Zt:第t阶段的条件变量(conditioning variables)。例如,在时间变处理中,Z1 = (X1, D1),Z2 = (X1, D1, X2, D2)。 - Et(·):第t阶段的期望测度(可能随时间变化)。例如,在替代变量分析中,E1是实验样本的期望,E2是观测样本的期望。 - mt(W; g):第t阶段的线性公式(linear formula),是g的线性泛函。例如,在时间变处理中,m2(W; g) = g(X1, d1, X2, d2)(将g在反事实处理序列处求值)。 - ft(zt):第t阶段的结果回归(outcome regression),ft(zt) = Et[mt+1(W; ft+1) | Zt = zt]。fT(zT) = ET[Y | ZT = zT]。 - αt(zt):第t阶段的Riesz representer,满足Et-1[αt-1(Zt-1) mt(W; g)] = Et[αt(Zt) g(Zt)]对所有平方可积g成立。α0 := 1。 - θ0:目标参数,θ0 = E0[m1(W; f1)],即反事实结果的均值。 - ϕt:第t阶段的字典(basis functions),ϕt: Zt → R^{kt}。ft(Zt) = ϕt' βt,αt(Zt) = ϕt' ηt。 - ϕt^d:字典在阶段泛函下的像,(ϕt^d)j := mt(W; ϕt,j)。 - βt:结果回归的系数向量,βt ∈ R^{kt}。 - ηt:Riesz回归的系数向量,ηt ∈ R^{kt}。 - λt, δt:第t阶段结果回归和Riesz回归的正则化参数。 - Pt, Qt:第t阶段结果回归和Riesz回归的凸惩罚函数。 - ˆGt:第t阶段的样本Gram矩阵,ˆGt := ˆEt[ϕt ϕt']。 - ˆMt:第t阶段的样本交叉矩矩阵,ˆMt := ˆEt[ϕt (ϕ{t+1}^d)'],t=1,...,T-1。 - ˆτt:第t阶段的Riesz目标向量,ˆτ1 = ˆE0[ϕ1^d],ˆτt = ˆM_{t-1}' ˆη_{t-1} (t≥2)。 - ct:第t阶段的Riesz残差,ct := ˆτt - ˆGt ˆηt。 - ˆεt:第t阶段的结果残差,ˆεt = (ϕ_{t+1}^d)' ˆβ_{t+1} - ϕt' ˆβt (t<T),ˆεT = Y - ϕT' ˆβT。

模型: - 数据生成机制:观测到n个i.i.d.副本的W,其分布由某个未知的联合分布P决定。 - 目标参数θ0被识别为递归函数类(1)-(3),即g-computation公式的推广。 - 每个阶段的ft和αt被假设为字典ϕt的线性组合:ft(Zt) = ϕt' βt,αt(Zt) = ϕt' ηt。 - 正则化:每个阶段的结果回归和Riesz回归可以分别使用凸惩罚Pt和Qt进行正则化。

可观测数据: - 可观测:W的n个i.i.d.副本,包括所有时间点的变量(如X1, D1, X2, D2, Y)。 - 想要但观测不到:反事实结果Y(d1, d2)(在时间变处理中)或Y(d, M(1-d))(在中介效应中)。这些只能通过识别假设(如顺序可忽略性、替代变量有效性)与可观测数据联系起来。 - 关键区分:在递归设定中,第t阶段的“生成结果”(ϕ_{t+1}^d)' ˆβ_{t+1}是可计算的(基于估计的系数),但它是反事实的(在反事实处理路径下求值)。同样,“生成回归变量”ˆα_{t-1} = ϕ_{t-1}' ˆη_{t-1}也是可计算的,但它是估计的Riesz representer。

第二步:最小内核

最简特例:T=2,OLS无正则化,时间变处理效应

考虑T=2的时间变处理效应(Example 2)。我们观测到n个i.i.d.轨迹W = (X1, D1, X2, D2, Y),其中Dt ∈ {0,1}是二值处理。目标参数是反事实均值θ0(d1, d2) = E[Y(d1, d2)]。

可观测数据:{X1,i, D1,i, X2,i, D2,i, Yi}_{i=1}^n。

字典:假设每阶段使用线性字典,即ϕ1 = (1, X1, D1)',ϕ2 = (1, X1, D1, X2, D2)'。注意,ϕ1^d = (1, X1, d1)'(将D1替换为反事实d1),ϕ2^d = (1, X1, d1, X2, d2)'(将D1, D2替换为反事实d1, d2)。

OLS估计(无正则化,λt = δt = 0):

结果回归(后向递归): - 阶段2:ˆβ2^{OLS} = ˆG2^{-1} ˆE2[Y ϕ2](将Y对ϕ2回归)。 - 阶段1:ˆβ1^{OLS} = ˆG1^{-1} ˆM1 ˆβ2^{OLS}(将生成结果(ϕ2^d)' ˆβ2^{OLS}对ϕ1回归)。 - Plug-in估计量:ˆθ^P = ˆE0[(ϕ1^d)'] ˆβ1^{OLS}。

Riesz回归(前向递归): - 阶段1:ˆη1^{OLS} = ˆG1^{-1} ˆE0[ϕ1^d](将ϕ1^d对ϕ1回归)。 - 阶段2:ˆη2^{OLS} = ˆG2^{-1} ˆM1' ˆη1^{OLS}(将生成回归变量ˆα1 = ϕ1' ˆη1^{OLS}通过ˆM1'前向传播)。 - 平衡权重估计量:ˆθ^Q = ˆE2[Y ϕ2'] ˆη2^{OLS}。

双重稳健估计量: - ˆθ^DR = ˆθ^P + ˆE1[ˆα1^{OLS} ˆε1] + ˆE2[ˆα2^{OLS} ˆε2],其中ˆε1 = (ϕ2^d)' ˆβ2^{OLS} - ϕ1' ˆβ1^{OLS},ˆε2 = Y - ϕ2' ˆβ2^{OLS}。

Theorem 1的核心断言:在OLS下,ˆθ^P = ˆθ^Q = ˆθ^DR。

为什么成立(直觉): 1. 每个去偏修正项为零:由于OLS的正交性,ˆE1[ˆα1^{OLS} ˆε1] = (ˆη1^{OLS})' ˆE1[ϕ1 ˆε1] = 0,因为ˆE1[ϕ1 ˆε1] = 0(OLS残差与回归变量正交)。同样,ˆE2[ˆα2^{OLS} ˆε2] = 0。因此ˆθ^DR = ˆθ^P。 2. 所有中间项相等:通过前向和后向OLS的FOC,可以证明(ˆηt^{OLS})' ˆGt ˆβt^{OLS}对所有t相等,且等于ˆθ^P和ˆθ^Q。具体来说,从t=T开始,ˆθ^Q = (ˆηT^{OLS})' ˆGT ˆβT^{OLS}。然后利用前向FOC(ˆM_t' ˆηt^{OLS} = ˆG_{t+1} ˆη_{t+1}^{OLS})和后向FOC(ˆMt ˆβ_{t+1}^{OLS} = ˆGt ˆβt^{OLS}),可以逐步将等式从t=T推到t=1,最终得到ˆθ^Q = ˆθ^P。

这个特例揭示了什么:即使模型被错误设定(线性模型不正确),只要每阶段使用OLS且Gram矩阵可逆,三种估计量在任意有限样本下数值等价。这意味着在递归设定下,研究者可以自由选择plug-in、平衡权重或双重稳健估计量,而不会改变数值结果——只要他们使用OLS。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在递归因果估计(时间变处理效应、替代变量识别效应、中介效应)中,递归plug-in、递归平衡权重和递归双重稳健三种估计量之间的代数等价关系,以及正则化(ridge、一般凸惩罚)和递归深度(T)如何改变这种等价性。
  2. 核心工具/方法:线性估计框架(每阶段使用字典ϕt的线性组合),结合OLS、ridge和一般凸惩罚的正则化,通过前向(Riesz)和后向(结果)递归的FOC推导代数恒等式。
  3. 主要结论:(i) 当每阶段使用OLS且无正则化时,三种估计量在任意有限样本下数值等价,无论模型是否正确设定;(ii) 在ridge惩罚下,双重稳健估计量表现为各阶段惩罚回归与OLS回归混合的向后递归,其中OLS回归的权重随时期数几何衰减;(iii) 对于一般凸惩罚,推导了每阶段的恒等式(telescoping identity)。

关键设定与假设

完整设定(在第二节最小记号基础上补充):

  • 线性估计框架(Section 2.3):每阶段的ft和αt被假设为字典ϕt的线性组合。这涵盖了级数、lasso和核方法等非参数估计量。作者指出“Many nonparametric estimators have the property of linearity in ϕt, e.g. series, lasso, and kernel methods, as well as certain neural networks and random forests.”
  • Gram矩阵可逆性:在Section 3(OLS等价性)和Section 4(ridge)中,假设每个ˆGt可逆(即kt ≤ nt)。在Section 5(一般凸惩罚)中,Theorem 3的(43)需要可逆性,但(42)不需要。
  • 凸惩罚:Pt和Qt是凸惩罚函数,λt, δt ≥ 0是正则化参数。
  • 递归函数类(Section 2.1):目标参数θ0被识别为递归函数类(1)-(3),这要求每个阶段的条件期望存在且线性泛函mt是均方连续的。

相比已有文献的放宽或强化: - 放宽:与Bruns-Smith et al. (2025)的T=1设定相比,本文推广到任意T≥1,涵盖了时间变处理、替代变量和中介效应等更丰富的设定。 - 强化:与Chernozhukov et al. (2022b)的递归AutoDML相比,本文不关注渐近性质(正交性、一致性),而是关注有限样本下的代数等价性。因此,本文不需要Donsker条件或交叉拟合等概率假设。

主要结果

Theorem 1(OLS等价性): - 陈述:当每阶段使用OLS且无正则化时,递归plug-in、递归平衡权重和递归双重稳健估计量在任意有限样本下数值等价,无论模型是否正确设定。 - 直觉:OLS的正交性使每个去偏修正项为零(ˆEt[ˆαt ˆεt] = 0),且前向和后向FOC使所有中间项相等。 - 必要条件:每个ˆGt可逆。 - 解决的技术难点:证明跨阶段的内积相等需要同时使用前向和后向FOC,并迭代从t=T到t=1。

Theorem 2(递归ridge收缩): - 陈述:当Riesz representer用ridge估计但结果回归用任意线性估计量时,双重稳健估计量等价于一个单一的递归结果回归,其增广系数由后向递归定义:ˆβ_T^{Aug} = (I - AT) ˆβ_T^{Gen} + AT ˆβ_T^{OLS},ˆβ_t^{Aug} = (I - At) ˆβ_t^{Gen} + At ˆβ_t^{Aug-OLS},其中ˆβ_t^{Aug-OLS} = ˆG_t^{-1} ˆMt ˆβ_{t+1}^{Aug}。 - 直觉:每个阶段将惩罚回归ˆβ_t^{Gen}向OLS回归ˆβ_t^{Aug-OLS}收缩,但ˆβ_t^{Aug-OLS}本身是增广的(包含后续阶段的收缩)。 - 必要条件:每个ˆGt可逆。 - 解决的技术难点:证明需要归纳法,将T阶段问题分解为1阶段(最后阶段)和(T-1)阶段(内部阶段),并利用ridge Riesz的闭式解。

Corollary 1(OLS权重的几何衰减): - 陈述:在标量对角情形(ˆGt = σ_t^2 I)下,递归OLS plug-in系数ˆβ_1^{OLS}上的权重为∏_{t=1}^T at,其中at = σ_t^2 / (σ_t^2 + δ_t) ∈ (0,1)。 - 直觉:每增加一个时间期,OLS权重乘以一个小于1的因子,因此随T指数衰减。

Theorem 3(一般凸惩罚的telescoping identity): - 陈述:对于任意Riesz系数ˆηt和任意结果回归ˆβ_t^{Gen},双重稳健估计量满足ˆθ^DR = ˆθ^Q + ∑{t=1}^T ct' ˆβ_t^{Gen} = ˆθ^OLS + ∑{t=1}^T ct' (ˆβ_t^{Gen} - ˆβ_t^{OLS})。 - 直觉:双重稳健估计量等于OLS加上每阶段Riesz残差与结果回归偏差的内积之和。当Riesz残差为零(OLS Riesz)或结果回归偏差为零(OLS结果)时,该阶段不贡献修正。 - 必要条件:Theorem 3的(42)不需要任何可逆性假设或最优性条件,仅依赖于残差和目标的定义。

证明路线与技术技巧

整体路线(以Theorem 1为例): 1. 步骤1:证明每个去偏修正项为零。利用OLS的FOC(ˆGt ˆβ_t^{OLS} = ˆEt[Y ϕt](t=T)或ˆGt ˆβ_t^{OLS} = ˆMt ˆβ_{t+1}^{OLS}(t<T)),得到ˆEt[ϕt ˆεt] = 0。由于ˆαt = ϕt' ˆηt在ϕt的张成空间中,ˆEt[ˆαt ˆεt] = (ˆηt)' ˆEt[ϕt ˆεt] = 0。 2. 步骤2:证明所有中间项相等。从ˆθ^Q = (ˆη_T^{OLS})' ˆGT ˆβ_T^{OLS}开始。利用前向FOC(ˆM_t' ˆη_t^{OLS} = ˆG_{t+1} ˆη_{t+1}^{OLS})和后向FOC(ˆMt ˆβ_{t+1}^{OLS} = ˆGt ˆβ_t^{OLS}),得到(ˆη_{t+1}^{OLS})' ˆG_{t+1} ˆβ_{t+1}^{OLS} = (ˆη_t^{OLS})' ˆGt ˆβ_t^{OLS}。迭代得到所有阶段相等。 3. 步骤3:结合步骤1和2,得到ˆθ^DR = ˆθ^P = ˆθ^Q。

关键跳跃点: - Theorem 2的归纳证明:将T阶段问题分解为1阶段(最后阶段)和(T-1)阶段(内部阶段)。关键跳跃在于识别出内部阶段的“外目标”是ˆM_1' ˆη_1^R,并利用归纳假设将其与增广系数联系起来。 - Theorem 3的telescoping identity:关键跳跃在于将双重稳健估计量展开为ˆθ^Q加上Riesz残差与结果回归的内积之和。这需要巧妙地利用Riesz残差定义(ct = ˆτt - ˆGt ˆηt)和交叉矩的转置关系(ˆη_t' ˆMt = ˆη_{t+1}' ˆG_{t+1} + c_{t+1}')。

技术技巧点名: - FOC操作:OLS和ridge的FOC是推导所有恒等式的核心工具。 - 归纳法:Theorem 2的证明使用归纳法,将T阶段问题归约为1阶段问题。 - telescoping sum:Theorem 3的证明使用telescoping sum,将多阶段修正分解为每阶段内积之和。 - Riesz残差:引入Riesz残差ct作为关键中间量,使得一般凸惩罚下的恒等式得以简洁表达。

真实例子与应用

本文为纯理论,无实证例子。作者在Section 2.2中给出了三个运行例子(时间变处理、替代变量、中介效应),但这些仅用于说明递归函数类的具体形式,并未进行数值模拟或真实数据分析。作者在Conclusion中写道:“This paper takes the dissection of Bruns-Smith et al. (2025) from a single penalised regression into the recursive setting of Chernozhukov et al. (2022b)”,表明本文是理论扩展工作。

🔎 结论是否比证明窄

  • Theorem 1:证明严格依赖于OLS的FOC和Gram矩阵可逆性。结论声称“whether or not the linear models are correctly specified”,这确实是证明所涵盖的——证明只用了代数恒等式,没有用到任何模型正确设定的概率假设。因此结论不比证明窄。
  • Theorem 2:证明假设每个ˆGt可逆,且Riesz回归使用ridge。结论声称“arbitrary outcome regressions ˆβ_t^{Gen}”,这确实是证明所涵盖的——证明只用了ˆβ_t^{Gen}是任意线性估计量这一事实。因此结论不比证明窄。
  • Theorem 3:证明的(42)部分不依赖于任何可逆性假设或最优性条件,仅依赖于残差和目标的定义。结论声称“any coefficient vectors ˆηt”和“any outcome regressions ˆβ_t^{Gen}”,这确实是证明所涵盖的。因此结论不比证明窄。
  • Corollary 1:证明假设标量对角Gram矩阵(ˆGt = σ_t^2 I)。结论声称“the coefficient on the recursive OLS plug-in coefficients ˆβ_1^{OLS} is ∏_{t=1}^T at”。这严格依赖于标量对角假设,在一般Gram矩阵下不成立(Corollary 2给出了更弱的收缩界)。因此结论不比证明窄——作者明确将Corollary 1限制在标量对角情形。

四、开放问题

  1. 非线性字典的等价性:本文的等价性严格依赖于每阶段使用相同字典ϕt的线性组合。对于非线性估计量(如深度神经网络、随机森林),等价性是否仍然成立?这扎根于Section 2.3的线性估计框架假设。作者在Appendix E中讨论了核ridge回归的扩展,但未涉及更一般的非线性方法。

  2. 概率收敛性质:本文只研究了有限样本下的代数等价性,未讨论估计量的渐近性质(一致性、渐近正态性、效率)。在递归设定下,这些代数等价性是否意味着渐近等价性?这扎根于本文与Chernozhukov et al. (2022b)等关注渐近性质的工作之间的张力。

  3. 计算复杂度分析:递归估计量的计算复杂度(如矩阵求逆、前向/后向传播)随T和kt如何变化?是否存在更高效的计算策略(如利用张量收缩/树宽结构)?这扎根于本文未讨论的计算方面,与研究者的higher-order U-statistics工作(使用einsum复杂度)有潜在联系。

  4. 正则化参数的选择:Theorem 2和Corollary 1揭示了ridge下OLS权重的几何衰减,但未讨论如何选择正则化参数δt(或λt)以优化估计量的均方误差。是否存在数据驱动的选择准则?这扎根于本文未讨论的调参问题。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论