Online statistical inference in decision-making with matrix context¶

作者: Qiyu Han, Will Wei Sun, Yichen Zhang
来源: Annals of Statistics
主题: 效率理论 / Debiased ML
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2526

核心问题与动机¶

本文解决的是带有矩阵上下文的在线决策问题中的统计推断问题。在现代应用（如医疗、自动驾驶）中，上下文信息常以矩阵形式存在且真实模型参数具有低秩结构，而现有在线决策算法多聚焦于奖励最大化，忽视了统计推断。该问题的核心难点在于双重偏差的叠加：1）低秩结构带来的正则化/约束偏差（标准低秩估计量有偏且无法直接用于推断）；2）适应性数据收集带来的抽样偏差（现有序列决策推断方法未考虑低秩性且因适应性抽样而有偏）。

主要贡献¶

提出了一种完全在线的决策推断框架，适用于矩阵上下文与低秩参数设定，涵盖参数推断与最优策略值推断。
设计了新型在线去偏过程，能够同时纠正低秩结构导致的估计偏差与适应性数据收集导致的抽样偏差。
提出了低秩随机梯度下降估计量及其收敛性分析，作为推断的基础，具有独立的理论与计算价值。
建立了在线去偏估计量的渐近正态性，为构建参数与策略值的置信区间提供了理论保证。

方法框架¶

模型设定：在线决策过程，时刻 $t$ 观测矩阵上下文 $X_t \in \mathbb{R}^{d_1 \times d_2}$，采取行动 $A_t$，获得奖励 $R_t$。真实参数矩阵 $\Theta^ \in \mathbb{R}^{d_1 \times d_2}$ 具有低秩结构（$\text{rank}(\Theta^)=r$）。
关键假设：
低秩性：真实参数矩阵的秩远小于矩阵维度，即 $r \ll \min(d_1, d_2)$。
适应性数据收集：行动策略依赖于历史数据，数据非独立同分布，具有鞅结构。
方法步骤：
低秩 SGD 估计：在流数据下，使用带低秩约束/投影的随机梯度下降法迭代更新 $\Theta^*$ 的估计 $\hat{\Theta}_t$。
在线去偏：构造去偏修正项，同时处理低秩投影带来的非线性偏差与适应性抽样导致的鞅偏差，得到在线去偏估计量 $\tilde{\Theta}_t$。
推断：基于 $\tilde{\Theta}_t$ 的渐近正态性，构造模型参数及最优策略值的置信区间。

主要理论结果¶

低秩 SGD 收敛速率：证明了提出的低秩 SGD 估计量在适应性数据流下的收敛性（具体速率依赖于步长选择与低秩投影算子的性质）。
渐近正态性：在线去偏估计量 $\tilde{\Theta}_t$ 服从渐近正态分布，即 $\sqrt{t}(\tilde{\Theta}_t - \Theta^*) \xrightarrow{d} \mathcal{N}(0, \Sigma)$，其中 $\Sigma$ 为渐近方差矩阵，克服了低秩与适应性的双重偏差。
置信区间有效性：基于渐近正态性构造的参数与最优策略值置信区间具有渐近名义覆盖概率。

实验 / 数值仿真¶

（摘要未提供具体实验细节，跳过此节）

与研究者兴趣的关联¶

效率理论与 Debiased ML：本文的核心技巧是在线去偏，属于 Debiased ML 范畴在非独立同分布（适应性数据）与高维/低秩设定下的扩展，直接契合您对 semiparametric efficiency bounds 与 debiased ML 的兴趣。
高维统计与随机矩阵理论：低秩矩阵估计本质是高维统计与 RMT 的交叉，低秩 SGD 的收敛分析涉及矩阵流形上的优化与谱理论。
因果推断与策略评估：最优策略值推断属于因果推断中 policy evaluation 的范畴，处理适应性数据（如 bandit 数据）的推断是当前因果推断与强化学习交叉的热点。

局限性与开放问题¶

严格低秩假设：理论依赖于 $\Theta^*$ 的精确低秩假设，若实际为近似低秩（特征值快速衰减），去偏过程的有限样本表现与理论保证需进一步探索。
半参数/非参数扩展：当前模型可能主要针对参数化奖励函数设定，若奖励生成机制存在非参数成分，在线去偏如何与半参数效率理论结合是开放问题。
维度发散速率：摘要未明确 $d_1, d_2$ 相对于样本量 $t$ 的发散条件，在超高维设定下（如 $d \gg t$），在线去偏的方差估计与可行性仍具挑战。

Maintained by 陈星宇 · Homepage · Source on GitHub