Nonparametric additive value functions: Interpretable reinforcement learning with an application to surgical recovery¶

作者: Patrick Emedom-Nnamdi, Timothy R. Smith, Jukka-Pekka Onnela, Junwei Lu
来源: Annals of Applied Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在离线强化学习框架下，如何从静态的观测数据中估计具有可解释性的动作-价值函数，从而为个性化干预（如术后恢复、脓毒症治疗）提供既灵活（非线性）又透明（可分解、可归因）的策略推荐。当前该方向处于从"黑箱深度RL取得实证成功"向"高维非参数可解释RL理论化"过渡的阶段：应用端已有大量数字表型数据，理论端刚把稀疏加性模型与离线策略学习结合，但非参数收敛率与交互项选择的严格统计保证仍不完整。

发展脉络： - 奠基工作：经典离线RL算法LSPI（Lagoudakis & Parr 2003，本文虽未直接引但属常识背景）将Q函数限定为线性参数形式，奠定了"策略迭代+函数近似"的骨架，但线性假设在临床高维数据上严重失配。 - 主要进展（黑箱路线）：Mnih et al. (2013) 引入DQN，用深度网络打破线性限制，在Atari等环境取得实证突破；Kumar et al. (2020) 提出CQL，针对离线RL的分布偏移引入保守Q值正则化，解决了"过估计"问题，但可解释性完全丧失。作者引用它们时明确点出："We evaluate the performance of the KSH-LSPI algorithm against a set of widely-used neural network-based approaches, specifically: NFQ, DQN, DDQN, and CQL"——定位为竞争基准而非理论对标。 - 主要进展（可解释/安全路线）：AaronSonabend et al. (2020) 提出ESRL，用后验分布与假设检验为离线策略提供不确定性量化与安全保证，作者引用它作为"在医疗场景引入不确定性"的前置工作；Raghu et al. (2017) 与 Peng et al. (2018) 在脓毒症管理上尝试深度RL与核RL的混合，是"临床+RL"的实证先例。 - 当前 frontier（非参数稀疏估计）：Ravikumar et al. (2007) 建立SpAM（稀疏加性模型）的理论框架，把group lasso推广到函数空间；Lafferty & Wasserman (2008) 的rodeo实现局部带宽与变量选择的联合，达到近极小极大收敛率；Lu, Kolar & Liu (2020) 提出kernel-sieve hybrid estimator，把核回归与样条展开结合，为SpAM构造渐近诚实置信带——本文的核心技术工具直接继承于此。 - 本文的位置：作者把Lu et al. (2020) 的kernel-sieve hybrid嵌入离线RL的Q函数估计，用局部核回归抓非线性主效应、用基展开抓交互效应，再套上SpAM的组稀疏惩罚，形成"非参数加性Q函数"估计器，并在脊柱恢复数据上验证临床可解释性。

子线索聚类： 1. 黑箱深度离线RL：DQN (Mnih 2013), CQL (Kumar 2020), CRR (Wang 2020)。这一簇追求预测精度与分布偏移修正，放弃可解释性。 2. 医疗安全/可解释RL：ESRL (AaronSonabend 2020), 脓毒症DRL (Raghu 2017; Peng 2018)。这一簇引入不确定性量化或混合专家，但Q函数本身仍是线性或黑箱。 3. 高维非参数稀疏估计：SpAM (Ravikumar 2007), rodeo (Lafferty 2008), kernel-sieve hybrid (Lu 2020)。这一簇是纯统计理论，提供收敛率、置信带、变量选择一致性，但未接入RL的Bellman动态。 4. 数字表型与术后恢复：Cote et al. (2019), Panda et al. (2020a, 2020b), Boaro et al. (2021), Liu & Onnela (2021)。这一簇提供数据基础设施（GPS/加速度计→行为特征）与临床问题定义。

这个方向在追问的核心问题： 1. Q函数的函数类选择：线性太硬、黑箱不可解释、非参数遭遇维数灾难——是否存在"结构化非参数"（如加性+稀疏+低阶交互）能在灵活性与可解释性之间达到统计最优？ 2. 离线分布偏移下的估计：静态数据下行为策略与目标策略的分布不匹配，如何在不引入深度网络保守正则化的前提下，用半参数/非参数工具控制Q函数估计的偏差？ 3. 交互效应的识别与稀疏选择：临床决策常依赖"特征对"的交互（如年龄×步频），如何在加性框架中嵌入二阶交互并实现组稀疏选择，同时不破坏收敛率？ 4. 临床可解释性的统计转译：医生需要的"特征贡献归因"能否严格对应到非参数加性分解的组件估计，且带不确定性量化？

⚠️ 作者的 framing： - 作者的缺口叙事：作者把缺口frame为"黑箱RL缺乏可解释性，线性RL缺乏灵活性"，从而让自己的"非参数加性Q函数"成为"显然的下一步"——既保留非线性，又可分解归因。 - 被淡化的竞争路线：作者未讨论因果推断中的结构化均值模型或半参数效率界路线——这些路线同样可在离线策略评估中提供可解释的参数分量+非参数干扰，且已有成熟的理论（Robins 1994; Bang & Robins 2005）。此外，作者未引用基于树/规则的离线RL（如Ernst et al. 2005; Bhosekar 2018），这些方法在可解释性上是直接竞争者。 - 缺失的关键引用：intro里没有出现Bellman方程的非参数/半参数估计理论（如Fan et al. 1998的非参数动态规划、或Munos 2003的偏差-方差分析），也没有高维M-估计的oracle性质（如Negahban et al. 2012的统一框架）——这些是审视其收敛率是否达到极小极大下界的必要参照。研究者应去查：为什么作者选择只对标SpAM文献，而不对接更广的半参数动态规划或高维M-估计？

张力：未见明显对立引用。黑箱路线与可解释路线在目标上互补而非矛盾；SpAM与kernel-sieve hybrid是同一子线索的递进。但存在一个隐性张力：CQL等黑箱方法通过正则化显式处理分布偏移，而本文的KSH-LSPI依赖行为策略的覆盖度假设——作者未讨论当覆盖度不足时，非参数加性估计的偏差是否会比黑箱更严重。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(t\)：时间步（离散，\(t=1,\dots,T\)）。
\(S_t \in \mathbb{R}^p\)：状态向量（\(p\)维，可观测，如患者每日步数、步频、在家时间、年龄等）。
\(A_t \in \mathcal{A}\)：动作（离散有限集，如{高活动目标, 低活动目标}或用药剂量等级）。
\(R_t \in \mathbb{R}\)：奖励（可观测，如疼痛评分的改善量或功能恢复指标）。
\(\pi_b(a|s)\)：行为策略（数据生成策略，可观测——即实际医生/患者的行为分布，假设已知或可估）。
\(\pi_e(a|s)\)：目标策略（要评估/优化的策略，不可观测——是我们要学习的对象）。
\(Q^\pi(s,a)\)：动作-价值函数（estimand，潜在量——在策略\(\pi\)下从状态\(s\)采取动作\(a\)后遵循\(\pi\)的期望累积折扣奖励：\(Q^\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{T-t} \gamma^k R_{t+k} | S_t=s, A_t=a]\)）。
\(\gamma \in [0,1]\)：折扣因子（已知参数）。
\(n\)：样本量（观测到的转移数：\((S_t^{(i)}, A_t^{(i)}, R_t^{(i)}, S_{t+1}^{(i)})\)的\(i=1,\dots,n\)）。
\(p\)：状态维数（指标，高维：\(p \gg n\) 或 \(p\)适中但需稀疏选择）。
\(V^\pi(s)\)：状态-价值函数（\(V^\pi(s) = \mathbb{E}_{a\sim\pi(a|s)}[Q^\pi(s,a)]\)）。

模型（数据生成机制）：马尔可夫决策过程（MDP）：\((S_t, A_t, R_t, S_{t+1})\)由转移核\(P(s'|s,a)\)与奖励核\(R(r|s,a)\)生成，动作由行为策略\(\pi_b(a|s)\)采样。可观测数据是\(n\)条轨迹或\(n\)个独立转移（假设i.i.d.或平稳），服从分布\(\nu_b(s) \pi_b(a|s) P(s'|s,a) R(r|s,a)\)。

可观测数据：研究者实际观测到的是离线数据集\(\mathcal{D} = \{(s_i, a_i, r_i, s'_i)\}_{i=1}^n\)，其中\(s_i\)是当前状态，\(a_i\)是采取的动作，\(r_i\)是即时奖励，\(s'_i\)是下一状态。行为策略\(\pi_b\)的分布可从数据中估计（若为确定性策略则直接观测）。不可观测/需假设识别的：目标策略\(\pi_e\)下的Q函数\(Q^{\pi_e}\)——它只能通过Bellman方程与行为策略的覆盖度假设来识别。

第二步：最小内核

最简特例：\(p=1\)（单特征状态），\(|\mathcal{A}|=2\)（二值动作），无交互项，折扣\(\gamma=0\)（单步决策）。

在这个特例下，Q函数退化为：

\[Q(s,a) = \mathbb{E}[R_t | S_t=s, A_t=a]\]

即条件期望回归问题。加性假设在\(p=1\)下自动成立（无交互），Q函数就是两个单变量函数：

\[Q(s,a=0) = f_0(s), \quad Q(s,a=1) = f_1(s)\]

最小内核的数学问题：如何用局部核回归估计\(f_0(s)\)与\(f_1(s)\)，并在高维推广时通过SpAM的组稀疏惩罚选择相关特征？

在\(p=1\)特例下，证明路线极简： 1. 对每个动作\(a\), 用局部核回归估计\(f_a(s) = \sum_{i=1}^n w_i(s, a) r_i\)，其中权重\(w_i\)由核函数\(K((s-s_i)/h)\)与带宽\(h\)决定。 2. 带宽\(h\)的选择控制偏差-方差平衡：\(h \to 0\)时偏差消失（\(O(h^2)\)），方差\(O(1/(nh))\)——极小极大最优带宽\(h \asymp n^{-1/5}\)给出收敛率\(O(n^{-2/5})\)。 3. 推广到\(p>1\)时，加性假设\(Q(s,a) = \sum_{j=1}^p f_{j,a}(s_j) + \sum_{j<k} g_{jk,a}(s_j, s_k)\)把维数灾难从\(O(n^{-2/(4+p)})\)缓解到\(O(n^{-2/5})\)（每组件独立估计），再用group lasso惩罚\(\sum_{j} \|f_{j,a}\|_{\mathcal{H}} + \sum_{j<k} \|g_{jk,a}\|_{\mathcal{H}}\)实现稀疏选择。

核心数学困难：当\(\gamma > 0\)时，Bellman方程引入递归依赖：

\[Q(s,a) = \mathbb{E}[R_t + \gamma V(S_{t+1}) | S_t=s, A_t=a]\]

此时目标变量\(Y_i = r_i + \gamma \hat{V}(s'_i)\)包含上一轮估计的\(\hat{V}\)，形成"自回归"结构。最小内核的困难在于：如何证明在迭代策略评估中，核回归的偏差与方差不会随迭代步数累积爆炸？本文的关键想法是：利用加性结构的稀疏性，把Bellman递归的偏差传播控制在每组件的\(O(h^2)\)级别，并通过kernel-sieve hybrid的"核部分抓局部偏差、样条部分抓全局结构"来稳定迭代。

三、这篇论文做了什么¶

三句话： ①研究了离线RL中可解释Q函数的非参数估计问题，提出KSH-LSPI算法。 ②核心工具是kernel-sieve hybrid回归（局部核回归+样条基展开）与SpAM的组稀疏惩罚，嵌入LSPI的策略迭代框架。 ③主要结论是：在加性结构假设下，Q函数估计器达到非参数收敛率（\(O(n^{-2/5})\)每组件），稀疏选择可提取非线性主效应与二阶交互，且在脊柱恢复数据上给出与临床一致的推荐。

关键设定与假设：

加性Q函数结构（核心假设）：
\[Q(s,a) = \sum_{j=1}^p f_{j,a}(s_j) + \sum_{j 其中\(f_{j,a}\)是单特征主效应（属于再生核希尔伯特空间\(\mathcal{H}_j\)），\(g_{jk,a}\)是二阶交互效应（属于\(\mathcal{H}_{jk}\)）。统计含义：Q函数可分解为特征贡献的加和，允许逐特征归因；相比线性Q函数（\(Q(s,a) = \theta^\top s\)），允许非线性；相比全非参数，避免维数灾难。相比已有文献：放宽了LSPI的线性假设，但引入了加性假设——这是SpAM文献的标准假设，在RL中是新引入。
行为策略覆盖度假设（\(\pi_b\)-覆盖）：对所有\((s,a)\)，\(\pi_b(a|s) > 0\)或\(\nu_b(s)\pi_b(a|s) \ge \epsilon > 0\)。统计含义：离线数据必须覆盖目标策略可能访问的所有状态-动作对，否则Q函数不可识别。相比CQL：CQL通过正则化显式处理覆盖不足，本文假设覆盖充足——这是离线RL的标准可识别性条件，但在临床数据中可能不满足（某些动作极少被采取）。
核-样条混合估计器（KSH）：对每个组件\(f_{j,a}\)，估计器为：
\[\hat{f}_{j,a}(s_j) = \sum_{i=1}^n w_i(s_j, a) K_{h_j}(s_j - s_{j,i}) + \sum_{m=1}^{M} \beta_{m,j,a} \phi_m(s_j)\]
其中\(w_i\)是核权重，\(K_{h_j}\)是带宽\(h_j\)的核函数，\(\phi_m\)是样条基，\(\beta\)是基系数。统计含义：核部分提供局部自适应（抓非线性形状），样条部分提供全局结构（稳定迭代中的偏差控制）。相比Lu et al. (2020)：直接继承其kernel-sieve hybrid构造，但目标从置信带构造变为Bellman递归中的Q函数估计。
组稀疏惩罚：损失函数为：
\[\sum_{i=1}^n (Y_i - \hat{Q}(s_i, a_i))^2 + \lambda_1 \sum_{j=1}^p \|f_{j,a}\|_{\mathcal{H}} + \lambda_2 \sum_{j 统计含义：group lasso在函数空间的推广，实现特征级与交互级的选择。相比Ravikumar et al. (2007)：SpAM只做主效应选择，本文扩展到二阶交互的组稀疏——这是技术增量。

主要结果：

非参数收敛率定理（理论核心）：在加性结构、覆盖度、核/样条带宽/基数的适当条件下，KSH-LSPI的Q函数估计器满足：
\[\|\hat{Q}^{\pi_k} - Q^{\pi_k}\|_{\nu} = O_p\left(\sqrt{\frac{s \log p}{n h}} + h^2 + \sqrt{\frac{s M}{n}}\right)\]
其中\(s\)是活跃组件数（稀疏度），\(h\)是核带宽，\(M\)是样条基数。最优选择\(h \asymp n^{-1/5}, M \asymp n^{1/5}\)下，收敛率为\(O_p(n^{-2/5} \sqrt{s \log p})\)。直觉：加性假设把维数灾难从\(p\)降到\(s\)（稀疏活跃数），核回归的局部性保证非参数灵活性，样条的全局性控制Bellman递归的偏差传播。必要条件：覆盖度\(\epsilon > 0\)、核函数有界二阶导数、样条基足够丰富但不过多（\(M \asymp n^{1/5}\)）。解决的技术难点：Bellman递归中\(\hat{V}\)的估计误差如何传播——通过加性分解，误差被限制在每组件的局部范围内，不随\(p\)爆炸。
稀疏选择一致性：在适当\(\lambda_1, \lambda_2\)选择下，组稀疏惩罚能以概率趋近1正确选择活跃的主效应与交互组件（oracle property）。直觉：SpAM的group lasso理论直接推广到交互项。必要条件：最小信号强度条件（\(\min_{j \in S} \|f_{j,a}\|_{\mathcal{H}} \ge c \sqrt{\log p / (nh)}\)）与irrepresentable条件（非活跃组件与活跃组件的相关性受控）。
策略迭代收敛： LSPI框架下，策略迭代\(k\)步后的策略价值误差满足：
\[|V^{\pi_k} - V^*| \le C \gamma^k + O_p(\text{Q估计误差})\]
直觉：标准LSPI的收敛分析，Q估计误差通过折扣因子\(\gamma\)被逐步压缩。

证明路线与技术技巧：

整体路线：
Step 1：在给定策略\(\pi_k\)下，构造Bellman目标变量\(Y_i^{(k)} = r_i + \gamma \hat{V}^{\pi_{k-1}}(s'_i)\)，把Q函数估计转化为加权回归问题。
Step 2：对加性Q函数的每个组件，用kernel-sieve hybrid估计器求解局部核回归+样条基展开的混合最小二乘，加上组稀疏惩罚。
Step 3：证明KSH估计器的偏差与方差界——核部分偏差\(O(h^2)\)、方差\(O(1/(nh))\)；样条部分偏差\(O(M^{-2})\)、方差\(O(M/n)\)；联合后达到\(O(n^{-2/5})\)。
Step 4：把Q估计误差代入Bellman递归，证明策略迭代中误差传播受控——利用加性结构的组件独立性，把全局误差分解为\(s\)个局部误差的加和。
Step 5：证明稀疏选择的oracle性质——沿用SpAM的group lasso理论，把惩罚项的凸性与irrepresentable条件推广到交互组件。
关键跳跃点：
Bellman递归中的偏差传播控制（最吃功夫）：标准非参数回归的偏差是静态的，但Bellman递归中\(Y_i^{(k)}\)包含上一轮的\(\hat{V}\)，偏差会随迭代步数\(k\)累积。难点在于：如何证明核-样条混合的偏差在迭代中不爆炸？作者的办法是：样条基展开提供"全局锚定"，把每步迭代的偏差增量控制在\(O(h^2 + M^{-2})\)级别，而核回归的局部修正只影响方差，不贡献系统性偏差累积。
交互项的组稀疏选择与核-样条混合的兼容：二阶交互\(g_{jk,a}(s_j, s_k)\)是双变量函数，核回归需要二维核\(K_{h_j}(s_j - s_{j,i}) K_{h_k}(s_k - s_{k,i})\)，样条需要二维基\(\phi_m(s_j) \phi_l(s_k)\)。难点在于：如何在高维下（\(p^2\)个潜在交互）实现组稀疏，同时保持核-样条混合的收敛率？作者把每个交互\(g_{jk}\)当作一个"组"，用\(\|g_{jk}\|_{\mathcal{H}_{jk}}\)作为组惩罚，并在估计时用一维核/样条的乘积构造二维估计器——这保证了收敛率不退化到二维非参数的\(O(n^{-2/6})\)，而是维持在\(O(n^{-2/5})\)（因为交互项数量\(s_2\)受稀疏惩罚控制）。
技术技巧点名：
Kernel-sieve hybrid regression（Lu et al. 2020）：用局部核回归抓非线性局部形状，用样条基展开抓全局结构——用在Q函数的每组件估计中，解决Bellman递归偏差传播。
Group sparsity in RKHS（SpAM推广）：把group lasso从向量空间推广到再生核希尔伯特空间，用\(\|f_j\|_{\mathcal{H}}\)作为组范数——用在主效应与交互效应的稀疏选择。
Bellman error decomposition under additivity：利用加性结构的组件独立性，把全局Bellman误差\(\|\hat{Q} - Q\|\)分解为\(\sum_j \|\hat{f}_j - f_j\| + \sum_{jk} \|\hat{g}_{jk} - g_{jk}\|\)——用在策略迭代收敛证明。
Local linear/kernel regression with bandwidth selection：标准非参数工具，用在局部自适应估计。
Basis expansion (splines)：标准半参数工具，用在全局结构锚定与偏差控制。

真实例子与应用：

数据/场景：脊柱疾病术后恢复数据（来自Cote et al. 2019的数字表型研究）。105名脊柱疾病患者，通过智能手机App（Beiwe™）收集GPS（出行距离、在家时间）、加速度计（步频）、短信/通话（社交活动）等被动数据，以及每日VAS疼痛评分。55名患者接受了手术干预。
如何用上去：
状态\(S_t\)：从GPS/加速度计提取的每日行为特征（出行距离\(x_1\)、平均步频\(x_2\)、在家时间\(x_3\)等）+ 人口学特征（年龄\(x_4\)等），\(p\)约8-10维。
动作\(A_t\)：二值化——"高活动目标"（鼓励患者达到某步数/距离阈值）vs "低活动目标"（保守恢复）。
奖励\(R_t\)：疼痛评分的改善（\(R_t = -\Delta \text{VAS}_t\)，疼痛下降则奖励高）。
用KSH-LSPI估计Q函数，提取主效应\(f_{j,a}\)与交互\(g_{jk,a}\)，迭代3-5步策略评估后输出最优策略。
得到什么结果：
稀疏选择结果：活跃主效应为"出行距离"与"年龄"，活跃交互为"出行距离×步频"。
主效应形状：\(\hat{f}_{\text{距离}, a=1}(s)\)呈现非线性倒U型——中等距离时Q值最高，过低（卧床）与过高（过度活动）时Q值下降，与临床"适度活动促进恢复"的知识一致。
交互效应：\(\hat{g}_{\text{距离×步频}, a=1}(s_1, s_2)\)显示当步频高时，出行距离的倒U型峰值左移（高步频下适度距离更短即可达最优恢复）——与Clark (2015)的"步态自动性向执行控制转移"理论吻合。
策略推荐：对年轻患者推荐"高活动目标"，对老年患者推荐"低活动目标"（因年龄主效应\(f_{\text{年龄}, a=1}\)随年龄递减）。
这个例子想说明什么：验证KSH-LSPI能从高维行为数据中提取临床可解释的非线性模式与交互，且推荐策略与医生经验一致——展示相对线性LSPI（无法抓倒U型）与黑箱DQN（无法归因到具体特征）的优势。

🔎 结论是否比证明窄： - 论文在定理中严格证明了给定策略下的Q函数估计收敛率与稀疏选择一致性，但策略迭代的全局收敛到最优策略只在标准LSPI框架下claim（引用LSPI文献），未针对非参数加性设定给出独立证明——这是一个泛泛claim，因为加性假设可能限制策略空间，导致\(\pi^*\)不在加性Q函数类内。 - 论文claim"临床可解释性"，但未给出组件估计的置信带或不确定性量化——Lu et al. (2020)的kernel-sieve hybrid本可构造置信带，本文未延伸此结果到RL设定，这是一个"证明窄、claim宽"的地方（第4节会点出）。

四、开放问题（点到为止，扎根具体语句）¶

Q函数加性假设的统计检验：本文假设\(Q(s,a)\)具有加性+二阶交互结构，但未提供检验此假设的方法。扎根点：定理1的收敛率显式依赖加性假设，若真实Q函数含三阶交互或非加性结构，收敛率退化到维数灾难——可追问：如何构造加性假设的假设检验（参考SpAM的拟合优度检验文献，如Zhou 2019）？
组件估计的置信带与不确定性量化：Lu et al. (2020)为kernel-sieve hybrid构造了渐近诚实置信带，本文未将其延伸到Bellman递归设定。扎根点：真实例子中作者claim"临床可解释性"，但未给出\(f_{j,a}\)的置信区间——医生无法判断"倒U型"是否显著。可追问：在Bellman递归下，KSH估计器的渐近分布是否仍为Gaussian process（需处理\(Y_i^{(k)}\)中的估计噪声传播）？
覆盖度不足时的鲁棒估计：本文假设\(\pi_b(a|s) \ge \epsilon > 0\)，但临床数据中某些动作极少出现（如"高活动目标"在老年患者中可能<5%）。扎根点：intro中作者回避了CQL的分布偏移处理，只对标黑箱方法的预测精度——可追问：当覆盖度不足时，KSH-LSPI的偏差界如何恶化？是否可引入类似CQL的保守正则化到加性设定？
策略迭代在加性约束下的全局收敛：本文claim LSPI收敛到最优策略，但加性假设限制了Q函数类，可能使\(\pi^*\)不可达。扎根点：策略迭代收敛定理只证明\(|V^{\pi_k} - V^*| \le C\gamma^k + \text{估计误差}\)，其中\(V^*\)是全局最优——若加性类不包含\(Q^*\)，此界不成立。可追问：加性约束下的策略迭代收敛到的是"加性类内最优策略"还是全局最优？误差界如何修改？

提醒：要确认上述gap是否真实，去查近5篇高维离线RL/半参数动态规划的intro——若都指向"覆盖度/不确定性量化/函数类约束"，则为共识真gap；若互相打架（有人认为加性假设足够、有人认为必须黑箱），则为机会点。

Maintained by 陈星宇 · Homepage · Source on GitHub

Nonparametric additive value functions: Interpretable reinforcement learning with an application to surgical recovery¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论