On Response-Adaptive Targeting Strategies for Multi-Treatment Experiments¶

作者: Redouane Yagouti, R\'emy Degenne, Emilie Kaufmann
主题: 因果推断
相关性: 6/10
链接: https://arxiv.org/abs/2606.17777

一、领域脉络与小综述¶

这个方向是什么¶

响应自适应随机化（Response-Adaptive Randomization, RAR）是一类临床试验设计方法，它根据已观测到的患者结局动态调整后续患者的治疗分配概率，旨在改善统计效率（用更少的患者达到既定检验功效）或伦理收益（更多患者被分配到疗效更优的治疗组）。本文聚焦于其中的一个子方向——基于目标分配比例的适应性机制（adaptive targeting mechanisms）：给定某个依赖于未知参数的“最优”目标分配比例 \(\rho(\Theta)\)（例如 Neyman 分配、RSIHR 分配等），设计一种随机化规则，使得试验过程中每个治疗臂的实际累计分配比例 \(N_{n,k}/n\) 收敛到这个目标，同时尽可能让分配比例围绕目标的波动最小（即渐近有效）。该子方向已有两臂情形下的成熟理论（Efron 1971, Hu et al. 2009），但多臂情形下的统一框架和渐近效率理论一直缺失，本文即填补这一空白。

发展脉络¶

奠基工作：Thompson (1933) 最早提出 Bayesian RAR；Robbins (1952) 引入多臂老虎机模型作为适应性分配的分析框架。1970–1980年代出现了基于瓮模型的 RAR（如 RPW, Wei and S. 1978），但其分配往往极度不平衡。

2000年代：基于最优分配比例的 RAR 兴起。Rosenberger et al. (2001) 系统提出先推导某个最优性标准下的目标分配比例（如最小化给定检验功效下的总患者数），再通过适应性机制逼近该目标。Hu and Zhang (2004) 提出 Doubly Adaptive Biased Coin Design (DBCD)，将两臂的 Biased Coin Design (Efron 1971) 推广到多臂并给出渐近性质，但 DBCD 不是渐近有效的（即分配比例的渐近方差未达到理论下界）。Hu et al. (2006) 推导了任意 RAR 过程下分配比例渐近方差的下界（\(G I(\Theta)^{-1} G^\top\)），正式定义了渐近效率的概念。Hu et al. (2009) 针对两臂情形提出 Efficient Randomized Adaptive Design (ERADE)，它同时达到渐近效率、强相合性、渐近正态性，且允许一般的目标函数。作者在 intro 中明确指出：“However, its extension to more than 2 arms was left as an open question.”

2010年代–至今：多臂拓展的尝试。Hu and Zhang (2004) 的 DBCD 虽然适用于多臂，但不渐近有效。多臂老虎机文献中的 Tracking 规则（Garivier and Kaufmann 2016）用于固定置信度下最佳臂识别，其 D-Tracking 规则可看作一种特殊的适应性目标跟踪机制，但最初不包含随机化且不关注分配比例的渐近方差。Tymofyeyev et al. (2007) 针对多臂同质性检验提出了稀疏目标分配（部分臂的目标比例为 0），但未提供对应的适应性机制。最近，Alkhnefr et al. (2025) 在平行工作中提出了 ERADE 的一种多臂推广，本文将其归入自己提出的 αRTS 家族的一个特例。

本文的位置：本文将所有上述分散的线索统一进 αRTS 家族，证明其渐近性质（相合、正态、有效），并引入强制探索机制以处理稀疏目标。它提供了目前最一般的多臂适应性目标跟踪理论。

子线索聚类¶

两臂渐近有效设计：Efron (1971)、Hu and Zhang (2004)（DBCD，两臂）、Hu et al. (2006)（下界）、Hu et al. (2009)（ERADE）。这是本文的直接出发点和推广对象。
多臂适应性分配（非渐近有效）：Hu and Zhang (2004) 的多臂 DBCD。本文指出其不满足渐近效率。
多臂老虎机中的 Tracking 规则：Garivier and Kaufmann (2016) 的 D-Tracking，用于最佳臂识别。本文将其α=0版本恢复为自己的一个特例，并指出其原始版本不含强制探索时可能造成臂饥饿。
稀疏目标分配与应用：Tymofyeyev et al. (2007) 提出同质性检验下的最优分配是稀疏的（中间臂目标为0）。本文专门为这类场景设计αRTS-FE。

核心问题、主流方法与瓶颈¶

该子方向追问的核心问题包括： - 渐近效率：给定目标分配 \(v\)，能否使 \(N_n/n\) 为 \(v\) 的渐近有效估计（即达到 Cramér-Rao 下界）？ - 多臂一致性：如何将两臂的有效设计（ERADE）自然地推广到任意 \(K\)，且保持渐近性质？ - 稀疏目标：当目标 \(v_k = 0\) 时，如何保证所有臂无限采样（从而估计量有效）并仍然收敛？ - 有限样本行为：渐近等价的规则在有限样本下是否有显著差异？

主流方法：ERADE（仅两臂）、DBCD（多臂但不有效）、D-Tracking（无随机化）。已知瓶颈：多臂下不存在同时满足随机化、渐近有效、处理稀疏目标的统一框架。本文声称解决了这一瓶颈。

⚠️ 作者的 framing（需明确标注为作者说法）¶

作者将缺口 frame 为：“While DBCD is actually not asymptotically efficient, Hu et al. [2009] introduce the ERADE … However, its extension to more than 2 arms was left as an open question.” 因此本文的 αRTS 家族被呈现为这个开放问题的自然答案。对于竞争路线（如 bandit 文献中的非随机化跟踪规则），作者在引言中淡化：“many of these adaptive algorithms are actually not randomized hence do not qualify as RAR procedures.” 对于平行工作 Alkhnefr et al. (2025)，作者承认其存在但强调自己的框架更灵活（\(\alpha\)RTS 允许不同的欠采样臂再分配方式）。

值得研究者去查的问题：introduction 中未引用更近期的非参数/半参数 RAR 方法（如基于效率影响函数的设计），也未讨论实际临床试验中使用 RAR 的常见争议（如 Robertson et al. 2023 的“myths”），尽管这篇文章被引用了。这可能是作者有意聚焦于理论框架而非应用实践。

张力¶

未见明显对立引用。所有被引工作基本是互补或递进关系：Hu et al. (2006) 提供下界，Hu et al. (2009) 提供两臂达到者，本文提供多臂达到者。唯一的潜在张力来自 Alkhnefr et al. (2025) 的平行工作，但作者将其定位为特例而非竞争。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号	含义
\(K\)	治疗臂个数，\([K] = \{1,\dots,K\}\)
\(m\)	患者序号
\(X_m = (X_{m,1},\dots,X_{m,K})\)	分配向量，只有一个分量为1（被分配到的臂），其余为0
\(\xi_{m,k}\)	第 \(m\) 名患者若被分配到臂 \(k\) 时的响应（潜在结果），实际只能观测到被分配臂的那个
\(\theta_k = \mathbb{E}[\xi_{1,k}]\)	臂 \(k\) 的期望响应，是参数向量 \(\Theta = (\theta_1,\dots,\theta_K)\)
\(N_{n,k} = \sum_{m=1}^n X_{m,k}\)	到第 \(n\) 名患者为止臂 \(k\) 被分配的总次数
\(\hat{\theta}_{m,k}\)	基于前 \(m\) 名患者的臂 \(k\) 响应均值估计（带正则化初值 \(\theta_{0,k}\)）
\(\rho: \mathbb{R}^K \to \Delta_K\)	目标分配函数，将参数向量映射到概率单纯形上的一个点
\(v = \rho(\Theta)\)	真实目标分配比例
\(\hat{\rho}_m = \rho(\hat{\Theta}_m)\)	当前估计的目标分配比例
\(p_{m+1,k}\)	第 \(m+1\) 名患者被分配到臂 \(k\) 的条件概率（基于前 \(m\) 名患者的观测）

数据生成机制： - 患者依次到来（独立同分布的本质，但分配是自适应的）。 - 对每个患者 \(m\)，先基于历史数据计算 \(p_{m+1} \in \Delta_K\)，然后以该概率抽取一个臂 \(k\)，令 \(X_{m+1,k}=1\)，然后观测对应响应 \(\xi_{m+1,k}\)。 - 其他臂的潜在响应 \(\xi_{m+1,j} (j \neq k)\) 不可观测。

可观测 vs 不可观测： - 可观测：分配序列 \(\{X_m\}\) 和对应的观测响应 \(\{\sum_k X_{m,k} \xi_{m,k}\}\)。 - 不可观测：任何未分配臂的响应（反事实）。

关键假设： - Condition A：每个 \(\xi_{1,k}\) 有有限二阶矩。 - Condition B：目标函数 \(\rho\) 在包含 \(\Theta\) 及所有可能估计值的区域上二次可微，且 \(\rho\) 的所有分量严格正（非稀疏）。该条件在稀疏目标部分被放松。

第二步：最小内核——两臂情形下的 ERADE 及其多臂直觉¶

本文的核心思路可以直接通过 两臂 ERADE 理解。设 \(K=2\)，目标分配 \(v = (v_1, 1-v_1)\)，当前患者数 \(n\)，已分配次数 \(N_{n,1}, N_{n,2}\)，估计目标 \(\hat{\rho}_n = (\hat{\rho}_{n,1}, \hat{\rho}_{n,2})\)。ERADE 的分配规则是： - 若 \(N_{n,1}/n > \hat{\rho}_{n,1}\)（臂1过度采样），则下次分配概率 \(p_{n+1,1} = \alpha \hat{\rho}_{n,1}\)（低于目标）； - 若 \(N_{n,1}/n = \hat{\rho}_{n,1}\)，则 \(p_{n+1,1} = \hat{\rho}_{n,1}\)； - 若 \(N_{n,1}/n < \hat{\rho}_{n,1}\)（臂1欠采样），则 \(p_{n+1,1} = 1 - \alpha(1 - \hat{\rho}_{n,1})\)（高于目标）； - 臂2概率为 \(p_{n+1,2} = 1 - p_{n+1,1}\)。

核心机制：通过一个参数 \(\alpha \in [0,1)\) 控制回复力度。当臂被过度采样时，将其选择概率“打压”到 \(\alpha\) 倍的目标比例；当臂被欠采样时，将其概率“提升”（通过将剩余概率1-\(\alpha\)分配给欠采样臂）。这个“打压过度采样臂”的思想是本文多臂推广的基石。

多臂推广的最小内核：αRTS 家族的定义核心只有一句（定义3.1）：对每个 \(k\)，如果 \(N_{m,k}/m > \hat{\rho}_{m,k}\)（过度采样），则必须有 \(p_{m+1,k} \leq \alpha \hat{\rho}_{m,k}\)。至于如何分配被“省下”的概率（即 \(1 - \sum_{过度臂} p_{m+1,k}\)）给欠采样臂，αRTS 允许灵活选择（比如按距离比例、平均分配、全部给最缺的臂等）。正是这个灵活性将 ERADE、D-Tracking 等统一起来。

为什么这样能保证收敛？ 直观上，过度采样臂的概率被抑制，使得它之后被分配的概率变小，于是其比例会逐渐回落到目标；欠采样臂则自然获得更多机会。只要 \(\alpha<1\)，这种“矫正”力量就足够强，使得偏差不断减小以至消失。证明的核心是控制一个辅助过程 \(U_{n,k}\) 的增量，并利用一个“最后一次欠采样时刻”\(\ell_{n,k}\) 来将当前偏差与初始偏差和增量联系起来。

三、这篇论文做了什么¶

三句话¶

针对多臂临床试验（\(K \geq 2\)），提出了 α-再平衡目标策略（αRTS） 统一框架，将两臂的 ERADE 设计推广到任意臂数，并包含了 Alkhnefr et al. (2025) 的平行推广和 bandit 文献中的 D-Tracking 规则作为特例。
证明了所有 αRTS 设计共享强相合性、分配比例和治疗效果估计的渐近正态性，以及渐近效率（达到 Hu et al. (2006) 的下界）。
进一步提出带强制探索的 αRTS-FE 变体，保证在稀疏目标分配（部分臂目标比例为0）下所有臂无限采样，并保留强相合性，给出 componentwise CLT。

关键设定与假设¶

假设 A（响应分布）：每个 \(\xi_{1,k}\) 满足 \(E|\xi_{1,k}|^2 < \infty\)。比许多文献（如要求指数族）更宽松，仅需有限二阶矩。

假设 B（目标函数与正则化）：
- 定义域 \(H \subseteq \mathbb{R}^K\) 是开集，包含 \(\Theta\) 及所有可能的 \(\hat{\Theta}_n\) 取值。
- \(\rho\) 在 \(H\) 上二次可微。
- 关键：\(\rho(z) \in (0,1)^K\) 对所有 \(z \in I_1 \times \dots \times I_K\)，即目标分配严格非零。这正是“非稀疏”条件，稍后被放松。
- 与已有文献（Hu et al. 2009）相比，本文对目标函数的要求与 ERADE 分析类似，但明确分离了稀疏情况。

渐近效率的定义：本文采用 Hu et al. (2006) 下界 \(G I(\Theta)^{-1} G^\top\)，其中 \(I(\Theta) = \operatorname{diag}(v_1 I_1(\theta_1), \dots, v_K I_K(\theta_K))\)。对于指数族，\(I_k(\theta_k) = 1/\operatorname{Var}(\xi_{1,k})\)，故下界简化为 \(G V G^\top\)，其中 \(V = \operatorname{diag}(V_1/v_1, \dots, V_K/v_K)\)。αRTS 正好达到该方差（定理4.2(ii)）。

主要结果¶

定理4.1（强相合与率）：在假设 A–B 下，

\[\frac{N_{n,k}}{n} \xrightarrow{a.s.} v_k,\quad \hat{\Theta}_n - \Theta = O\left(\sqrt{\frac{\log\log n}{n}}\right) \text{ a.s.}\]

以及 \(n(\hat{\rho}_n - v) = O(\sqrt{n \log\log n})\) a.s.。这些结论对所有 αRTS 设计（α∈[0,1)）统一成立。

定理4.2（渐近正态性与效率）： - (i) 渐近偏差：\(|N_{n,k} - n\hat{\rho}_{n,k}| = o_P(\sqrt{n})\) 且 \(= O(\sqrt{n\log\log n})\) a.s.，进而 \(N_{n,k} - n v_k = O(\sqrt{n\log\log n})\) a.s.。 - (ii) 联合 CLT：

\[\sqrt{n}(\hat{\Theta}_n - \Theta) \xrightarrow{d} N(0, V),\quad \begin{pmatrix} \sqrt{n}(\frac{N_n}{n} - v) \\ \sqrt{n}(\hat{\rho}_n - v) \end{pmatrix} \xrightarrow{d} N\left(0, \begin{pmatrix} G V G^\top & G V G^\top \\ G V G^\top & G V G^\top \end{pmatrix}\right).\]

其中 \(V = \operatorname{diag}(V_1/v_1, \dots, V_K/v_K)\)，\(G = \nabla \rho|_\Theta\)。特别地，分配比例 \(N_n/n\) 的渐近方差等于下界 \(G V G^\top\)，故达到渐近效率。

定理5.1（FE 保留性质）：在假设 A–B 下，αRTS-FE 同样满足定理4.1和4.2。证明通过重新定义最后一击时间 \(\ell_{n,k}\) 并验证引理4.4的条件完成。

定理5.2（稀疏目标下的相合）：在仅为假设 A 下（无假设 B 的正性），αRTS-FE 满足：

\[N_{n,k} \xrightarrow{a.s.} \infty,\quad \frac{N_{n,k}}{n} \xrightarrow{a.s.} v_k,\quad \hat{\Theta}_n - \Theta = O\left(\sqrt{\frac{\log\log N_{n,k}}{N_{n,k}}}\right) \text{ a.s.}\]

注意这里分配比例仍收敛到目标（即使某些 \(v_k=0\)），且所有臂无限采样。

推论5.3（稀疏下的 componentwise CLT）：

\[\operatorname{diag}(\sqrt{N_{n,1}}, \dots, \sqrt{N_{n,K}})(\hat{\Theta}_n - \Theta) \xrightarrow{d} N(0, \operatorname{diag}(V_1, \dots, V_K)).\]

这里用 \(N_{n,k}\) 而非 \(n\) 标准化，自然适应稀疏情形（因为对 \(v_k=0\) 的臂，\(N_{n,k}\) 增长慢于 \(n\)）。

证明路线与技术技巧¶

整体路线（基于引理4.4）： 1. 定义关键过程：\(U_{n,k} = \sum_{m=1}^{n-1} \alpha \hat{\rho}_{m,k} + M_{n,k} - n \hat{\rho}_{n,k}\)，其中 \(M_{n,k} = \sum_{m=1}^n (X_{m,k} - p_{m,k})\) 是鞅差部分的累积。 2. 定义最后一击时间：\(\ell_{n,k} = \max\{ m \leq n : N_{m,k}/m \leq \hat{\rho}_{m,k} \}\)（αRTS情形），或更复杂的包含强制探索的定义（αRTS-FE情形）。 3. 建立关键不等式（引理4.4条件(ii)）：

\[N_{n,k} - n \hat{\rho}_{n,k} \leq 1 + (N_{\ell_{n,k},k} - \ell_{n,k} \hat{\rho}_{\ell_{n,k},k}) + (U_{n,k} - U_{\ell_{n,k},k}).\]

该不等式来源于对 \(U\) 的递归和前一步分配概率的正负控制。 4. 控制尾部项：证明对两类设计，\((N_{\ell_{n,k},k} - \ell_{n,k} \hat{\rho}_{\ell_{n,k},k}) = o(\sqrt{n})\) a.s.。对于 αRTS，这是因为在 \(\ell_{n,k}\) 时刻要么恰好达到目标（差≤0），要么不超过初始 burn-in 阶段常数。对于 αRTS-FE，额外用到 \(\ell_{n,k}\) 时刻可能因强制探索而被 included，此时差值不超过 \(h(\ell_{n,k}) = o(\sqrt{n})\)。 5. 渐近分析：利用鞅的强大数定律和重对数律（LIL）控制 \(U_{n,k} - U_{\ell_{n,k},k}\) 与 \(M_{n,k} - M_{\ell_{n,k},k}\) 的增量，得到上界并证明收敛。最终相合性通过整体偏差趋于0和概率和为1得到。 6. CLT 证明：先证明引理4.5（componentwise 鞅 CLT），只要求 \(N_{n,k} \to \infty\)。然后通过 Slutsky 引理和 Delta 方法得到分配比例和估计目标的联合正态性。关键技巧是运用鞅的 Lindeberg 条件（利用有限二阶矩）和定理4.2(i)的 \(o_P(\sqrt{n})\) 偏差。

关键跳跃点： - 不等式 (10) 的推导：它结合了定义和 αRTS 对过度采样臂的概率控制（\(p_{m+1,k} \leq \alpha \hat{\rho}_{m,k}\)）。如果没有这个控制，偏差无法被限制。 - 控制 \(U_{n,k} - U_{\ell_{n,k},k}\) 为 \(o_P(\sqrt{n})\)：论文通过引理A.2–A.3 和引理C.1–C.6 进行细致的技术处理，主要技巧是将差值分解为确定趋势项、鞅差项和参数估计误差项，然后利用鞅的 LIL、参数估计的 Bahadur 表示以及泰勒展开分别控制各阶项，最终消去主导的负趋势项 \((1-\alpha)v_k (n-\ell_{n,k})\) 后只剩下 \(o_P(\sqrt{n})\)。这要求 \(\ell_{n,k}\) 足够早使得偏差不大的同时又能利用负趋势。 - 引理4.4 的充分性：论文抽象出三个条件（(i)-(iii)），并证明它们蕴含所有渐近结论。这个抽象本身是证明路线中最大的技巧贡献——它分离了具体算法细节与渐近分析，使 αRTS 和 αRTS-FE 共用同一套证明框架。

使用的技术工具： - 鞅差序列的强大数定律（Chow 1967）和重对数律（Stout 1970） - 鞅的 Lindeberg CLT（用于引理4.5） - 鞅差的最大不等式（Doob 不等式，引理C.1 和 C.3） - 参数估计的 Bahadur 表示（式(2)） - 泰勒展开（用于目标函数梯度） - Slutsky 引理与 Delta 方法 - 对强制探索使用 \(h(n) = o(\sqrt{n})\) 以保证剩余项可忽略

真实例子与应用¶

实验1（3臂 Neyman 分配）： - 数据：Bernoulli 臂，成功概率 (0.5, 0.6, 0.8)，目标 Neyman 分配 \(v = \frac{\sqrt{\theta_k(1-\theta_k)}}{\sum \sqrt{\theta_j(1-\theta_j)}}\)。 - 方法：比较 Distance-Based、ERADE2025、D-Tracking 三种 αRTS 实例（α=0.4），各跑 500 回合，n 最大 4000。 - 结果：图1展示 \(|N_{n,k}/n - v_k|\) 随 n 衰减；图2展示 \(|\hat{\rho}_{n,k} - v_k|\) 衰减。所有设计在大样本下趋于 0，但 D-Tracking 早期波动略大。结论：验证相合性，且有限样本差异存在但渐近无影响。

实验2（稀疏 Tymofyeyev 分配）： - 数据：3臂 Bernoulli，选择三组参数如 (0.1,0.3,0.6) 使中间臂目标比例为0。 - 方法：对比 αRTS 和 αRTS-FE（使用 \(h(n) = (n^{1/3} - K/2)^+\)），三种算法，n=1000，500 回合。 - 结果：表2显示 αRTS 给中间臂分配了非零比例（约 8-15%），而 αRTS-FE 将其压低至 5-14%，更接近目标0。图3展示距离误差，αRTS-FE 通常更小。说明强制探索帮助更快收敛到稀疏目标。

实验3（4臂假设检验）： - 数据：4臂 Bernoulli，同质性检验（H0: 所有 \(\theta_k\) 相等）。 - 方法：在 αRTS 和 αRTS-FE 框架下使用 Pearson 卡方检验（引理6.1 提供渐近校准），比较不同目标分配（Neyman、RSIHR、Tymofyeyev、Uniform）和不同算法（Distance、ERADE2025、D-Tracking）。 - 结果：表3（固定 Neyman 目标）显示所有设计的 I 类错误接近 5%，但有些偏低（如 0.1 背景下的 1.0%）；功效在弱分离下差异不大。表4（固定 Distance 算法）显示不同目标分配的明显差异：Tymofyeyev 分配 I 类错误更保守（更低），功效也较低；Neyman 和 RSIHR 表现类似 Uniform。图4展示功率随 n 增长曲线，Tymofyeyev 明显低于其他。关键发现：尽管 Tymofyeyev 分配在理论上是同质性检验的最优分配（最小样本量），但它的有限样本功率反而不如均匀分配。这说明渐近最优分配在小样本下未必最优，且 RAR 过程本身有额外变异性。

🔎 结论是否比证明窄¶

是。在稀疏目标情形下（Theorem 5.2），论文仅证明了分配比例的强相合性和估计量的 componentwise CLT（Corollary 5.3），没有证明分配比例自身的渐近正态性（即没有类似定理4.2(ii) 中对 \((N_n/n - v)\) 的 CLT）。实际上，对于 \(v_k = 0\) 的臂，\(N_{n,k}/n\) 收敛到 0 但可能以不同速率，其极限分布需要非标准缩放（可能以 \(N_{n,k}\) 而非 \(n\) 缩放），论文未予处理。作者在 Remark 5.4 中明确说“当 \(v \in (0,1)^K\) 时，本结果恢复已知 CLT”，暗示稀疏情况下 CLT 的形式不同且未给出。这是一个可探索的 gap。

四、开放问题¶

稀疏目标下分配比例的中心极限定理：定理5.2只给出相合性，推论5.3只给出估计量的 componentwise CLT。能否对 \(N_{n,k}/n\) 本身建立 CLT（可能需要用 \(N_{n,k}\) 或其他标准化）？扎根：Remark 5.4 明确说“当 \(v \in (0,1)^K\) 时，本结果恢复已知 CLT”，暗示 \(v\) 含0时未处理。
强制探索函数 \(h(n)\) 的最优选择：论文使用 \(h(n) = (n^{1/3} - K/2)^+\)，但理论上只要求 \(h(n) \to \infty\) 且 \(h(n) = o(\sqrt{n})\)。是否存在最优速率权衡（如最小化有限样本偏差或渐近方差）？扎根：定义5.1 给出两个条件，实验部分（Section 6.2）使用了特定 \(h\)，但未讨论选择依据或敏感性。
与其他最优性准则（如 Regret 最小化）的联系：本文聚焦于分配比例的渐近效率，但临床试验中也可能关心累积患者福利（如最小化期望失败数）。αRTS 能否同时达到某些 bandit 意义上的 regret 最优性？扎根：引言中提到了 bandit 文献（Robbins 1952, Lattimore and Szepesvari 2019）但未再联系；结论部分也未讨论。
半参数/非参数拓展：论文假设各臂响应分布由均值参数化（一维指数族）。对于更复杂的响应类型（如生存时间、有序分类），目标函数和估计量的形式如何调整？扎根：Remark 2.1 声称“分析可扩展到更复杂设定”，但未给出具体构造；且 Condition A 要求二阶矩，可能不足以覆盖某些重尾场景。

提醒：前两条 gap 在引言和结论中直接被提及为 future work 或开放问题（具体见 Limitations？本文无明确 limitations 段，但可从文中推论）。第三条 gap 需要查阅近期 bandit-RAR 交叉的约 5 篇论文（如 Pin et al. 2024）。第四条涉及半参效率理论，与研究者武器库中的 moderately_familiar 工具（HOIF、半参理论）可能对接。

Maintained by 陈星宇 · Homepage · Source on GitHub