Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study¶

作者: Xueqing Liu, Nina Deliu, Tanujit Chakraborty, Lauren Bell, Bibhas Chakraborty
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 3/10
机构绿灯: NUS（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在移动健康等序列决策场景中，如何根据个体时变的上下文，在线地、自适应地选择干预动作，以最大化某种近端结局的累积期望。当前，将因果推断中的动态治疗策略（JITAIs）与强化学习/上下文多臂老虎机结合的范式已经相对成熟，但针对特定类型结局（尤其是零膨胀计数数据，如饮酒次数、吸烟次数）的在线学习算法与理论仍处于起步阶段。

发展脉络： 1. 奠基工作（JITAIs 与 MRT 框架）：Nahum-Shani et al. (2017) 定义了 JITAI 的核心组件与设计原则；Boruvka et al. (2016) 与 Qian et al. (2019, 2021) 建立了微随机化试验（MRT）的数据分析框架，提出了因果游走效应的半参数估计方法，为在线学习提供了离线评估的因果锚点。 2. 主要进展（上下文老虎机与 TS 算法）：Li et al. (2010) 将上下文老虎机引入个性化推荐；Agrawal & Goyal (2012) 与 Russo & Van Roy (2013, 2014, 2017) 建立了 Thompson Sampling（TS）在线性收益下的遗憾界与信息论分析，确立了 TS 作为一种计算简便、理论有保的探索-利用平衡算法的地位。 3. 当前 frontier（mHealth 中的个性化与复杂模型）：Greenewald et al. (2017) 提出了 Action-Centered 模型，允许基线奖励复杂但处理效应简单；Liao et al. (2020) 与 Tomkins et al. (2021) 开发了针对 mHealth 的个性化 TS 算法；Kveton et al. (2019) 与 Dumitrascu et al. (2018) 将 TS 推广至广义线性模型（如 Logistic）；Bastani & Bayati (2020) 处理了高维协变量下的 LASSO-TS；Xu et al. (2022) 用 Langevin Monte Carlo 替代了高维后验的 Laplace 近似。 4. 本文的位置：在上述进展中，mHealth 的老虎机算法几乎全部针对连续或二值结局。本文首次将零膨胀计数模型（ZIP, ZINB）嵌入 TS 框架，填补了"过离散+零膨胀"这一常见 mHealth 数据结构在在线学习中的空白。

子线索聚类： - 线索 A：因果推断与 MRT 离线评估（Nahum-Shani 2017; Boruvka 2016; Qian 2019, 2021）：聚焦于潜在结果框架、因果游走效应的识别与半参数估计，为 JITAI 提供离线科学依据。 - 线索 B：TS 算法的理论拓展（Agrawal 2012; Russo 2013, 2014; Abeille 2016）：聚焦于线性及广义线性收益下的贝叶斯遗憾界、信息论界与 eluder dimension 分析。 - 线索 C：mHealth 中的算法适配与工程实现（Greenewald 2017; Liao 2020; Tomkins 2021; Trella 2022; Yao 2020）：聚焦于非平稳性、个性化池化、统计功效约束与 PCS 框架，处理真实 mHealth 系统的约束。

这个方向在追问的核心问题： 1. 如何在非平稳、个体异质的 mHealth 环境中，保证在线学习算法的收敛性与遗憾界？ 2. 如何在在线学习（追求累积奖励最大化）与科学评估（追求统计功效与无偏估计）之间达成妥协？ 3. 当结局变量不是连续或二值，而是带有过离散与零膨胀结构的计数数据时，如何正确建模并维持 TS 的理论性质？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为"现有 CB 算法无法妥善处理 mHealth 中常见的零膨胀计数结局"，从而将本文定位为"将离线计数模型与在线 TS 结合的显然下一步"。 - 被淡化或回避的路线：作者没有讨论 Hurdle 模型（Feng 2021 指出 Hurdle 与 ZI 模型在数据生成机制上有根本差异，且在某些场景下 Hurdle 更合适），也没有触及半参数或非参数计数模型的可能；此外，对于"是否必须用 TS 而非 UCB 或其他探索策略"的讨论几乎缺席。 - 缺失的引用：Intro 中未引用任何关于半参数计数回归（如基于 Influence Function 的 debiased 方法）或高维计数模型的文献，也未引用关于 Bandit 算法在非标准分布下遗憾界的更一般性理论（如泛函空间上的 TS）。这值得研究者去查：是该领域确实未触及，还是作者有意缩小了战场？

张力：未见明显对立引用。但存在一条隐含张力：Bastani & Bayati (2020) 证明了在高维下 LASSO-TS 可达近最优遗憾，而 Xu et al. (2022) 指出 Laplace 近似在高维下计算不可行且近似质量差——本文的 ZINB-TS 仍依赖 Laplace 近似与共轭更新，这在高维协变量下是否仍成立，是一个未被作者正面回应的潜在冲突点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

符号：
\(t \in \{1, 2, \ldots, T\}\)：决策时刻（样本量 / 总轮数）。
\(X_t \in \mathbb{R}^d\)：时刻 \(t\) 的上下文向量（时变协变量，如用户状态、时间等）。
\(A_t \in \mathcal{A}\)：时刻 \(t\) 选择的动作（干预选项，如"发送提醒" vs "不发送"，通常 \(|\mathcal{A}|=K\) 为有限臂）。
\(Y_t \in \{0, 1, 2, \ldots\}\)：时刻 \(t\) 观测到的计数结局（如饮酒次数），为随机变量。
\(\theta_a\)：臂 \(a\) 对应的参数向量（或包含零膨胀参数与计数参数的参数集），是我们要估的 estimand。
\(R_t(X_t, A_t, \theta_{A_t})\)：时刻 \(t\) 的期望即时奖励函数，通常定义为 \(E[Y_t | X_t, A_t, \theta_{A_t}]\)。
\(\pi^*\)：最优策略，即 \(\pi^*(x) = \arg\max_{a} R(x, a, \theta_a)\)。
\(\text{Regret}(T)\)：累积遗憾，定义为 \(\sum_{t=1}^T \left( R(X_t, \pi^*(X_t), \theta_{\pi^*(X_t)}) - R(X_t, A_t, \theta_{A_t}) \right)\)。
模型（以最简 ZINB 为例）：数据生成机制为：给定上下文 \(X_t\) 与动作 \(A_t=a\)，
零膨胀部分：\(P(Y_t = 0 | X_t, a) = \text{logit}^{-1}(X_t^\top \gamma_a)\)，其中 \(\gamma_a \in \mathbb{R}^d\) 为零膨胀参数（结构零的概率）。
计数部分：若非结构零，\(Y_t | Y_t>0, X_t, a \sim \text{NB}(\mu_a(X_t), \phi_a)\)，其中 \(\mu_a(X_t) = \exp(X_t^\top \beta_a)\)，\(\beta_a \in \mathbb{R}^d\) 为计数参数，\(\phi_a\) 为离散参数。
奖励函数：\(R(X_t, a, \theta_a) = E[Y_t | X_t, a] = \text{logit}^{-1}(X_t^\top \gamma_a) \cdot 0 + (1 - \text{logit}^{-1}(X_t^\top \gamma_a)) \cdot \exp(X_t^\top \beta_a)\)（注意：结构零的期望贡献为 0，非结构零的期望为 \(\mu_a\)）。
可观测数据：研究者实际观测到的是序列 \(\{(X_t, A_t, Y_t)\}_{t=1}^T\)。其中 \(X_t\) 由环境给出，\(A_t\) 由算法根据后验采样决定，\(Y_t\) 由上述 ZINB 模型生成。不可观测的量是：某个观测到 \(Y_t=0\) 的时刻，该零究竟是"结构零"（用户根本不饮酒）还是"采样零"（用户本可能饮酒但这次碰巧没饮）——这是零膨胀模型固有的识别困难，只能靠参数假设与后验推断去分离。

第二步：讲最小内核

剥掉所有多臂、高维与一般分布的壳，支撑这篇论文的最小内核是：在单臂（\(K=1\)）、一维协方差（\(d=1\)，\(X_t=1\) 即仅估均值）、且只有 Poisson 模型（无零膨胀）的特例下，TS 如何通过共轭后验更新保证遗憾界。

最简特例设定：\(K=1, d=1, X_t=1\)，模型为 \(Y_t \sim \text{Poisson}(\lambda)\)，\(\lambda\) 为未知参数。奖励 \(R(1, \lambda) = \lambda\)。TS 在每一步从 \(\lambda\) 的后验中采样 \(\tilde{\lambda}_t\)，选动作（这里只有一臂，所以选动作退化，但核心是"采样代替真实参数"的机制）。
后验更新：Poisson 的共轭先验是 Gamma。设先验 \(\lambda \sim \text{Gamma}(\alpha_0, \beta_0)\)。观测到 \(Y_1, \ldots, Y_t\) 后，后验为 \(\lambda | Y_{1:t} \sim \text{Gamma}(\alpha_0 + \sum_{s=1}^t Y_s, \beta_0 + t)\)。
遗憾退化成什么：在单臂下，遗憾退化为 0（因为没有对比臂）。但若扩展到两臂（\(K=2\)），最优臂 \(\lambda^* = \max(\lambda_1, \lambda_2)\)，遗憾为 \(\sum_{t=1}^T (\lambda^* - \lambda_{A_t})\)。
证明怎么走：核心命题是"TS 的采样有足够概率选到最优臂（探索），且随着数据累积，选最优臂的概率趋于 1（利用）"。在 Gamma-Poisson 下，这一点的关键在于：Gamma 分布的形状参数随 \(\sum Y_s\) 增长，尺度参数随 \(t\) 增长，使得后验均值 \(\hat{\lambda}_t = (\alpha_0 + \sum Y_s) / (\beta_0 + t) \to \lambda\)（真实值），且后验方差 \(\to 0\)。TS 的采样 \(\tilde{\lambda}_t\) 虽然有随机性，但偏离真实值的概率被 Gamma 的尾部控制。论文的一般情形（ZINB, 多臂, 高维协方差）本质上只是把"Gamma 共轭更新"替换为"Laplace 近似下的多元正态更新"，把"尾部控制"替换为"广义线性模型下的 anti-concentration 与 concentration 引理"。

三、这篇论文做了什么¶

三句话： ①研究了 mHealth 中零膨胀计数结局下的在线干预决策问题； ②核心方法是将四种离线计数回归模型（Poisson, NB, ZIP, ZINB）嵌入 Thompson Sampling 的后验采样与更新机制； ③主要结论是推导了这四种算法的 \(\tilde{O}(d\sqrt{T})\) 阶累积遗憾界，并在 Drink Less 真实数据与模拟中展示了相对现有 Bernoulli/连续 TS 算法的优势。

关键设定与假设：在第二节最小记号的基础上补全： - 动作空间：\(\mathcal{A} = \{1, \ldots, K\}\)，有限臂。 - 上下文：\(X_t \in \mathbb{R}^d\)，假设 \(\|X_t\|_2 \leq 1\)（有界协方差）。 - 奖励函数：对于臂 \(a\)，\(R(X_t, a) = E[Y_t | X_t, A_t=a]\)。对于 ZIP/ZINB，\(R\) 是零膨胀概率与计数均值的混合函数（见第二节）。 - 假设 1（参数有界）：\(\|\theta_a\|_2 \leq S\)（参数空间有界），这是线性 TS 文献的标准假设，用于控制 Laplace 近似的误差。 - 假设 2（Laplace 近似质量）：后验分布可用多元正态 \(N(\hat{\theta}_t, v_t^2 H_t^{-1})\) 足够好地近似，其中 \(\hat{\theta}_t\) 是 MLE，\(H_t\) 是 Hessian，\(v_t\) 是方差缩放因子。这是 Abeille et al. (2016) 与 Kveton et al. (2019) 的标准设定，本文直接继承。 - 假设 3（最小奖励间隙）：存在 \(\Delta > 0\)，使得最优臂与次优臂的期望奖励差至少为 \(\Delta\)。这是遗憾界分析的标准假设。 - 统计含义：假设 1 限制了模型的过拟合风险；假设 2 是本文最吃劲的假设——对于 ZINB 这种非共轭模型，Laplace 近似在小样本下可能极差，作者回避了这一点；假设 3 保证了探索的收益有下界。

主要结果： - 定理 1（遗憾界）：对于基于 Poisson/NB/ZIP/ZINB 的 TS 算法，在假设 1-3 下，累积遗憾满足 \(E[\text{Regret}(T)] \leq C \frac{d\sqrt{T}}{\Delta} \log(T)\)，其中 \(C\) 是与 \(S, v\) 相关的常数。 - 直觉：遗憾由两部分构成——"选错臂的次数"与"每次选错的损失"。TS 的采样机制保证选错臂的概率随 \(t\) 以 \(1/\sqrt{t}\) 速率衰减（因为后验方差衰减），而每次选错的损失被 \(\Delta\) 控制，积分后得 \(\sqrt{T}\) 阶。 - 必要条件：Laplace 近似必须足够好（假设 2），且参数有界（假设 1）。 - 解决的技术难点：在 ZINB 下，奖励函数 \(R(X, a, \theta_a)\) 是 \(\gamma_a\) 与 \(\beta_a\) 的非线性混合函数，其梯度与 Hessian 的计算比纯 Logistic 或 Poisson 更复杂，需要单独推导其 Lipschitz 性质与 anti-concentration 引理。

证明路线与技术技巧： - 整体路线： 1. 后验更新与 Laplace 近似：在每一步 \(t\)，基于历史数据 \(\{(X_s, A_s, Y_s)\}_{s<t}\) 计算 MLE \(\hat{\theta}_t\) 与 Hessian \(H_t\)，构造正态近似 \(N(\hat{\theta}_t, v_t^2 H_t^{-1})\)。 2. 采样与选臂：从正态近似中采样 \(\tilde{\theta}_t\)，计算各臂的期望奖励 \(R(X_t, a, \tilde{\theta}_t)\)，选最大臂 \(A_t = \arg\max_a R(X_t, a, \tilde{\theta}_t)\)。 3. 遗憾分解：将遗憾分解为 \(\sum_{t=1}^T \Delta \cdot I(A_t \neq \pi^*(X_t))\)，即只看选错臂的步数。 4. 选错概率控制：利用 Abeille et al. (2016) 的框架，证明 TS 采样有固定概率 \(\Omega(1/d)\) 选到"乐观参数"（即 \(\tilde{\theta}_t\) 使得 \(R(X_t, \pi^*(X_t), \tilde{\theta}_t) \geq R(X_t, \pi^*(X_t), \theta_{\pi^*})\)），从而保证探索；同时，利用后验收敛性证明选错概率随 \(t\) 衰减。 5. 积分求界：将选错概率的衰减率积分，得 \(\sqrt{T}\) 阶遗憾界。 - 关键跳跃点： - 引理 1（Anti-concentration）：证明从 \(N(\hat{\theta}_t, v_t^2 H_t^{-1})\) 采样的 \(\tilde{\theta}_t\)，有足够概率使得 \(R(X_t, \pi^*(X_t), \tilde{\theta}_t)\) 超过真实最优奖励。这是 TS 探索的核心。难点在于 ZINB 的 \(R\) 是非线性混合函数，需要对其梯度做 Lipschitz 分析，将参数空间的 anti-concentration 传递到奖励空间。 - 引理 2（Concentration）：证明 \(\hat{\theta}_t\) 收敛到 \(\theta\)，且 \(H_t\) 逼近真实 Fisher 信息，使得后验方差以 \(O(1/t)\) 衰减。难点在于 Bandit 数据非 i.i.d.（受策略影响），需要利用"选错臂概率衰减"的自洽结构来证明 MLE 的收敛。 - 技术技巧点名： - Laplace 近似：用于将非共轭后验（NB, ZIP, ZINB）近似为正态，是整个算法与理论的基石。 - Anti-concentration 引理：继承自 Abeille et al. (2016)，用于证明 TS 的探索效率。 - Self-normalized martingale bound：用于处理 Bandit 数据的非 i.i.d. 性质，证明 MLE 的收敛（类似 Bastani & Bayati 2020 的技术）。 - Lipschitz 连续性分析：用于将 ZINB 奖励函数的梯度与参数空间的扰动联系起来，是本文相比纯 Poisson/Logistic TS 的额外技术贡献。

真实例子与应用： - 数据：Drink Less 试验数据，这是一个针对过度饮酒者的智能手机干预应用。 - 怎么用上去：将用户的每日饮酒次数作为计数结局 \(Y_t\)，用户的时变特征（如前几日的饮酒记录、应用使用频率等）作为上下文 \(X_t\)，干预动作 \(A_t\) 为"发送个性化提醒" vs "不发送"。用本文的 ZINB-TS 算法在线学习最优发送策略。 - 得到什么结果：相比基于 Bernoulli TS（将饮酒次数二值化为"是否饮酒"）或 Gaussian TS 的基准算法，ZINB-TS 在累积用户参与度（以应用登录次数为代理结局）上显著提升，且在模拟中更准确地估了干预对饮酒次数的因果效应。 - 想说明什么：验证 ZINB-TS 在真实零膨胀计数数据上的实用性，展示保留计数结构（而非二值化）带来的信息增益与决策优势。

🔎 结论是否比证明窄： - 窄结论：定理 1 的遗憾界依赖于 \(\Delta > 0\)（最小奖励间隙），这在实际 mHealth 中往往不成立（不同干预的效应可能极接近）。作者在文中泛泛 claim 算法适用于"零膨胀计数结局的 mHealth 决策"，但理论证明只在 \(\Delta > 0\) 下严格成立，对于 \(\Delta \to 0\) 的情形（即 minimax 遗憾界）未做分析。 - Laplace 近似假设：证明假设后验可用正态近似，但 ZINB 在小样本或强零膨胀下，后验可能高度偏斜或有双峰结构，此时 Laplace 近似质量极差。作者未对"近似质量何时成立"给出可验证的条件，只在假设中硬性规定。

四、开放问题（点到为止）¶

ZINB 后验的 Laplace 近似何时失效？：本文假设 2 硬性规定 Laplace 近似可用，但未给出可验证的样本量或零膨胀程度条件。要证/估的是：在 \(t < t_0\) 或 \(\text{logit}^{-1}(X^\top \gamma) > p_0\) 时，Laplace 近似与真实后验的 KL 散度界。扎根在本文假设 2 的陈述与 Abeille et al. (2016) 的条件。
\(\Delta \to 0\) 时的 minimax 遗憾界：当前界依赖 \(\Delta\)，在干预效应极小时退化。要证的是：ZINB-TS 在无间隙假设下的 minimax 遗憾界是否仍为 \(\tilde{O}(\sqrt{T})\)？扎根在定理 1 的陈述与 Agrawal et al. (2012) 对线性 TS 的无间隙分析。
Hurdle 模型 vs ZI 模型的选择对在线学习的影响：Intro 未讨论 Hurdle 模型，但 Feng (2021) 指出两者在数据生成机制上有根本差异。要估的是：在真实 mHealth 数据中，Hurdle-TS 是否比 ZINB-TS 更稳健？扎根在 Intro 对模型选择的讨论与 Feng (2021) 的引用缺失。
高维协方差下的计算可行性：当前算法依赖 MLE 与 Hessian 的精确计算，在 \(d\) 大时计算成本高。要算的是：是否可用 SGD-TS（Ding et al. 2020）或 LMC-TS（Xu et al. 2022）替代 Laplace 近似，在 ZINB 下保持 \(\tilde{O}(\sqrt{T})\) 遗憾？扎根在本文的算法步骤与 Xu et al. (2022) 的引用。

Maintained by 陈星宇 · Homepage · Source on GitHub

Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论