Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study¶
作者: Xueqing Liu, Nina Deliu, Tanujit Chakraborty, Lauren Bell, Bibhas Chakraborty
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 3/10
机构绿灯: NUS(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本问题是:在移动健康等序列决策场景中,如何根据个体时变的上下文,在线地、自适应地选择干预动作,以最大化某种近端结局的累积期望。当前,将因果推断中的动态治疗策略(JITAIs)与强化学习/上下文多臂老虎机结合的范式已经相对成熟,但针对特定类型结局(尤其是零膨胀计数数据,如饮酒次数、吸烟次数)的在线学习算法与理论仍处于起步阶段。
发展脉络: 1. 奠基工作(JITAIs 与 MRT 框架):Nahum-Shani et al. (2017) 定义了 JITAI 的核心组件与设计原则;Boruvka et al. (2016) 与 Qian et al. (2019, 2021) 建立了微随机化试验(MRT)的数据分析框架,提出了因果游走效应的半参数估计方法,为在线学习提供了离线评估的因果锚点。 2. 主要进展(上下文老虎机与 TS 算法):Li et al. (2010) 将上下文老虎机引入个性化推荐;Agrawal & Goyal (2012) 与 Russo & Van Roy (2013, 2014, 2017) 建立了 Thompson Sampling(TS)在线性收益下的遗憾界与信息论分析,确立了 TS 作为一种计算简便、理论有保的探索-利用平衡算法的地位。 3. 当前 frontier(mHealth 中的个性化与复杂模型):Greenewald et al. (2017) 提出了 Action-Centered 模型,允许基线奖励复杂但处理效应简单;Liao et al. (2020) 与 Tomkins et al. (2021) 开发了针对 mHealth 的个性化 TS 算法;Kveton et al. (2019) 与 Dumitrascu et al. (2018) 将 TS 推广至广义线性模型(如 Logistic);Bastani & Bayati (2020) 处理了高维协变量下的 LASSO-TS;Xu et al. (2022) 用 Langevin Monte Carlo 替代了高维后验的 Laplace 近似。 4. 本文的位置:在上述进展中,mHealth 的老虎机算法几乎全部针对连续或二值结局。本文首次将零膨胀计数模型(ZIP, ZINB)嵌入 TS 框架,填补了"过离散+零膨胀"这一常见 mHealth 数据结构在在线学习中的空白。
子线索聚类: - 线索 A:因果推断与 MRT 离线评估(Nahum-Shani 2017; Boruvka 2016; Qian 2019, 2021):聚焦于潜在结果框架、因果游走效应的识别与半参数估计,为 JITAI 提供离线科学依据。 - 线索 B:TS 算法的理论拓展(Agrawal 2012; Russo 2013, 2014; Abeille 2016):聚焦于线性及广义线性收益下的贝叶斯遗憾界、信息论界与 eluder dimension 分析。 - 线索 C:mHealth 中的算法适配与工程实现(Greenewald 2017; Liao 2020; Tomkins 2021; Trella 2022; Yao 2020):聚焦于非平稳性、个性化池化、统计功效约束与 PCS 框架,处理真实 mHealth 系统的约束。
这个方向在追问的核心问题: 1. 如何在非平稳、个体异质的 mHealth 环境中,保证在线学习算法的收敛性与遗憾界? 2. 如何在在线学习(追求累积奖励最大化)与科学评估(追求统计功效与无偏估计)之间达成妥协? 3. 当结局变量不是连续或二值,而是带有过离散与零膨胀结构的计数数据时,如何正确建模并维持 TS 的理论性质?
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为"现有 CB 算法无法妥善处理 mHealth 中常见的零膨胀计数结局",从而将本文定位为"将离线计数模型与在线 TS 结合的显然下一步"。 - 被淡化或回避的路线:作者没有讨论 Hurdle 模型(Feng 2021 指出 Hurdle 与 ZI 模型在数据生成机制上有根本差异,且在某些场景下 Hurdle 更合适),也没有触及半参数或非参数计数模型的可能;此外,对于"是否必须用 TS 而非 UCB 或其他探索策略"的讨论几乎缺席。 - 缺失的引用:Intro 中未引用任何关于半参数计数回归(如基于 Influence Function 的 debiased 方法)或高维计数模型的文献,也未引用关于 Bandit 算法在非标准分布下遗憾界的更一般性理论(如泛函空间上的 TS)。这值得研究者去查:是该领域确实未触及,还是作者有意缩小了战场?
张力: 未见明显对立引用。但存在一条隐含张力:Bastani & Bayati (2020) 证明了在高维下 LASSO-TS 可达近最优遗憾,而 Xu et al. (2022) 指出 Laplace 近似在高维下计算不可行且近似质量差——本文的 ZINB-TS 仍依赖 Laplace 近似与共轭更新,这在高维协变量下是否仍成立,是一个未被作者正面回应的潜在冲突点。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代
- 符号:
- \(t \in \{1, 2, \ldots, T\}\):决策时刻(样本量 / 总轮数)。
- \(X_t \in \mathbb{R}^d\):时刻 \(t\) 的上下文向量(时变协变量,如用户状态、时间等)。
- \(A_t \in \mathcal{A}\):时刻 \(t\) 选择的动作(干预选项,如"发送提醒" vs "不发送",通常 \(|\mathcal{A}|=K\) 为有限臂)。
- \(Y_t \in \{0, 1, 2, \ldots\}\):时刻 \(t\) 观测到的计数结局(如饮酒次数),为随机变量。
- \(\theta_a\):臂 \(a\) 对应的参数向量(或包含零膨胀参数与计数参数的参数集),是我们要估的 estimand。
- \(R_t(X_t, A_t, \theta_{A_t})\):时刻 \(t\) 的期望即时奖励函数,通常定义为 \(E[Y_t | X_t, A_t, \theta_{A_t}]\)。
- \(\pi^*\):最优策略,即 \(\pi^*(x) = \arg\max_{a} R(x, a, \theta_a)\)。
-
\(\text{Regret}(T)\):累积遗憾,定义为 \(\sum_{t=1}^T \left( R(X_t, \pi^*(X_t), \theta_{\pi^*(X_t)}) - R(X_t, A_t, \theta_{A_t}) \right)\)。
-
模型(以最简 ZINB 为例): 数据生成机制为:给定上下文 \(X_t\) 与动作 \(A_t=a\),
- 零膨胀部分:\(P(Y_t = 0 | X_t, a) = \text{logit}^{-1}(X_t^\top \gamma_a)\),其中 \(\gamma_a \in \mathbb{R}^d\) 为零膨胀参数(结构零的概率)。
- 计数部分:若非结构零,\(Y_t | Y_t>0, X_t, a \sim \text{NB}(\mu_a(X_t), \phi_a)\),其中 \(\mu_a(X_t) = \exp(X_t^\top \beta_a)\),\(\beta_a \in \mathbb{R}^d\) 为计数参数,\(\phi_a\) 为离散参数。
-
奖励函数:\(R(X_t, a, \theta_a) = E[Y_t | X_t, a] = \text{logit}^{-1}(X_t^\top \gamma_a) \cdot 0 + (1 - \text{logit}^{-1}(X_t^\top \gamma_a)) \cdot \exp(X_t^\top \beta_a)\)(注意:结构零的期望贡献为 0,非结构零的期望为 \(\mu_a\))。
-
可观测数据: 研究者实际观测到的是序列 \(\{(X_t, A_t, Y_t)\}_{t=1}^T\)。其中 \(X_t\) 由环境给出,\(A_t\) 由算法根据后验采样决定,\(Y_t\) 由上述 ZINB 模型生成。不可观测的量是:某个观测到 \(Y_t=0\) 的时刻,该零究竟是"结构零"(用户根本不饮酒)还是"采样零"(用户本可能饮酒但这次碰巧没饮)——这是零膨胀模型固有的识别困难,只能靠参数假设与后验推断去分离。
第二步:讲最小内核
剥掉所有多臂、高维与一般分布的壳,支撑这篇论文的最小内核是:在单臂(\(K=1\))、一维协方差(\(d=1\),\(X_t=1\) 即仅估均值)、且只有 Poisson 模型(无零膨胀)的特例下,TS 如何通过共轭后验更新保证遗憾界。
- 最简特例设定:\(K=1, d=1, X_t=1\),模型为 \(Y_t \sim \text{Poisson}(\lambda)\),\(\lambda\) 为未知参数。奖励 \(R(1, \lambda) = \lambda\)。TS 在每一步从 \(\lambda\) 的后验中采样 \(\tilde{\lambda}_t\),选动作(这里只有一臂,所以选动作退化,但核心是"采样代替真实参数"的机制)。
- 后验更新:Poisson 的共轭先验是 Gamma。设先验 \(\lambda \sim \text{Gamma}(\alpha_0, \beta_0)\)。观测到 \(Y_1, \ldots, Y_t\) 后,后验为 \(\lambda | Y_{1:t} \sim \text{Gamma}(\alpha_0 + \sum_{s=1}^t Y_s, \beta_0 + t)\)。
- 遗憾退化成什么:在单臂下,遗憾退化为 0(因为没有对比臂)。但若扩展到两臂(\(K=2\)),最优臂 \(\lambda^* = \max(\lambda_1, \lambda_2)\),遗憾为 \(\sum_{t=1}^T (\lambda^* - \lambda_{A_t})\)。
- 证明怎么走:核心命题是"TS 的采样有足够概率选到最优臂(探索),且随着数据累积,选最优臂的概率趋于 1(利用)"。在 Gamma-Poisson 下,这一点的关键在于:Gamma 分布的形状参数随 \(\sum Y_s\) 增长,尺度参数随 \(t\) 增长,使得后验均值 \(\hat{\lambda}_t = (\alpha_0 + \sum Y_s) / (\beta_0 + t) \to \lambda\)(真实值),且后验方差 \(\to 0\)。TS 的采样 \(\tilde{\lambda}_t\) 虽然有随机性,但偏离真实值的概率被 Gamma 的尾部控制。论文的一般情形(ZINB, 多臂, 高维协方差)本质上只是把"Gamma 共轭更新"替换为"Laplace 近似下的多元正态更新",把"尾部控制"替换为"广义线性模型下的 anti-concentration 与 concentration 引理"。
三、这篇论文做了什么¶
三句话: ①研究了 mHealth 中零膨胀计数结局下的在线干预决策问题; ②核心方法是将四种离线计数回归模型(Poisson, NB, ZIP, ZINB)嵌入 Thompson Sampling 的后验采样与更新机制; ③主要结论是推导了这四种算法的 \(\tilde{O}(d\sqrt{T})\) 阶累积遗憾界,并在 Drink Less 真实数据与模拟中展示了相对现有 Bernoulli/连续 TS 算法的优势。
关键设定与假设: 在第二节最小记号的基础上补全: - 动作空间:\(\mathcal{A} = \{1, \ldots, K\}\),有限臂。 - 上下文:\(X_t \in \mathbb{R}^d\),假设 \(\|X_t\|_2 \leq 1\)(有界协方差)。 - 奖励函数:对于臂 \(a\),\(R(X_t, a) = E[Y_t | X_t, A_t=a]\)。对于 ZIP/ZINB,\(R\) 是零膨胀概率与计数均值的混合函数(见第二节)。 - 假设 1(参数有界):\(\|\theta_a\|_2 \leq S\)(参数空间有界),这是线性 TS 文献的标准假设,用于控制 Laplace 近似的误差。 - 假设 2(Laplace 近似质量):后验分布可用多元正态 \(N(\hat{\theta}_t, v_t^2 H_t^{-1})\) 足够好地近似,其中 \(\hat{\theta}_t\) 是 MLE,\(H_t\) 是 Hessian,\(v_t\) 是方差缩放因子。这是 Abeille et al. (2016) 与 Kveton et al. (2019) 的标准设定,本文直接继承。 - 假设 3(最小奖励间隙):存在 \(\Delta > 0\),使得最优臂与次优臂的期望奖励差至少为 \(\Delta\)。这是遗憾界分析的标准假设。 - 统计含义:假设 1 限制了模型的过拟合风险;假设 2 是本文最吃劲的假设——对于 ZINB 这种非共轭模型,Laplace 近似在小样本下可能极差,作者回避了这一点;假设 3 保证了探索的收益有下界。
主要结果: - 定理 1(遗憾界):对于基于 Poisson/NB/ZIP/ZINB 的 TS 算法,在假设 1-3 下,累积遗憾满足 \(E[\text{Regret}(T)] \leq C \frac{d\sqrt{T}}{\Delta} \log(T)\),其中 \(C\) 是与 \(S, v\) 相关的常数。 - 直觉:遗憾由两部分构成——"选错臂的次数"与"每次选错的损失"。TS 的采样机制保证选错臂的概率随 \(t\) 以 \(1/\sqrt{t}\) 速率衰减(因为后验方差衰减),而每次选错的损失被 \(\Delta\) 控制,积分后得 \(\sqrt{T}\) 阶。 - 必要条件:Laplace 近似必须足够好(假设 2),且参数有界(假设 1)。 - 解决的技术难点:在 ZINB 下,奖励函数 \(R(X, a, \theta_a)\) 是 \(\gamma_a\) 与 \(\beta_a\) 的非线性混合函数,其梯度与 Hessian 的计算比纯 Logistic 或 Poisson 更复杂,需要单独推导其 Lipschitz 性质与 anti-concentration 引理。
证明路线与技术技巧: - 整体路线: 1. 后验更新与 Laplace 近似:在每一步 \(t\),基于历史数据 \(\{(X_s, A_s, Y_s)\}_{s<t}\) 计算 MLE \(\hat{\theta}_t\) 与 Hessian \(H_t\),构造正态近似 \(N(\hat{\theta}_t, v_t^2 H_t^{-1})\)。 2. 采样与选臂:从正态近似中采样 \(\tilde{\theta}_t\),计算各臂的期望奖励 \(R(X_t, a, \tilde{\theta}_t)\),选最大臂 \(A_t = \arg\max_a R(X_t, a, \tilde{\theta}_t)\)。 3. 遗憾分解:将遗憾分解为 \(\sum_{t=1}^T \Delta \cdot I(A_t \neq \pi^*(X_t))\),即只看选错臂的步数。 4. 选错概率控制:利用 Abeille et al. (2016) 的框架,证明 TS 采样有固定概率 \(\Omega(1/d)\) 选到"乐观参数"(即 \(\tilde{\theta}_t\) 使得 \(R(X_t, \pi^*(X_t), \tilde{\theta}_t) \geq R(X_t, \pi^*(X_t), \theta_{\pi^*})\)),从而保证探索;同时,利用后验收敛性证明选错概率随 \(t\) 衰减。 5. 积分求界:将选错概率的衰减率积分,得 \(\sqrt{T}\) 阶遗憾界。 - 关键跳跃点: - 引理 1(Anti-concentration):证明从 \(N(\hat{\theta}_t, v_t^2 H_t^{-1})\) 采样的 \(\tilde{\theta}_t\),有足够概率使得 \(R(X_t, \pi^*(X_t), \tilde{\theta}_t)\) 超过真实最优奖励。这是 TS 探索的核心。难点在于 ZINB 的 \(R\) 是非线性混合函数,需要对其梯度做 Lipschitz 分析,将参数空间的 anti-concentration 传递到奖励空间。 - 引理 2(Concentration):证明 \(\hat{\theta}_t\) 收敛到 \(\theta\),且 \(H_t\) 逼近真实 Fisher 信息,使得后验方差以 \(O(1/t)\) 衰减。难点在于 Bandit 数据非 i.i.d.(受策略影响),需要利用"选错臂概率衰减"的自洽结构来证明 MLE 的收敛。 - 技术技巧点名: - Laplace 近似:用于将非共轭后验(NB, ZIP, ZINB)近似为正态,是整个算法与理论的基石。 - Anti-concentration 引理:继承自 Abeille et al. (2016),用于证明 TS 的探索效率。 - Self-normalized martingale bound:用于处理 Bandit 数据的非 i.i.d. 性质,证明 MLE 的收敛(类似 Bastani & Bayati 2020 的技术)。 - Lipschitz 连续性分析:用于将 ZINB 奖励函数的梯度与参数空间的扰动联系起来,是本文相比纯 Poisson/Logistic TS 的额外技术贡献。
真实例子与应用: - 数据:Drink Less 试验数据,这是一个针对过度饮酒者的智能手机干预应用。 - 怎么用上去:将用户的每日饮酒次数作为计数结局 \(Y_t\),用户的时变特征(如前几日的饮酒记录、应用使用频率等)作为上下文 \(X_t\),干预动作 \(A_t\) 为"发送个性化提醒" vs "不发送"。用本文的 ZINB-TS 算法在线学习最优发送策略。 - 得到什么结果:相比基于 Bernoulli TS(将饮酒次数二值化为"是否饮酒")或 Gaussian TS 的基准算法,ZINB-TS 在累积用户参与度(以应用登录次数为代理结局)上显著提升,且在模拟中更准确地估了干预对饮酒次数的因果效应。 - 想说明什么:验证 ZINB-TS 在真实零膨胀计数数据上的实用性,展示保留计数结构(而非二值化)带来的信息增益与决策优势。
🔎 结论是否比证明窄: - 窄结论:定理 1 的遗憾界依赖于 \(\Delta > 0\)(最小奖励间隙),这在实际 mHealth 中往往不成立(不同干预的效应可能极接近)。作者在文中泛泛 claim 算法适用于"零膨胀计数结局的 mHealth 决策",但理论证明只在 \(\Delta > 0\) 下严格成立,对于 \(\Delta \to 0\) 的情形(即 minimax 遗憾界)未做分析。 - Laplace 近似假设:证明假设后验可用正态近似,但 ZINB 在小样本或强零膨胀下,后验可能高度偏斜或有双峰结构,此时 Laplace 近似质量极差。作者未对"近似质量何时成立"给出可验证的条件,只在假设中硬性规定。
四、开放问题(点到为止)¶
- ZINB 后验的 Laplace 近似何时失效?:本文假设 2 硬性规定 Laplace 近似可用,但未给出可验证的样本量或零膨胀程度条件。要证/估的是:在 \(t < t_0\) 或 \(\text{logit}^{-1}(X^\top \gamma) > p_0\) 时,Laplace 近似与真实后验的 KL 散度界。扎根在本文假设 2 的陈述与 Abeille et al. (2016) 的条件。
- \(\Delta \to 0\) 时的 minimax 遗憾界:当前界依赖 \(\Delta\),在干预效应极小时退化。要证的是:ZINB-TS 在无间隙假设下的 minimax 遗憾界是否仍为 \(\tilde{O}(\sqrt{T})\)?扎根在定理 1 的陈述与 Agrawal et al. (2012) 对线性 TS 的无间隙分析。
- Hurdle 模型 vs ZI 模型的选择对在线学习的影响:Intro 未讨论 Hurdle 模型,但 Feng (2021) 指出两者在数据生成机制上有根本差异。要估的是:在真实 mHealth 数据中,Hurdle-TS 是否比 ZINB-TS 更稳健?扎根在 Intro 对模型选择的讨论与 Feng (2021) 的引用缺失。
- 高维协方差下的计算可行性:当前算法依赖 MLE 与 Hessian 的精确计算,在 \(d\) 大时计算成本高。要算的是:是否可用 SGD-TS(Ding et al. 2020)或 LMC-TS(Xu et al. 2022)替代 Laplace 近似,在 ZINB 下保持 \(\tilde{O}(\sqrt{T})\) 遗憾?扎根在本文的算法步骤与 Xu et al. (2022) 的引用。
Maintained by 陈星宇 · Homepage · Source on GitHub