Q -Learning with clustered-SMART (cSMART) data: examining moderators in the construction of clustered adaptive interventions¶

作者: Yao Song, Kelly Speth, Amy Kilbourne, Andrew Quanbeck, Daniel Almirall et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在聚类自适应干预（clustered Adaptive Intervention, cAI）——即以群组（如诊所、学校）为单位、按时间序列逐步调整干预策略——的构建中，如何利用聚类序贯多重分配随机试验（clustered SMART, cSMART）的数据，推断候选调节变量（tailoring/moderator variables，即用来决定下一步给哪种干预的特征）是否真正具有因果调节效应，并在推断遭遇非正则性（non-regularity，参数落在边界或最优决策规则不唯一导致标准渐近理论失效）与聚类内相关（intra-cluster correlation, ICC）的双重阻碍时，仍能给出具有近名义覆盖率的置信区间。当前成熟度：个体级 SMART 与 Q-learning 的非正则推断已有十余年积累（阈值估计、自适应置信区间、m-out-of-n bootstrap），但向聚类级设定迁移并同时处理 ICC 与非正则性的理论与方法，刚由本文首次系统闭合。

发展脉络： - 奠基工作：Robins (2004) 与 Hernán & Robins (2010) 建立了动态干预的因果推断框架与核心假设（序贯可忽略性等）；Murphy (2005) 与 Nahum-Shani et al. (2012) 将 SMART 设计与 Q-learning 引入个体级自适应干预的估计，留下了“多阶段决策规则下参数推断可能遭遇非正则性”的口子。 - 主要进展（非正则性推断）：Chakraborty et al. (2010) 与 Moodie & Richardson (2010) 提出阈值估计软化非正则点；Laber & Murphy (2011) 与 Laber et al. (2014) 发展了自适应置信区间，通过构造光滑的数据依赖上下界绕开非光滑的 max 运算。这些工作均在个体级设定下完成，未触及聚类结构。 - 主要进展（聚类 SMART 设计与初级推断）：NeCamp et al. (2017) 提出边际均值模型与 IPW 估计，用于比较聚类级干预路径的均值；Pan et al. (2024) 发展了有限样本修正（FSA）方法以改善小样本聚类下边际均值比较的标准误估计。这些工作聚焦“均值比较”，留下了“因果效应调节推断（Q-learning 参数推断）在聚类设定下如何做”的口子。 - 当前 frontier / 本文位置：本文将 Q-learning 推广至聚类级设定，并在非正则性存在时，引入 M-out-of-N cluster bootstrap（从 \(N\) 个聚类中重抽样 \(m\) 个，\(m/N \to 0, m \to \infty\)），首次在 cSMART 数据下为调节效应参数提供近名义覆盖率的置信区间，闭合了上述两条线索交汇处的空白。

子线索聚类： 1. cSMART 设计与边际均值推断：Kilbourne et al. (2014, ADEPT 试验), Kilbourne et al. (2018, ASIC 试验), Quanbeck et al. (2020, BOI 试验) 提供了现实 cSMART 数据与设计范例；NeCamp et al. (2017) 与 Pan et al. (2024) 解决了这些数据下嵌入干预路径均值的 IPW/FSA 估计与标准误修正。这一簇在做“如何用 cSMART 数据比较不同 cAI 路径的平均效果”。 2. 个体级 DTR 的 Q-learning 与非正则推断：Clifton & Laber (2020) 综述 Q-learning 理论；Chakraborty et al. (2010) 与 Laber et al. (2014) 解决个体级 Q-learning 参数在非正则条件下的置信区间构造。这一簇在做“如何推断个体级决策规则中的调节效应，尤其是当效应为零（边界）时”。 3. 聚类级因果推断与 ICC 调整：Raudenbush & Schwartz (2020) 讨论教育场景下聚类随机试验的因果推断；本文处理的核心统计难点之一即 ICC 对 bootstrap 渐近行为的影响。

这个方向在追问的核心问题： 1. 识别与估计：在聚类级多阶段干预中，候选调节变量是否具有因果调节效应（即是否应被纳入最优 cAI 的决策规则）？如何用 Q-learning 估计这些调节参数？ 2. 非正则推断：当真实调节效应为零（最优规则不依赖该变量）时，参数落在边界，Q-learning 估计量的渐近分布非标准（非光滑函数映射），标准 bootstrap 失效，如何构造有效置信区间？ 3. 聚类结构冲击：聚类内相关（ICC）与有限聚类数（\(N\) 较小）如何加剧非正则推断的困难？如何在重抽样中保持聚类结构以获得正确的渐近分布？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“现有 cSMART 分析只关注边际均值比较，而未触及因果效应调节推断；现有非正则推断方法只针对个体级数据，未考虑聚类结构”。这使得“聚类 Q-learning + M-out-of-N cluster bootstrap”成为“显然的下一步”。 - 被淡化的竞争路线：作者在引言中提及了阈值估计与自适应置信区间，但将其定位为“个体级解决方案”，未在聚类设定下与 M-out-of-N bootstrap 进行理论效率或有限样本表现的直接对比。此外，半参数有效估计（如 one-step correction / HOIF）在非正则点处的局部逼近潜力，未被提及。 - 缺失的引用：在非正则推断文献中，个体级 m-out-of-n bootstrap 的经典工作（如 Chakraborty et al. 2013 在个体 DTR 中使用 m-out-of-n）未被引言重点定位为直接前驱；半参数理论中处理边界/非正则估计的局部渐近文献（如 Hirano & Porter 2009 关于 DTR 的局部渐近风险界）也未出现——这值得研究者去查：是作者刻意回避了效率视角，还是该子领域与半参数局部渐近理论尚未交汇？

张力：未见明显对立引用。NeCamp/Pan 的边际均值路线与本文的 Q-learning 调节路线是互补的（一个看平均效果，一个看规则构建），而非矛盾。非正则推断内部的阈值法、ACI 法与 m-out-of-n 法在个体级已有比较（Chakraborty et al. 2010 模拟比较），本文将 m-out-of-n 推至聚类级，未与其他两法在聚类级对决，属于平行推进。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

符号：
\(K\)：干预阶段数（决策点数）。
\(j = 1, \dots, K\)：阶段索引。
\(A_j\)：第 \(j\) 阶段聚类级干预（处理），通常为二值 \(\{0, 1\}\)。
\(\bar{A}_j = (A_1, \dots, A_j)\)：截至第 \(j\) 阶段的干预历史。
\(O_j\)：第 \(j\) 阶段观测到的聚类级协变量（候选调节变量包含于此）。
\(R_j\)：第 \(j\) 阶段观测到的聚类级中间响应（用于决定下一阶段重随机化）。
\(S_j = (O_j, R_{j-1})\)：第 \(j\) 阶段决策时可用的状态变量（tailoring 变量从中选取）。
\(X_{ij}\)：第 \(j\) 阶段聚类内第 \(i\) 个个体的协变量。
\(Y_i\)：研究结束时聚类内第 \(i\) 个个体的结局变量（primary outcome）。
\(d_j\)：第 \(j\) 阶段决策规则，映射 \(S_j \to A_j\)。
\(\bar{d} = (d_1, \dots, d_K)\)：一个完整的 cAI（聚类自适应干预）。
\(\bar{d}^{\text{opt}}\)：使期望结局 \(E[Y(\bar{d})]\) 最大化的最优 cAI。
\(\psi_j\)：第 \(j\) 阶段 Q 函数中干预 \(A_j\) 与状态 \(S_j\) 的交互项系数（因果效应调节参数，核心 estimand）。
\(N\)：聚类总数（样本量）。
\(n_c\)：聚类 \(c\) 内的个体数（可异质）。
\(\rho\)：聚类内相关系数（ICC）。
模型（数据生成机制）：
潜在结局：\(Y_i(\bar{a})\) 为个体 \(i\) 在聚类接受干预序列 \(\bar{a}\) 下的潜在结局。
因果假设：SUTVA（个体潜在结局只受本聚类干预影响）、一致性（观测结局等于实际干预下的潜在结局）、序贯可忽略性（每阶段聚类级随机化仅依赖历史状态，无未测混淆）、正值性（各阶段各处理分配概率有界）。
Q 函数结构：采用动态规划向后递归定义。第 \(K\) 阶段：\(Q_K(S_K, A_K) = E[Y | S_K, A_K]\)；第 \(j < K\) 阶段：\(Q_j(S_j, A_j) = E[\max_{a_{j+1}} Q_{j+1}(S_{j+1}, a_{j+1}) | S_j, A_j]\)。本文假设线性参数模型：\(Q_j(S_j, A_j) = \beta_j^T S_j + \psi_j^T (S_j \times A_j) + \gamma_j A_j\)。最优规则 \(d_j^{\text{opt}}(S_j) = I(\psi_j^T S_j + \gamma_j > 0)\)。
可观测数据：
对于 \(N\) 个聚类，观测到 \(\{ (S_{c1}, A_{c1}, R_{c1}, \dots, S_{cK}, A_{cK}, \{X_{ic}, Y_{ic}\}_{i=1}^{n_c}) \}_{c=1}^N\)。
不可观测：反事实结局 \(Y_i(\bar{a}')\) 对 \(\bar{a}' \neq \bar{A}_c\)；只能靠序贯可忽略性与 Q 函数模型去识别与逼近。

第二步：最小内核——两阶段、二值处理、单调节变量的非正则推断

剥掉多阶段、多变量、异质聚类大小的外壳，最小内核是 \(K=2\)，\(A_j \in \{0,1\}\)，单调节变量 \(O_j\) 下的 Q-learning 估计与边界推断。

Q 函数设定：
\(Q_2(O_2, A_2) = \beta_{20} + \beta_{21} O_2 + \psi_2 A_2 + \psi_{22} O_2 A_2\)。
\(Q_1(O_1, A_1) = \beta_{10} + \beta_{11} O_1 + \psi_1 A_1 + \psi_{11} O_1 A_1 + E[\max_{a_2} Q_2(O_2, a_2) | O_1, A_1]\)。
估计步骤：
Stage 2：用数据拟合 \(Q_2\)，得 \(\hat{\psi}_2\)。
Stage 1：构造伪结局 \(\hat{V}_1 = \max_{a_2} \hat{Q}_2(O_2, a_2) = \hat{Q}_2(O_2, I(\hat{\psi}_2 + \hat{\psi}_{22} O_2 > 0))\)，用数据拟合 \(Q_1\) 以 \(\hat{V}_1\) 为响应，得 \(\hat{\psi}_1\)。
非正则性卡在哪：
假设真实 \(\psi_2 + \psi_{22} O_2 = 0\)（即 Stage 2 处理无调节效应，最优规则不依赖 \(O_2\)）。此时，伪结局 \(\hat{V}_1\) 的构造涉及 \(\max(\hat{Q}_2(O_2, 1), \hat{Q}_2(O_2, 0))\)，在真实模型下两个值相等，\(\max\) 函数在零点处不可微。
这导致 \(\hat{\psi}_1\) 的渐近分布不再是标准正态，而是受 \(\max\) 函数在边界处局部行为驱动的非标准分布（局部参数空间收缩率异于常规）。
标准 N-out-of-N bootstrap 失效：重抽样 \(N\) 个聚类时，局部参数的扰动尺度与原样本相同，无法逼近边界处的非光滑分布，导致 bootstrap 分布不一致。
本文破局点（M-out-of-N cluster bootstrap）：
从 \(N\) 个聚类中抽取 \(m\) 个聚类（\(m/N \to 0, m \to \infty\)），在重抽样样本上跑 Q-learning 得 \(\hat{\psi}_1^*\)。
为什么有效：重抽样样本量 \(m\) 小于原样本量 \(N\)，使得局部参数在重抽样世界中的扰动尺度相对变大，"跨过"了 \(\max\) 函数在零点处的不可微尖角，使得 bootstrap 分布能够一致逼近原估计量的非标准渐近分布。
聚类结构的保护：整簇抽取保留了 ICC 结构，避免个体级重抽样破坏聚类内相关导致的方差错估。

三、这篇论文做了什么¶

三句话： ① 研究了在聚类自适应干预（cAI）中，如何利用 cSMART 数据推断候选调节变量是否具有因果调节效应（即是否应进入最优决策规则）。 ② 核心方法是聚类级 Q-learning 配合 M-out-of-N cluster bootstrap。 ③ 主要结论是：在非正则性（真实调节效应为零）与聚类内相关共存时，该方法能构造出具有近名义覆盖率的置信区间，而标准 bootstrap 失效。

关键设定与假设： - 设定：聚类级序贯随机化（cSMART），个体级结局，聚类级协变量与处理。 - 因果假设：A1. SUTVA（无跨聚类干扰）；A2. 一致性；A3. 序贯可忽略性（Stable Unit Treatment Value Assumption, Consistency, Sequential Ignorability at cluster level）；A4. 正值性。这些是标准 DTR 因果假设向聚类设定的平移，未做放宽。 - 模型假设：Q 函数采用线性参数形式（含处理-协变量交互项 \(\psi_j\)）。这是非正则推断产生的直接土壤——若 Q 函数完全非参数，非正则性的表现形式会不同。 - 非正则性条件：真实最优决策规则不依赖某阶段调节变量，即 \(\psi_j + \psi_{jj} O_j = 0\) 对所有 \(O_j\) 成立（参数落在边界）。 - M-out-of-N 条件：重抽样聚类数 \(m\) 满足 \(m/N \to 0\) 且 \(m \to \infty\)（渐近框架）；有限样本下采用 Bickel & Sakov (2008) 的自适应选择规则或固定比例（如 \(m = N^{0.8}\)）。

主要结果： - 定理 1（Q-learning 估计一致性）：在聚类设定下，向后递归拟合线性 Q 函数得到的 \(\hat{\psi}\) 在正则与非正则条件下均具有一致性（收敛率在非正则点处可能慢于 \(\sqrt{N}\) 或分布非标准）。 - 定理 2（M-out-of-N cluster bootstrap 一致性，核心定理）：在非正则性存在时，若 \(m\) 满足渐近条件，基于整簇重抽样的 M-out-of-N bootstrap 分布一致逼近 \(\hat{\psi}\) 的真实非标准渐近分布。由此构造的百分位数置信区间具有近名义覆盖率。 - 直觉：\(m\) 较小使得重抽样世界中的“局部参数扰动”相对放大，平滑了 \(\max\) 函数在边界处的非光滑行为，恢复了 bootstrap 分布的一致性。 - 必要条件：\(m/N \to 0\)（保证扰动放大），\(m \to \infty\)（保证重抽样样本自身渐近成立），ICC 结构通过整簇抽取保留。 - 解决的技术难点：标准 bootstrap 在非正则点的失效（不一致性），以及聚类结构下个体级重抽样导致的方差错估。

证明路线与技术技巧： - 整体路线： 1. 建立 Q-learning 估计量 \(\hat{\psi}\) 的渐近展开，识别出非正则点处 \(\max\) 运算导致的非光滑映射。 2. 证明标准 N-out-of-N bootstrap 在局部参数空间收缩过快时，无法逼近该非光滑映射的分布（失效）。 3. 引入 M-out-of-N cluster bootstrap，证明在 \(m\) 的渐近条件下，重抽样估计量 \(\hat{\psi}^*_m\) 的局部扰动尺度与原估计量 \(\hat{\psi}\) 的渐近分布匹配。 4. 利用经验过程理论，证明 bootstrap 分布的弱收敛。 - 关键跳跃点： - 引理（局部渐近展开的尺度匹配）：最吃功夫的是证明 \(\sqrt{m}(\hat{\psi}^*_m - \hat{\psi})\) 的分布与 \(\sqrt{N}(\hat{\psi} - \psi_0)\) 的非标准分布同构。这要求 \(m\) 的选取既不能太大（退化为标准 bootstrap 失效），也不能太小（重抽样分布自身不收敛）。 - 技术技巧点名： - M-out-of-N bootstrap 理论（Bickel & Sakov 2008, Shao 1994）：用于处理非正则估计量的重抽样推断，核心是调整重抽样比例以修复局部逼近。 - 经验过程 / Empirical Process：用于控制 Q-learning 涉及的 \(\max\) 函数类与聚类级经验测度的收敛，处理非光滑泛函的渐近行为。 - 整簇重抽样：技术上是将聚类视为独立同分布的超个体，保留聚类内数据结构，避免破坏 ICC 导致的方差低估。

真实例子与应用： - 数据 / 场景：ADEPT 数据集（Kilbourne et al., 2014）。80 个社区门诊诊所（聚类），1600 名情绪障碍患者（个体）。目标：构建诊所级 cAI 以改进循证实践（EBP）的使用。 - 怎么用上去： - Stage 1：所有诊所接受 REP（低强度干预），根据响应 \(R_1\)（6 个月后 EBP 使用率 <50%）重随机化。 - Stage 2：无响应诊所随机分配至 REP+EF（外部促进）或 REP+EF+IF（外部+内部促进）。 - 响应变量：患者级 SF-12 精神健康得分（\(Y_i\)）。 - 调节变量：诊所级基线特征（如组织准备度、既往 EBP 使用）。 - 用聚类 Q-learning 估计 \(\psi_1, \psi_2\)（调节效应参数），用 M-out-of-N cluster bootstrap 构造 CI。 - 得到什么结果：某些诊所级调节变量的 CI 包含 0（非正则场景），表明在当前数据下这些变量可能不需要进入最优决策规则；另一些 CI 不包含 0，确认了其调节作用。Bootstrap CI 的宽度反映了非正则性下的推断不确定性。 - 想说明什么：展示方法在真实中等规模聚类（\(N=80\)）与异质聚类大小下的可行性，验证 CI 在非正则点处的覆盖率（通过模拟补充验证）。

🔎 结论是否比证明窄： - 作者在渐近框架下严格证明了 \(m/N \to 0, m \to \infty\) 时 bootstrap 一致性。但在有限样本（如 \(N=80\)）下，\(m\) 的选取（自适应规则或 \(N^{0.8}\)）是启发式的，定理并未给出有限样本下覆盖率的精确界。作者泛泛 claim 了“near-nominal coverage”，但严格证明只覆盖了渐近极限，有限样本覆盖率依赖模拟验证而非理论保证。

四、开放问题（点到为止）¶

M-out-of-N 的效率损失与半参数局部逼近：M-out-of-N 因重抽样量 \(m < N\) 导致 CI 宽度膨胀（效率损失）。能否在非正则点处用 HOIF 或 one-step correction 构造局部渐近更优的估计量，避免 bootstrap 宽度膨胀？（扎根点：定理 2 的 CI 宽度随 \(m\) 减小而增大，与半参数有效界的差距未讨论）。
非正则性与聚类混淆的交织：本文假设 cSMART（序贯可忽略性）。在观察性聚类多阶段数据中，处理分配受混淆影响，倾向得分估计的误差与非正则性如何叠加？M-out-of-N 是否仍一致？（扎根点：引言末尾 "observational multi-stage studies with clustering... might be necessary"）。
\(m\) 的最优选取：渐近条件 \(m/N \to 0\) 过宽，有限样本下 \(m\) 的选取（Bickel & Sakov 规则 vs 固定比例）对覆盖率与宽度的 trade-off 缺乏 minimax 视角的理论刻画。（扎根点：模拟部分展示了 \(m\) 选取对覆盖率的影响，但无理论优化准则）。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Q -Learning with clustered-SMART (cSMART) data: examining moderators in the construction of clustered adaptive interventions¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论