Q -Learning with clustered-SMART (cSMART) data: examining moderators in the construction of clustered adaptive interventions¶
作者: Yao Song, Kelly Speth, Amy Kilbourne, Andrew Quanbeck, Daniel Almirall et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在聚类自适应干预(clustered Adaptive Intervention, cAI)——即以群组(如诊所、学校)为单位、按时间序列逐步调整干预策略——的构建中,如何利用聚类序贯多重分配随机试验(clustered SMART, cSMART)的数据,推断候选调节变量(tailoring/moderator variables,即用来决定下一步给哪种干预的特征)是否真正具有因果调节效应,并在推断遭遇非正则性(non-regularity,参数落在边界或最优决策规则不唯一导致标准渐近理论失效)与聚类内相关(intra-cluster correlation, ICC)的双重阻碍时,仍能给出具有近名义覆盖率的置信区间。当前成熟度:个体级 SMART 与 Q-learning 的非正则推断已有十余年积累(阈值估计、自适应置信区间、m-out-of-n bootstrap),但向聚类级设定迁移并同时处理 ICC 与非正则性的理论与方法,刚由本文首次系统闭合。
发展脉络: - 奠基工作:Robins (2004) 与 Hernán & Robins (2010) 建立了动态干预的因果推断框架与核心假设(序贯可忽略性等);Murphy (2005) 与 Nahum-Shani et al. (2012) 将 SMART 设计与 Q-learning 引入个体级自适应干预的估计,留下了“多阶段决策规则下参数推断可能遭遇非正则性”的口子。 - 主要进展(非正则性推断):Chakraborty et al. (2010) 与 Moodie & Richardson (2010) 提出阈值估计软化非正则点;Laber & Murphy (2011) 与 Laber et al. (2014) 发展了自适应置信区间,通过构造光滑的数据依赖上下界绕开非光滑的 max 运算。这些工作均在个体级设定下完成,未触及聚类结构。 - 主要进展(聚类 SMART 设计与初级推断):NeCamp et al. (2017) 提出边际均值模型与 IPW 估计,用于比较聚类级干预路径的均值;Pan et al. (2024) 发展了有限样本修正(FSA)方法以改善小样本聚类下边际均值比较的标准误估计。这些工作聚焦“均值比较”,留下了“因果效应调节推断(Q-learning 参数推断)在聚类设定下如何做”的口子。 - 当前 frontier / 本文位置:本文将 Q-learning 推广至聚类级设定,并在非正则性存在时,引入 M-out-of-N cluster bootstrap(从 \(N\) 个聚类中重抽样 \(m\) 个,\(m/N \to 0, m \to \infty\)),首次在 cSMART 数据下为调节效应参数提供近名义覆盖率的置信区间,闭合了上述两条线索交汇处的空白。
子线索聚类: 1. cSMART 设计与边际均值推断:Kilbourne et al. (2014, ADEPT 试验), Kilbourne et al. (2018, ASIC 试验), Quanbeck et al. (2020, BOI 试验) 提供了现实 cSMART 数据与设计范例;NeCamp et al. (2017) 与 Pan et al. (2024) 解决了这些数据下嵌入干预路径均值的 IPW/FSA 估计与标准误修正。这一簇在做“如何用 cSMART 数据比较不同 cAI 路径的平均效果”。 2. 个体级 DTR 的 Q-learning 与非正则推断:Clifton & Laber (2020) 综述 Q-learning 理论;Chakraborty et al. (2010) 与 Laber et al. (2014) 解决个体级 Q-learning 参数在非正则条件下的置信区间构造。这一簇在做“如何推断个体级决策规则中的调节效应,尤其是当效应为零(边界)时”。 3. 聚类级因果推断与 ICC 调整:Raudenbush & Schwartz (2020) 讨论教育场景下聚类随机试验的因果推断;本文处理的核心统计难点之一即 ICC 对 bootstrap 渐近行为的影响。
这个方向在追问的核心问题: 1. 识别与估计:在聚类级多阶段干预中,候选调节变量是否具有因果调节效应(即是否应被纳入最优 cAI 的决策规则)?如何用 Q-learning 估计这些调节参数? 2. 非正则推断:当真实调节效应为零(最优规则不依赖该变量)时,参数落在边界,Q-learning 估计量的渐近分布非标准(非光滑函数映射),标准 bootstrap 失效,如何构造有效置信区间? 3. 聚类结构冲击:聚类内相关(ICC)与有限聚类数(\(N\) 较小)如何加剧非正则推断的困难?如何在重抽样中保持聚类结构以获得正确的渐近分布?
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“现有 cSMART 分析只关注边际均值比较,而未触及因果效应调节推断;现有非正则推断方法只针对个体级数据,未考虑聚类结构”。这使得“聚类 Q-learning + M-out-of-N cluster bootstrap”成为“显然的下一步”。 - 被淡化的竞争路线:作者在引言中提及了阈值估计与自适应置信区间,但将其定位为“个体级解决方案”,未在聚类设定下与 M-out-of-N bootstrap 进行理论效率或有限样本表现的直接对比。此外,半参数有效估计(如 one-step correction / HOIF)在非正则点处的局部逼近潜力,未被提及。 - 缺失的引用:在非正则推断文献中,个体级 m-out-of-n bootstrap 的经典工作(如 Chakraborty et al. 2013 在个体 DTR 中使用 m-out-of-n)未被引言重点定位为直接前驱;半参数理论中处理边界/非正则估计的局部渐近文献(如 Hirano & Porter 2009 关于 DTR 的局部渐近风险界)也未出现——这值得研究者去查:是作者刻意回避了效率视角,还是该子领域与半参数局部渐近理论尚未交汇?
张力: 未见明显对立引用。NeCamp/Pan 的边际均值路线与本文的 Q-learning 调节路线是互补的(一个看平均效果,一个看规则构建),而非矛盾。非正则推断内部的阈值法、ACI 法与 m-out-of-n 法在个体级已有比较(Chakraborty et al. 2010 模拟比较),本文将 m-out-of-n 推至聚类级,未与其他两法在聚类级对决,属于平行推进。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代
- 符号:
- \(K\):干预阶段数(决策点数)。
- \(j = 1, \dots, K\):阶段索引。
- \(A_j\):第 \(j\) 阶段聚类级干预(处理),通常为二值 \(\{0, 1\}\)。
- \(\bar{A}_j = (A_1, \dots, A_j)\):截至第 \(j\) 阶段的干预历史。
- \(O_j\):第 \(j\) 阶段观测到的聚类级协变量(候选调节变量包含于此)。
- \(R_j\):第 \(j\) 阶段观测到的聚类级中间响应(用于决定下一阶段重随机化)。
- \(S_j = (O_j, R_{j-1})\):第 \(j\) 阶段决策时可用的状态变量(tailoring 变量从中选取)。
- \(X_{ij}\):第 \(j\) 阶段聚类内第 \(i\) 个个体的协变量。
- \(Y_i\):研究结束时聚类内第 \(i\) 个个体的结局变量(primary outcome)。
- \(d_j\):第 \(j\) 阶段决策规则,映射 \(S_j \to A_j\)。
- \(\bar{d} = (d_1, \dots, d_K)\):一个完整的 cAI(聚类自适应干预)。
- \(\bar{d}^{\text{opt}}\):使期望结局 \(E[Y(\bar{d})]\) 最大化的最优 cAI。
- \(\psi_j\):第 \(j\) 阶段 Q 函数中干预 \(A_j\) 与状态 \(S_j\) 的交互项系数(因果效应调节参数,核心 estimand)。
- \(N\):聚类总数(样本量)。
- \(n_c\):聚类 \(c\) 内的个体数(可异质)。
-
\(\rho\):聚类内相关系数(ICC)。
-
模型(数据生成机制):
- 潜在结局:\(Y_i(\bar{a})\) 为个体 \(i\) 在聚类接受干预序列 \(\bar{a}\) 下的潜在结局。
- 因果假设:SUTVA(个体潜在结局只受本聚类干预影响)、一致性(观测结局等于实际干预下的潜在结局)、序贯可忽略性(每阶段聚类级随机化仅依赖历史状态,无未测混淆)、正值性(各阶段各处理分配概率有界)。
-
Q 函数结构:采用动态规划向后递归定义。第 \(K\) 阶段:\(Q_K(S_K, A_K) = E[Y | S_K, A_K]\);第 \(j < K\) 阶段:\(Q_j(S_j, A_j) = E[\max_{a_{j+1}} Q_{j+1}(S_{j+1}, a_{j+1}) | S_j, A_j]\)。本文假设线性参数模型:\(Q_j(S_j, A_j) = \beta_j^T S_j + \psi_j^T (S_j \times A_j) + \gamma_j A_j\)。最优规则 \(d_j^{\text{opt}}(S_j) = I(\psi_j^T S_j + \gamma_j > 0)\)。
-
可观测数据:
- 对于 \(N\) 个聚类,观测到 \(\{ (S_{c1}, A_{c1}, R_{c1}, \dots, S_{cK}, A_{cK}, \{X_{ic}, Y_{ic}\}_{i=1}^{n_c}) \}_{c=1}^N\)。
- 不可观测:反事实结局 \(Y_i(\bar{a}')\) 对 \(\bar{a}' \neq \bar{A}_c\);只能靠序贯可忽略性与 Q 函数模型去识别与逼近。
第二步:最小内核——两阶段、二值处理、单调节变量的非正则推断
剥掉多阶段、多变量、异质聚类大小的外壳,最小内核是 \(K=2\),\(A_j \in \{0,1\}\),单调节变量 \(O_j\) 下的 Q-learning 估计与边界推断。
- Q 函数设定:
- \(Q_2(O_2, A_2) = \beta_{20} + \beta_{21} O_2 + \psi_2 A_2 + \psi_{22} O_2 A_2\)。
- \(Q_1(O_1, A_1) = \beta_{10} + \beta_{11} O_1 + \psi_1 A_1 + \psi_{11} O_1 A_1 + E[\max_{a_2} Q_2(O_2, a_2) | O_1, A_1]\)。
- 估计步骤:
- Stage 2:用数据拟合 \(Q_2\),得 \(\hat{\psi}_2\)。
- Stage 1:构造伪结局 \(\hat{V}_1 = \max_{a_2} \hat{Q}_2(O_2, a_2) = \hat{Q}_2(O_2, I(\hat{\psi}_2 + \hat{\psi}_{22} O_2 > 0))\),用数据拟合 \(Q_1\) 以 \(\hat{V}_1\) 为响应,得 \(\hat{\psi}_1\)。
- 非正则性卡在哪:
- 假设真实 \(\psi_2 + \psi_{22} O_2 = 0\)(即 Stage 2 处理无调节效应,最优规则不依赖 \(O_2\))。此时,伪结局 \(\hat{V}_1\) 的构造涉及 \(\max(\hat{Q}_2(O_2, 1), \hat{Q}_2(O_2, 0))\),在真实模型下两个值相等,\(\max\) 函数在零点处不可微。
- 这导致 \(\hat{\psi}_1\) 的渐近分布不再是标准正态,而是受 \(\max\) 函数在边界处局部行为驱动的非标准分布(局部参数空间收缩率异于常规)。
- 标准 N-out-of-N bootstrap 失效:重抽样 \(N\) 个聚类时,局部参数的扰动尺度与原样本相同,无法逼近边界处的非光滑分布,导致 bootstrap 分布不一致。
- 本文破局点(M-out-of-N cluster bootstrap):
- 从 \(N\) 个聚类中抽取 \(m\) 个聚类(\(m/N \to 0, m \to \infty\)),在重抽样样本上跑 Q-learning 得 \(\hat{\psi}_1^*\)。
- 为什么有效:重抽样样本量 \(m\) 小于原样本量 \(N\),使得局部参数在重抽样世界中的扰动尺度相对变大,"跨过"了 \(\max\) 函数在零点处的不可微尖角,使得 bootstrap 分布能够一致逼近原估计量的非标准渐近分布。
- 聚类结构的保护:整簇抽取保留了 ICC 结构,避免个体级重抽样破坏聚类内相关导致的方差错估。
三、这篇论文做了什么¶
三句话: ① 研究了在聚类自适应干预(cAI)中,如何利用 cSMART 数据推断候选调节变量是否具有因果调节效应(即是否应进入最优决策规则)。 ② 核心方法是聚类级 Q-learning 配合 M-out-of-N cluster bootstrap。 ③ 主要结论是:在非正则性(真实调节效应为零)与聚类内相关共存时,该方法能构造出具有近名义覆盖率的置信区间,而标准 bootstrap 失效。
关键设定与假设: - 设定:聚类级序贯随机化(cSMART),个体级结局,聚类级协变量与处理。 - 因果假设:A1. SUTVA(无跨聚类干扰);A2. 一致性;A3. 序贯可忽略性(Stable Unit Treatment Value Assumption, Consistency, Sequential Ignorability at cluster level);A4. 正值性。这些是标准 DTR 因果假设向聚类设定的平移,未做放宽。 - 模型假设:Q 函数采用线性参数形式(含处理-协变量交互项 \(\psi_j\))。这是非正则推断产生的直接土壤——若 Q 函数完全非参数,非正则性的表现形式会不同。 - 非正则性条件:真实最优决策规则不依赖某阶段调节变量,即 \(\psi_j + \psi_{jj} O_j = 0\) 对所有 \(O_j\) 成立(参数落在边界)。 - M-out-of-N 条件:重抽样聚类数 \(m\) 满足 \(m/N \to 0\) 且 \(m \to \infty\)(渐近框架);有限样本下采用 Bickel & Sakov (2008) 的自适应选择规则或固定比例(如 \(m = N^{0.8}\))。
主要结果: - 定理 1(Q-learning 估计一致性):在聚类设定下,向后递归拟合线性 Q 函数得到的 \(\hat{\psi}\) 在正则与非正则条件下均具有一致性(收敛率在非正则点处可能慢于 \(\sqrt{N}\) 或分布非标准)。 - 定理 2(M-out-of-N cluster bootstrap 一致性,核心定理):在非正则性存在时,若 \(m\) 满足渐近条件,基于整簇重抽样的 M-out-of-N bootstrap 分布一致逼近 \(\hat{\psi}\) 的真实非标准渐近分布。由此构造的百分位数置信区间具有近名义覆盖率。 - 直觉:\(m\) 较小使得重抽样世界中的“局部参数扰动”相对放大,平滑了 \(\max\) 函数在边界处的非光滑行为,恢复了 bootstrap 分布的一致性。 - 必要条件:\(m/N \to 0\)(保证扰动放大),\(m \to \infty\)(保证重抽样样本自身渐近成立),ICC 结构通过整簇抽取保留。 - 解决的技术难点:标准 bootstrap 在非正则点的失效(不一致性),以及聚类结构下个体级重抽样导致的方差错估。
证明路线与技术技巧: - 整体路线: 1. 建立 Q-learning 估计量 \(\hat{\psi}\) 的渐近展开,识别出非正则点处 \(\max\) 运算导致的非光滑映射。 2. 证明标准 N-out-of-N bootstrap 在局部参数空间收缩过快时,无法逼近该非光滑映射的分布(失效)。 3. 引入 M-out-of-N cluster bootstrap,证明在 \(m\) 的渐近条件下,重抽样估计量 \(\hat{\psi}^*_m\) 的局部扰动尺度与原估计量 \(\hat{\psi}\) 的渐近分布匹配。 4. 利用经验过程理论,证明 bootstrap 分布的弱收敛。 - 关键跳跃点: - 引理(局部渐近展开的尺度匹配):最吃功夫的是证明 \(\sqrt{m}(\hat{\psi}^*_m - \hat{\psi})\) 的分布与 \(\sqrt{N}(\hat{\psi} - \psi_0)\) 的非标准分布同构。这要求 \(m\) 的选取既不能太大(退化为标准 bootstrap 失效),也不能太小(重抽样分布自身不收敛)。 - 技术技巧点名: - M-out-of-N bootstrap 理论(Bickel & Sakov 2008, Shao 1994):用于处理非正则估计量的重抽样推断,核心是调整重抽样比例以修复局部逼近。 - 经验过程 / Empirical Process:用于控制 Q-learning 涉及的 \(\max\) 函数类与聚类级经验测度的收敛,处理非光滑泛函的渐近行为。 - 整簇重抽样:技术上是将聚类视为独立同分布的超个体,保留聚类内数据结构,避免破坏 ICC 导致的方差低估。
真实例子与应用: - 数据 / 场景:ADEPT 数据集(Kilbourne et al., 2014)。80 个社区门诊诊所(聚类),1600 名情绪障碍患者(个体)。目标:构建诊所级 cAI 以改进循证实践(EBP)的使用。 - 怎么用上去: - Stage 1:所有诊所接受 REP(低强度干预),根据响应 \(R_1\)(6 个月后 EBP 使用率 <50%)重随机化。 - Stage 2:无响应诊所随机分配至 REP+EF(外部促进)或 REP+EF+IF(外部+内部促进)。 - 响应变量:患者级 SF-12 精神健康得分(\(Y_i\))。 - 调节变量:诊所级基线特征(如组织准备度、既往 EBP 使用)。 - 用聚类 Q-learning 估计 \(\psi_1, \psi_2\)(调节效应参数),用 M-out-of-N cluster bootstrap 构造 CI。 - 得到什么结果:某些诊所级调节变量的 CI 包含 0(非正则场景),表明在当前数据下这些变量可能不需要进入最优决策规则;另一些 CI 不包含 0,确认了其调节作用。Bootstrap CI 的宽度反映了非正则性下的推断不确定性。 - 想说明什么:展示方法在真实中等规模聚类(\(N=80\))与异质聚类大小下的可行性,验证 CI 在非正则点处的覆盖率(通过模拟补充验证)。
🔎 结论是否比证明窄: - 作者在渐近框架下严格证明了 \(m/N \to 0, m \to \infty\) 时 bootstrap 一致性。但在有限样本(如 \(N=80\))下,\(m\) 的选取(自适应规则或 \(N^{0.8}\))是启发式的,定理并未给出有限样本下覆盖率的精确界。作者泛泛 claim 了“near-nominal coverage”,但严格证明只覆盖了渐近极限,有限样本覆盖率依赖模拟验证而非理论保证。
四、开放问题(点到为止)¶
- M-out-of-N 的效率损失与半参数局部逼近:M-out-of-N 因重抽样量 \(m < N\) 导致 CI 宽度膨胀(效率损失)。能否在非正则点处用 HOIF 或 one-step correction 构造局部渐近更优的估计量,避免 bootstrap 宽度膨胀?(扎根点:定理 2 的 CI 宽度随 \(m\) 减小而增大,与半参数有效界的差距未讨论)。
- 非正则性与聚类混淆的交织:本文假设 cSMART(序贯可忽略性)。在观察性聚类多阶段数据中,处理分配受混淆影响,倾向得分估计的误差与非正则性如何叠加?M-out-of-N 是否仍一致?(扎根点:引言末尾 "observational multi-stage studies with clustering... might be necessary")。
- \(m\) 的最优选取:渐近条件 \(m/N \to 0\) 过宽,有限样本下 \(m\) 的选取(Bickel & Sakov 规则 vs 固定比例)对覆盖率与宽度的 trade-off 缺乏 minimax 视角的理论刻画。(扎根点:模拟部分展示了 \(m\) 选取对覆盖率的影响,但无理论优化准则)。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub