Modeling time-varying effects of mobile health interventions using longitudinal functional data from HeartSteps micro-randomized trial¶
作者: Jiaxin Yu, Tianchen Qian
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向致力于在微观随机化试验框架下,对移动健康等时变干预的因果游走效应进行识别与估计。其根本统计问题是:当个体在数百乃至数千个决策点被持续、随机地分配干预,且结局是纵向重复测量时,如何定义并稳健估计干预效应随时间、上下文变量的异质性变化。当前该方向已从早期的标量结局、常数效应设定,走向纵向功能型结局与变系数半参数模型,成熟度处于"有标准实验设计与基础估计器,但复杂结局与高维误设鲁棒性理论刚起步"的阶段。
发展脉络: 1. 奠基工作(MRT设计与标量效应估计):Dempsey et al. (2015) 与 Klasnja et al. (2015/2018) 提出MRT实验设计并落地HeartSteps实证,用标量结局(30分钟步数)评估干预是否有效。Boruvka et al. (2018) 首次为MRT给出基于潜在结果的因果游走效应定义与加权中心化最小二乘(WCLS)估计器,成为后续分析的基石。 2. 主要进展(异质性与不同结局类型):Qian et al. (2021) 系统综述MRT设计与WCLS;Qian et al. (2019) 将CEE推广到二值结局;Shi et al. (2022) 处理了群组异质性与干扰;Yu et al. (2023) 处理了零膨胀结局的结构嵌套均值模型。这些工作仍局限于"每个决策点结局是标量"。 3. 当前 frontier(功能型结局与变系数):本文指出"Existing methods for assessing CEE are all designed for longitudinal outcomes that are scalar at each time point",填补了功能型结局(如连续时间步数曲线)的空白。同时,变系数模型(Hastie & Tibshirani 1993; Tan et al. 2012)被引入以刻画效应的时变异质性。 4. 本文的位置:首个在MRT中处理纵向功能结局的变系数半参数CEE模型,并提出对高维结局回归误设鲁棒的两阶段估计器。
子线索聚类: - 线索1:MRT实验设计与因果游走效应定义(Boruvka 2018; Qian 2021; Dempsey 2015; Klasnja 2018):确立随机化机制、可用性、潜在结果与CEE定义,提供WCLS估计框架。 - 线索2:结局类型扩展(Qian 2019二值; Yu 2023零膨胀; Shi 2022群组干扰):将标量CEE推广到不同数据形态,但均未触及功能型结局的双时间索引结构。 - 线索3:异质性因果效应的半参数/非参数估计(Kennedy 2020 DR-CATE; Wager & Athey 2018因果森林; Robins et al. 2008 HOIF; Colangelo & Lee 2020连续处理DML):提供双鲁棒/正交化估计的一般理论,本文的两阶段估计器借鉴了此线索中的鲁棒性思想。 - 线索4:变系数与功能型数据建模(Tan et al. 2011 TVEM; He & Shi 1996张量积B样条):提供刻画时变效应的统计模型工具。
这个方向在追问的核心问题: 1. 如何在数百个决策点与复杂时变混淆下,定义一个可识别、有科学意义的因果效应参数?——当前主流是CEE,瓶颈在于如何处理功能型结局的双时间索引。 2. 如何在 nuisance 模型(倾向得分、结局回归)可能误设时,仍保持估计的一致性与渐近正态?——当前主流是WCLS/DR估计,瓶颈在于高维结局回归误设下的鲁棒性(本文声称部分解决)。 3. 如何刻画效应随时间与上下文的连续异质性?——当前主流是低维交互或分层,瓶颈在于变系数半参数模型在MRT设定下的渐近理论。
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为"现有CEE方法只处理标量结局,无法应对功能型结局的双时间索引结构",并声称自己的两阶段估计器对"high-dimensional outcome regression nuisance model misspecification"具有鲁棒性。 - 淡化的竞争路线:作者未深入讨论完全非参数方法(如Kennedy 2020的局部多项式DR-CATE或因果森林)在功能型结局上的直接推广,而是选择了变系数半参数模型这条更受限但更易做渐近理论的路线。此外,对于零膨胀等特殊数据结构(Yu 2023),本文也未触及。 - 缺失的引用:在处理功能型/纵向结局的因果推断领域,存在大量关于纵向因果效应与功能型数据推断的工作(如功能型线性模型、纵向边际结构模型的渐近理论),这些在intro中未出现。值得研究者去查:功能型因果推断的现有文献是否已处理过双时间索引结构?本文的变系数模型是否只是其特例?
张力: 未见明显对立引用。各工作均在CEE框架下向不同数据类型扩展,逻辑一致。但存在一个隐含张力:Boruvka 2018的WCLS依赖倾向得分与结局回归的双鲁棒性,而本文声称对结局回归误设鲁棒——这两者的鲁棒性条件是否完全兼容?本文的"鲁棒性"是否以更强的倾向得分模型假设为代价?需在技术节细查。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 决策点索引:\(j \in \{1, \dots, J\}\),表示第 \(j\) 个决策点(如每天5次推送机会,共42天,\(J=210\))。
- 决策点内时间索引:\(t \in [0, \Delta]\),表示决策点 \(j\) 之后的时间段(如推送后30分钟内的连续时间,\(\Delta=30\) 分钟)。
- 双时间索引:\((j, t)\),联合定位一个观测时刻。
- 个体索引:\(i \in \{1, \dots, n\}\)。
- 处理变量:\(A_{ij} \in \{0, 1\}\),个体 \(i\) 在决策点 \(j\) 是否收到推送(随机化分配)。
- 纵向功能结局:\(Y_{ij}(t)\),个体 \(i\) 在决策点 \(j\) 后时刻 \(t\) 的步数(连续时间函数,如 \(t \in [0, 30]\) 分钟的步数曲线)。这是本文新引入的核心数据形态。
- 上下文变量:\(S_{ij}\),决策点 \(j\) 前可观测的时变协变量(如是否久坐、是否工作日)。
- 历史信息:\(H_{ij}\),决策点 \(j\) 前的全部可观测历史(包含过去的处理、结局、协变量)。
- 可用性:\(I_{ij} \in \{0, 1\}\),个体 \(i\) 在决策点 \(j\) 是否可用(如正在开车则 \(I_{ij}=0\),此时不推送)。
- 随机化概率:\(p_{ij} = P(A_{ij}=1 \mid H_{ij}, I_{ij}=1)\),已知且可控(MRT设计保证)。
- 潜在结局:\(Y_{ij}(t, a_{1:j})\),在处理路径 \(a_{1:j} = (a_{i1}, \dots, a_{ij})\) 下,决策点 \(j\) 后时刻 \(t\) 的步数。不可观测,只能靠假设识别。
- 可观测数据:对每个个体 \(i\),观测到 \(\{(H_{ij}, I_{ij}, A_{ij}, Y_{ij}(t) \text{ for } t \in [0, \Delta])\}_{j=1}^J\)。其中 \(Y_{ij}(t)\) 是连续时间曲线(功能型数据),而非单一标量。
第二步:最小内核——最简特例(单一上下文变量 + 线性变系数)
剥掉高维、非线性、张量积样条等一般性设定,支撑本文的最小内核是:在双时间索引 \((j, t)\) 下,用变系数模型刻画CEE,并通过两阶段估计绕过结局回归的误设。
在最简特例下,假设: - 上下文变量 \(S_{ij}\) 是一维(如是否久坐,0/1)。 - 变系数模型是线性的:因果游走效应 \(\beta(j, t, S_{ij}) = \beta_0(j, t) + \beta_1(j, t) S_{ij}\)。 - 结局回归 nuisance 模型 \(\eta(j, t, H_{ij}) = E[Y_{ij}(t) \mid H_{ij}, A_{ij}=0, I_{ij}=1]\) 被误设(如用了线性模型,但真实是非线性)。
要证的命题退化成: 即使 \(\eta(j, t, H_{ij})\) 误设,两阶段估计器 \(\hat{\beta}_0(j, t), \hat{\beta}_1(j, t)\) 仍是一致且渐近正态的(\(n^{-1/2}\)-CAN)。
证明怎么走(最小内核版): 1. Stage 1:用任意(可能误设的)模型估计 \(\hat{\eta}(j, t, H_{ij})\),计算残差 \(R_{ij}(t) = Y_{ij}(t) - \hat{\eta}(j, t, H_{ij})\)。 2. Stage 2:用加权最小二乘,以 \(\tilde{p}_{ij}(S_{ij}) / p_{ij}\) 为权重,拟合残差 \(R_{ij}(t)\) 对 \((A_{ij} - p_{ij})\) 及其与 \(S_{ij}\) 交互项的回归,估计 \(\beta_0(j, t), \beta_1(j, t)\)。 3. 为什么成立:关键在于残差 \(R_{ij}(t)\) 的展开。当 \(\eta\) 误设时,残差包含一个偏差项 \(\delta(j, t, H_{ij}) = \eta_{\text{true}} - \eta_{\text{mis}}\)。但由于MRT的随机化,\(A_{ij}\) 与 \(H_{ij}\) 独立(给定 \(I_{ij}=1\)),且 \(E[A_{ij} - p_{ij} \mid H_{ij}] = 0\)。因此,在Stage 2的加权回归中,偏差项 \(\delta(j, t, H_{ij})\) 与 \((A_{ij} - p_{ij})\) 的内积在期望下为0,从而被正交化消除。这就是"对结局回归误设鲁棒"的最小内核数学实质——利用随机化带来的处理与历史的独立性,实现类似部分双鲁棒/正交化的效果。
三、这篇论文做了什么¶
三句话: ① 研究了MRT中推送干预对纵向功能型步数曲线的时变因果游走效应如何估计。 ② 核心工具是带双时间索引的变系数半参数CEE模型与两阶段估计器。 ③ 主要结论是两阶段估计器在高维结局回归误设下仍保持 \(n^{-1/2}\)-CAN,且实证揭示了推送对响应时序(步数曲线形状)的异质效应。
关键设定与假设: - 双时间索引结构:\((j, t)\),\(j\) 为决策点间(between-decision-point),\(t\) 为决策点内。这是本文区别于所有前作的核心设定。 - 变系数半参数CEE模型:
主要结果: - 定理1(两阶段估计器的渐近理论):在结局回归 nuisance 模型 \(\eta(j, t, H_{ij})\) 可能误设的条件下,两阶段估计器 \(\hat{\beta}_k(j, t)\) 是 \(n^{-1/2}\)-CAN(一致且渐近正态),收敛速率为 \(n^{-1/2}\),且可用 sandwich 公式估计方差。 - 直觉:Stage 1 的残差偏差被 Stage 2 的加权回归正交化消除,依赖随机化带来的 \(A_{ij}\) 与 \(H_{ij}\) 独立性。 - 必要条件:倾向得分正确设定;\(\tilde{p}_{ij}(S_{ij})\) 只依赖 \(S_{ij}\) 且在 \((0,1)\) 内;样条基函数的节点数随 \(n\) 增长但受控(保证逼近误差可控)。 - 解决的技术难点:功能型结局 \(Y_{ij}(t)\) 带来的双时间索引 \((j, t)\) 使得 nuisance 模型 \(\eta(j, t, H_{ij})\) 是一个关于 \((j, t, H_{ij})\) 的函数,误设风险极高;本文通过两阶段正交化绕过了这个高维误设问题。 - 定理2(若结局回归正确设定下的效率):若 \(\eta(j, t, H_{ij})\) 正确设定,两阶段估计器达到半参数有效界(局部有效)。 - 直觉:此时残差无偏差,Stage 2 的加权回归等价于已知 nuisance 的有效估计。
证明路线与技术技巧: - 整体路线: 1. 定义变系数半参数CEE模型,将 \(\beta_k(j, t)\) 用张量积B样条基展开,转化为有限维参数估计问题。 2. Stage 1:估计 nuisance \(\hat{\eta}(j, t, H_{ij})\)(允许误设),计算残差 \(R_{ij}(t) = Y_{ij}(t) - \hat{\eta}(j, t, H_{ij})\)。 3. Stage 2:构造加权最小二乘目标函数,以 \(\tilde{p}_{ij}(S_{ij}) / p_{ij}\) 为权重,拟合残差对处理偏离 \((A_{ij} - p_{ij})\) 及其与 \(S_{ij}\) 基函数交互项的回归,估计样条系数。 4. 渐近理论:将估计器分解为线性主项与余项,证明余项在 nuisance 误设下仍为 \(o_p(n^{-1/2})\),从而保证 \(n^{-1/2}\)-CAN。 - 关键跳跃点: - 引理:残差偏差的正交化消除。当 \(\eta\) 误设时,残差 \(R_{ij}(t) = Y_{ij}(t) - \hat{\eta}_{\text{mis}}\) 包含偏差 \(\delta(j, t, H_{ij})\)。需证 \(E\left[ \frac{\tilde{p}_{ij}(S_{ij})}{p_{ij}} (A_{ij} - p_{ij}) \delta(j, t, H_{ij}) \right] = 0\)。这依赖 \(A_{ij} \perp H_{ij} \mid I_{ij}=1\)(随机化)与 \(\tilde{p}_{ij}(S_{ij})\) 只依赖 \(S_{ij}\)(不引入额外历史依赖)。这是全文最吃功夫的跳跃,也是"鲁棒性"的数学核心。 - 样条逼近误差的控制:\(\beta_k(j, t)\) 用有限节点样条逼近,需证逼近误差(偏差)与估计方差之间的平衡,使得总体误差仍为 \(o_p(n^{-1/2})\)。 - 技术技巧点名: - 张量积B样条:用于逼近双时间索引 \((j, t)\) 上的变系数函数 \(\beta_k(j, t)\),将无限维函数估计转化为有限维参数估计(He & Shi 1996 的思路)。 - 加权中心化最小二乘(WCLS的推广):权重 \(\tilde{p}_{ij}(S_{ij}) / p_{ij}\) 与中心化处理 \((A_{ij} - p_{ij})\) 的组合,是Boruvka 2018 WCLS的变系数推广,用于构造正交化矩条件。 - 经验过程理论:用于控制 Stage 1 估计 \(\hat{\eta}\) 带来的余项(即使误设,只要 \(\hat{\eta}\) 在某函数类内收敛速率足够快,余项仍可控)。本文可能只要求 \(\hat{\eta}\) 的收敛速率为 \(o_p(1)\)(不要求 \(n^{-1/4}\)),因为正交化消除了偏差的一阶影响。 - Sandwich方差估计:用于在 nuisance 误设下仍给出一致的方差估计,类似部分鲁棒推断。
真实例子与应用: - 数据:HeartSteps MRT(Klasnja et al. 2018),37名参与者,42天,每天5个决策点,共约210个决策点/人。结局是推送后30分钟内的步数曲线 \(Y_{ij}(t)\)(每分钟步数,功能型数据)。 - 怎么用上去: - Stage 1:用线性回归估计 \(\eta(j, t, H_{ij})\)(包含过去步数、是否久坐等历史特征),计算残差曲线。 - Stage 2:用变系数模型估计 \(\beta(j, t, S_{ij})\),其中 \(S_{ij}\) 包含是否久坐、是否工作日、推送类型(步行建议 vs. 抗久坐建议)。 - 得到什么结果: - 推送对响应时序的异质效应:推送不仅影响30分钟总步数(标量效应),还改变步数曲线的形状——推送后步数更早上升(响应更快),且步行建议比抗久坐建议的响应更快、峰值更高。 - 上下文依赖:久坐后推送的效应曲线形状与非久坐不同(久坐后响应更慢但持续更久);工作日与非工作日的效应曲线形状也不同。 - 这个例子想说明什么:展示功能型结局分析比标量结局分析能揭示更丰富的时序动态(响应速度、峰值时间),验证变系数模型与两阶段估计器的实用性。
🔎 结论是否比证明窄: - 作者在摘要与intro中泛泛 claim "robust against a misspecified high-dimensional outcome regression nuisance model",但定理1的严格证明可能只覆盖了"误设但仍在某函数类内且收敛速率满足条件"的情形,而非任意误设。需细查定理1的条件:是否要求 \(\hat{\eta}\) 的收敛速率为 \(o_p(n^{-1/4})\) 或更弱?若要求 \(o_p(n^{-1/4})\),则高维误设下(如用高维线性回归,收敛速率可能慢于 \(n^{-1/4}\))鲁棒性可能不成立。这是一个值得研究者核验的具体语句(定理1的条件部分)。
四、开放问题(点到为止,扎根具体语句)¶
- 高维误设鲁棒性的速率边界:定理1要求 nuisance \(\hat{\eta}\) 的收敛速率满足什么条件?若高维设定下 \(\hat{\eta}\) 收敛慢于 \(n^{-1/4}\)(如维数 \(p \gg n\)),两阶段估计器是否仍为 \(n^{-1/2}\)-CAN?——扎根在定理1的余项控制条件与"high-dimensional outcome regression nuisance model misspecification"的 claim 之间的潜在张力。
- 功能型结局的半参数有效界:在双时间索引 \((j, t)\) 与变系数模型下,当 nuisance 模型完全非参数时,CEE \(\beta(j, t, S_{ij})\) 的半参数有效界是什么?两阶段估计器是否达到此界?——扎根在定理2只给出"局部有效"(nuisance 正确设定下),未给出全局有效界。
- 更高阶正交化 / HOIF 的推广:本文的两阶段估计器利用一阶正交化(处理偏离与残差偏差的内积为0)消除误设影响。若倾向得分也有轻微误设(如实际随机化概率偏离记录值),是否需要更高阶影响函数(Robins et al. 2008 HOIF)来消除二阶偏差?——扎根在假设2要求倾向得分完全正确,与实际MRT中可能存在非依从/记录误差的矛盾。
- 双时间索引下的 minimax 估计速率:变系数函数 \(\beta(j, t, S_{ij})\) 在 \((j, t)\) 二维域上的 minimax 估计速率是什么?本文的样条逼近是否达到此速率?——扎根在样条节点数选择的理论条件,与 minimax 速率的潜在联系。
提醒:要确认第1条是否是真 gap,去读同子领域(MRT因果推断、功能型因果效应)近期约5篇的intro——若都指向"高维 nuisance 误设鲁棒性"=共识(真gap);若互相打架(有人认为随机化已足够鲁棒,无需额外正交化)=机会。
Maintained by 陈星宇 · Homepage · Source on GitHub