跳转至

Causal inference and machine learning in mobile health – modeling time-varying effects using longitudinal functional data

讲者: Tianchen Qian
讨论人: Walter Dempsey
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-11-12
主题: 因果推断
视频: https://youtu.be/0IIz6EFjqwY?si=BZXvfT3WAd4xPTQe · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2410.12151 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告属于 移动健康(mHealth)中的因果推断 这一子方向,具体聚焦于 微随机试验(Micro-Randomized Trial, MRT)中时变因果效应的建模与估计

该子方向追问的核心问题是:在一个高度不适定的纵向设定下(每天多次随机化、时间点 J 达数百甚至数千),如何在 不依赖对高维历史过程的强参数假设 的前提下,定义并估计一个解释性强的因果效应,同时利用功能数据(如分钟级步数)的精细信息。

奠基与主流路线

  • Causal excursion effect 框架(Boruvka et al., 2018; Qian et al., 2021)是本工作最直接的先行方法。它专门针对 MRT 设计,通过边际化过去处理路径避免维数灾难,提出的 estimand 是“在随机化策略(MRT policy)后,偏离该策略(单次处理赋值)的平均因果效应”。原方法仅处理 标量(连续/二值)结局(如 30 分钟累计步数),未涉及功能结局(分钟级曲线)。
  • 功能数据分析(FDA)(Ramsay & Silverman, 2005)提供了用样条基逼近函数的工具,但传统 FDA 主要处理独立或低维重复观测,不能直接套用于 纵向 + 功能 嵌套结构。
  • 机器学习增强的因果推断(Chernozhukov et al., 2018; Wager & Athey, 2018)为高维协变量的稳健调整提供了技术(去偏/双稳健),但应用于 MRT 时尚需适配。

本报告所处位置

报告站在这三条线的交叉点: - 将 causal excursion effect 从标量结局推广到 功能结局(分钟级步数曲线),定义了两个时间索引(决策点 j 和决策点后分钟 t)的效应曲面 τ(j, t, s)。 - 采用 双索引变系数模型(varying-coefficient model with indices j and t),并用 B 样条基对两个维度的系数函数做非参数逼近,使模型兼具简洁性和灵活性。 - 设计了一个 对 nuisance 回归模型误设有鲁棒的两阶段估计量(加权中心化最小二乘),使得研究者可以引入机器学习拟合历史条件期望,而不影响因果参数估计的一致性。这一性质被明确归因于 中心化处理变量与稳定化 IPW 的联合正交化效应(即不严格等价于 Neyman 正交性,但功能类似)。

报告所称的核心贡献:给出了一个用观测数据估计 τ(j, t, s) 的完整框架,包含定义、识别、建模、估计与推断,并应用于 HeartSteps MRT 数据,发现了仅靠 30 分钟聚集分析无法获得的细粒度信息(如正效应窗口在 10–40 分钟、工作日效果优于周末等)。


二、最小内核 / 一个最简例子

为了看清报告方法的操作逻辑,考虑一个极度简化版本:共 1 名参与者,2 个决策点 (j=1,2),每个决策点后只有 2 个分钟 (t=1,2),无 effect modifier (S=∅),处理为二值,随机化概率恒定 p=0.6

符号与模型(可观测数据 & 潜在结构)

  • 可观测:对每个决策点 j:协变量 Xj(一维,为简化假设与历史无关),处理 Aj ∈ {0,1}(随机化概率 Pr(Aj=1)=p,注意 p 不依赖于历史);功能结局 Yj = (Yj1, Yj2),即 j 后第 1 分钟和第 2 分钟的步数。
  • 潜在结果:Yjt(a1, a2) 表示若前两个决策点处理固定为 a1,a2 时的潜在步数(忽略 j 后后续处理,因为只有 2 个 j)。但 J 很大时无法直接估计。
  • 因果 estimand(报告定义):
    τ(j, t) = E[ Yjt(Ā_{j-1}, 1) − Yjt(Ā_{j-1}, 0) ]
    其中 Ā_{j-1} = (A1, ..., A_{j-1}) 是在实际随机化策略下的随机变量。即:前 j-1 次处理按 MRT 策略随机发生,在第 j 次强制接受或拒绝一次“excursion”,并比较该分钟 t 的平均步数差异。

对于本例 j=2, t=1,2:
τ(1, t) = E[Y1t( ,1) − Y1t( ,0)](无先前历史,即“第一个决策点的立即效应”);
τ(2, t) = E[Y2t(A1,1) − Y2t(A1,0)],其中 A1 按 p=0.6 随机(平均化过去处理)。

最简估计思路(忽略协变量)

  • 识别(标准序贯可忽略性 + 正性已保证):
    τ(j,t) = E[ E[Yjt | Hj, Aj=1] − E[Yjt | Hj, Aj=0] ],其中 Hj 包含所有过去信息(本例 j=1 时 H1 = X1;j=2 时 H2 = (X1,A1,Y1,X2))。
  • 建模(报告中的变系数模型退化至极简):
    假设 τ(j,t) = β1(j) + β2(t)(可加性,无交互)。β1(j) 反映随决策点(学习效应/倦怠)的变化,β2(t) 反映在分钟维度的衰减模式。
  • 两阶段估计
  • Stage 1:用任意方法(如线性回归)拟合 μ(Hj) = E[Yjt | Hj](注意这里 t=1,2 分开或合并),得到 \hat{μ}。
  • Stage 2:最小化加权中心化最小二乘损失:
    Σ_{j,t} w_j (Yjt − \hat{μ}(Hj) − (Aj − \bar{p}_j) * [β1(j) + β2(t)])^2,
    其中 w_j = (p / p_j(Hj)) * ( (1−p) / (1−p_j(Hj)) ) 为稳定化 IPW(本例 p=0.6, p_j(Hj) 恒为 0.6,故权重=1);
    中心化项 (Aj − p) 确保估计对 \hat{μ} 的误差具有鲁棒性。
  • 直观:即使 \hat{μ} 完全错误(例如忽略了 X1),由于 Aj 与 Hj 独立(随机化),(Aj − p) 与任何 Hj 不相关,因此阶段二的参数估计仍保持一致。

三、报告主体:讲者讲了什么

[0:00:08–0:01:16] 开场与致谢。由 OCIS 主持介绍。

[0:01:24–0:03:27] 讲者介绍 mHealth 干预图像(推送过多的“群聊”场景),提出平衡效果与负担的目标。列出议程:回顾 HeartSteps → 知识缺口 → 新方法 → 新见解。

[0:03:33–0:06:28] HeartSteps MRT 简介
- 37 参与者×42 天×每天 5 次随机化 = 210 个决策点/人(幻灯片 [6/36–7/36])。 - 随机化概率:60% 推送一条消息(多种文本,如步行、抗久坐建议),40% 无推送。 - 结局:分钟级步数(0–60 分钟,记为 Yj, t=1,..,60)。 - 已发表发现(Klasnja et al., 2018):
- 干预使 30 分钟步数增加 14%(约 35 步,基线 253 步);
- 效果随研究天数下降(初周增加 66%,中期趋于零)。

[0:06:28–0:08:44] 两个未答问题(对应幻灯片 [8/36]) 1. 为何选 30 分钟窗口?是否合理? 2. 更细粒度的时间尺度:效应在 60 分钟内如何演变?人何时开始响应?

[0:08:48–0:12:00] 三个统计挑战(对应 [9/36–12/36]) - 挑战 1:大量处理时间点(J ≥ 210),如何定义因果效应? - 挑战 2:纵向+功能数据(每个 Yj 是一个 60 维向量),如何建模? - 挑战 3:高维历史 Hj(过去所有 X, A, Y),如何利用效率提升而不依赖正确建模?

[0:12:03–0:14:38] 相关文献路标([13/36]):causal excursion effect(Boruvka’18, Qian’21),FDA(Ramsay & Silverman’05),ML in causal inference(Chernozhukov’18, Wager & Athey’18, Kennedy’17)。

[0:14:38–0:18:36] Causal excursion effect 定义([15/36–18/36]) - 正式定义:τ(j, t, s) = E[ Yjt(Ā_{j-1}, 1) − Yjt(Ā_{j-1}, 0) | Sj = s ]。 - 讲者用“彩虹色宽度”的示意图([18/36])强调:对照组的过去处理服从 MRT 随机化,最后一次处理强制设为 0 或 1,形成“excursion”。 - 为何边际化过去处理(而非固定轨迹)?一是减少参数数量,二是产生的边际估计对领域科学家直观,三是效应自然反映了参与者的实际负担水平(因为过去处理分布由 MRT 政策决定,而政策密度是负担的代理)。讲者认为这是“特征而非缺陷”。

[0:18:36–0:21:26] 识别(标准序贯可忽略性与正性成立,因随机化)。给出标准化公式(未展示具体方程,引向观测数据估计)。

[0:21:26–0:26:47] 变系数模型([24/36–27/36]) - 提出一个可加变系数结构(简化版):τ = β1(j) + β2(t),其中加法性是对电子屏幕中具体表面形状的合理简化,允许未来推广。 - 引入效应 modifiers Sj 的线性扩展:τ = f0 + f1(Sj)^T β1(j) + f2(Sj)^T β2(t)(f 为预先构造的特征向量)。 - 用 B 样条基逼近 β1(j) 和 β2(t)(每个系数向量用样条展开),参数变为样条系数。

[0:26:47–0:32:00] 两阶段估计量([28/36–31/36]) - Stage 1:用任意机器学习拟合 μ(Hj) = E[Yjt | Hj](nuisance 模型)。明确说明:不要求这个回归模型收敛到真值,因为它可以和中心化处理联合正交化。 - Stage 2:最小化加权中心化最小二乘:
Q = Σ_{j,t} w_j [ Yjt − μ̂(Hj) − (Aj − p_j(Hj)) × τ̂(j,t,s) ]^2,
其中 τ̂(j,t,s) 用样条参数化,w_j 是稳定化 IPW。 - 鲁棒性的直观解释:因为中心化项 (Aj − p_j) 与 μ̂(Hj) 误差在期望下正交(Aj 随机化),Q 对 μ̂ 的偏误鲁棒。讲者将此归功于“正交化”(近似 Neyman 正交思想)。

[0:32:00–0:33:18] 理论结果([31/36]):样条 knots 数适当下,β̂ 在 l2 范数下以速率 O_p(n^{-1/2} + ρ_n) 收敛,其中 ρ_n 是样条逼近误差。若用三次样条且 β 足够光滑,可达到非参数最优率。强调该收敛性 不依赖 nuisance 模型的正确性(鲁棒性)。但渐近方差理论仍为“进行中”。

[0:33:18–0:34:52] 模拟([32/36–33/36]):设定 true β 为复杂(双峰)或简单(单峰)形式,Stage 1 故意忽略一个协变量 Zj 以误设 nuisance 模型。结果显示覆盖率略低于 95% 但总体良好;用交叉验证选择 knots 数与复杂度吻合。

[0:34:52–0:42:10] HeartSteps 数据分析结果([34/36–36/36]) - 对步数作 log(step+0.5) 变换以降低偏度。 - 边际效应曲面(无效应 modifier):J 从 1 到 210,t 从 1 到 60。发现: - 沿 J 方向(天数):效应迅速衰减,中期覆盖零。 - 沿 t 方向(分钟):正效应出现在约 10–40 分钟,边缘 60 分钟处有样条边界伪影。 - 区分步行建议与抗久坐建议:两者走势相似,但步行建议效应窗口更宽。 - 效应 moderation 分析:工作日 vs 周末。工作日时两个建议均有正效应;周末时无效。

[0:42:10–0:42:40] 总结(幻灯片最后):回答了三个问题:效应窗口 10–40 分钟,效应随时间快速下降,工作日效应更大。这些结果可为下一轮干预设计提供参考。

[0:43:02–0:53:19] 讨论(Walter Dempsey):提出以下问题
1. 分钟级 vs 累计结局的映射;
2. 可加性假设的必要性与双变量样条方向;
3. 最佳窗口选择(信号-噪声权衡)与未来政策相关性;
4. 个体水平效应;
5. 替代效应(整天总步数的分配)。讲者做了简短回应,认可大部分为开放问题。


四、对应论文与开放问题

对应论文

  • 本报告直接对应的论文:
    Tianchen Qian and Jiaxin Yu (2024). Causal inference and machine learning in mobile health: modeling time-varying effects using longitudinal functional data. arXiv: 2410.15049.
    (注意:用户消息附带了一段不同论文的摘要,属错误匹配;应以讲者幻灯片中列出的 arXiv 号为准。)

开放问题(来源:讨论环节与报告末的隐含缺口)

  1. 分钟级 vs 累计结局的等价性:在分钟级建模和累计步数建模下,结论是否一致?哪种定义更利于域科学家解释?Walter 指出累计结局对二值情形更自然([0:44:10–0:46:40])。
  2. 可加性假设的放松:当前假设 τ(j,t) = β1(j)+β2(t)(加性分离),未来是否可以引入双变量样条或张量积基,以捕捉 J−T 交互效应?讲者承认这可能导致噪声增大([0:55:00–0:55:50])。
  3. 对未来政策的敏感性:causal excursion effect 定义依赖于当前 MRT 政策(随机化概率)。如果未来研究的政策改变,估计量是否仍能为最优窗口选择提供参考?需要敏感性分析或重新定义([0:56:00–0:57:15])。
  4. 个体水平效应:报告估计的是人群平均或子都群平均(通过 effect modificer),但个性化干预需要个体水平效应曲线。如何从现有数据推断?可能结合双向 AST(alternating treatment strategy)或 conformal inference([0:57:26–0:58:15])。
  5. 替代效应与分布目标:干预可能只是将步行时间提前,不增加总步数。应考虑全天的步数分布(替代效应),而非仅关注推送后窗口。相关方向:分布式因果效应(Sarkar et al.)([0:58:30–0:59:15])。
  6. 理论推断的完善:当 knots 数随样本增长时,渐近方差的正态性尚未完全证明,当前仅通过 sandwich 和经验覆盖验证(讲者自述“work in progress”,[0:32:00])。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论