Causal inference and machine learning in mobile health – modeling time-varying effects using longitudinal functional data¶

讲者: Tianchen Qian
讨论人: Walter Dempsey
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-11-12
主题: 因果推断
视频: https://youtu.be/0IIz6EFjqwY?si=BZXvfT3WAd4xPTQe · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2410.12151 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告属于 移动健康（mHealth）中的因果推断 这一子方向，具体聚焦于 微随机试验（Micro-Randomized Trial, MRT）中时变因果效应的建模与估计。

该子方向追问的核心问题是：在一个高度不适定的纵向设定下（每天多次随机化、时间点 J 达数百甚至数千），如何在 不依赖对高维历史过程的强参数假设 的前提下，定义并估计一个解释性强的因果效应，同时利用功能数据（如分钟级步数）的精细信息。

奠基与主流路线¶

Causal excursion effect 框架（Boruvka et al., 2018; Qian et al., 2021）是本工作最直接的先行方法。它专门针对 MRT 设计，通过边际化过去处理路径避免维数灾难，提出的 estimand 是“在随机化策略（MRT policy）后，偏离该策略（单次处理赋值）的平均因果效应”。原方法仅处理 标量（连续/二值）结局（如 30 分钟累计步数），未涉及功能结局（分钟级曲线）。
功能数据分析（FDA）（Ramsay & Silverman, 2005）提供了用样条基逼近函数的工具，但传统 FDA 主要处理独立或低维重复观测，不能直接套用于 纵向 + 功能 嵌套结构。
机器学习增强的因果推断（Chernozhukov et al., 2018; Wager & Athey, 2018）为高维协变量的稳健调整提供了技术（去偏/双稳健），但应用于 MRT 时尚需适配。

本报告所处位置¶

报告站在这三条线的交叉点： - 将 causal excursion effect 从标量结局推广到 功能结局（分钟级步数曲线），定义了两个时间索引（决策点 j 和决策点后分钟 t）的效应曲面 τ(j, t, s)。 - 采用 双索引变系数模型（varying-coefficient model with indices j and t），并用 B 样条基对两个维度的系数函数做非参数逼近，使模型兼具简洁性和灵活性。 - 设计了一个 对 nuisance 回归模型误设有鲁棒的两阶段估计量（加权中心化最小二乘），使得研究者可以引入机器学习拟合历史条件期望，而不影响因果参数估计的一致性。这一性质被明确归因于 中心化处理变量与稳定化 IPW 的联合正交化效应（即不严格等价于 Neyman 正交性，但功能类似）。

报告所称的核心贡献：给出了一个用观测数据估计 τ(j, t, s) 的完整框架，包含定义、识别、建模、估计与推断，并应用于 HeartSteps MRT 数据，发现了仅靠 30 分钟聚集分析无法获得的细粒度信息（如正效应窗口在 10–40 分钟、工作日效果优于周末等）。

二、最小内核 / 一个最简例子¶

为了看清报告方法的操作逻辑，考虑一个极度简化版本：共 1 名参与者，2 个决策点 (j=1,2)，每个决策点后只有 2 个分钟 (t=1,2)，无 effect modifier (S=∅)，处理为二值，随机化概率恒定 p=0.6。

符号与模型（可观测数据 & 潜在结构）¶

可观测：对每个决策点 j：协变量 Xj（一维，为简化假设与历史无关），处理 Aj ∈ {0,1}（随机化概率 Pr(Aj=1)=p，注意 p 不依赖于历史）；功能结局 Yj = (Yj1, Yj2)，即 j 后第 1 分钟和第 2 分钟的步数。
潜在结果：Yjt(a1, a2) 表示若前两个决策点处理固定为 a1,a2 时的潜在步数（忽略 j 后后续处理，因为只有 2 个 j）。但 J 很大时无法直接估计。
因果 estimand（报告定义）：
τ(j, t) = E[ Yjt(Ā_{j-1}, 1) − Yjt(Ā_{j-1}, 0) ]
其中 Ā_{j-1} = (A1, ..., A_{j-1}) 是在实际随机化策略下的随机变量。即：前 j-1 次处理按 MRT 策略随机发生，在第 j 次强制接受或拒绝一次“excursion”，并比较该分钟 t 的平均步数差异。

对于本例 j=2, t=1,2：
τ(1, t) = E[Y1t( ,1) − Y1t( ,0)]（无先前历史，即“第一个决策点的立即效应”）；
τ(2, t) = E[Y2t(A1,1) − Y2t(A1,0)]，其中 A1 按 p=0.6 随机（平均化过去处理）。

最简估计思路（忽略协变量）¶

识别（标准序贯可忽略性 + 正性已保证）：
τ(j,t) = E[ E[Yjt | Hj, Aj=1] − E[Yjt | Hj, Aj=0] ]，其中 Hj 包含所有过去信息（本例 j=1 时 H1 = X1；j=2 时 H2 = (X1,A1,Y1,X2)）。
建模（报告中的变系数模型退化至极简）：
假设 τ(j,t) = β1(j) + β2(t)（可加性，无交互）。β1(j) 反映随决策点（学习效应/倦怠）的变化，β2(t) 反映在分钟维度的衰减模式。
两阶段估计：
Stage 1：用任意方法（如线性回归）拟合 μ(Hj) = E[Yjt | Hj]（注意这里 t=1,2 分开或合并），得到 \hat{μ}。
Stage 2：最小化加权中心化最小二乘损失：
Σ_{j,t} w_j (Yjt − \hat{μ}(Hj) − (Aj − \bar{p}_j) * [β1(j) + β2(t)])^2，
其中 w_j = (p / p_j(Hj)) * ( (1−p) / (1−p_j(Hj)) ) 为稳定化 IPW（本例 p=0.6, p_j(Hj) 恒为 0.6，故权重=1）；
中心化项 (Aj − p) 确保估计对 \hat{μ} 的误差具有鲁棒性。
直观：即使 \hat{μ} 完全错误（例如忽略了 X1），由于 Aj 与 Hj 独立（随机化），(Aj − p) 与任何 Hj 不相关，因此阶段二的参数估计仍保持一致。

三、报告主体：讲者讲了什么¶

[0:00:08–0:01:16] 开场与致谢。由 OCIS 主持介绍。

[0:01:24–0:03:27] 讲者介绍 mHealth 干预图像（推送过多的“群聊”场景），提出平衡效果与负担的目标。列出议程：回顾 HeartSteps → 知识缺口 → 新方法 → 新见解。

[0:03:33–0:06:28] HeartSteps MRT 简介
- 37 参与者×42 天×每天 5 次随机化 = 210 个决策点/人（幻灯片 [6/36–7/36]）。 - 随机化概率：60% 推送一条消息（多种文本，如步行、抗久坐建议），40% 无推送。 - 结局：分钟级步数（0–60 分钟，记为 Yj, t=1,..,60）。 - 已发表发现（Klasnja et al., 2018）：
- 干预使 30 分钟步数增加 14%（约 35 步，基线 253 步）；
- 效果随研究天数下降（初周增加 66%，中期趋于零）。

[0:06:28–0:08:44] 两个未答问题（对应幻灯片 [8/36]） 1. 为何选 30 分钟窗口？是否合理？ 2. 更细粒度的时间尺度：效应在 60 分钟内如何演变？人何时开始响应？

[0:08:48–0:12:00] 三个统计挑战（对应 [9/36–12/36]） - 挑战 1：大量处理时间点（J ≥ 210），如何定义因果效应？ - 挑战 2：纵向+功能数据（每个 Yj 是一个 60 维向量），如何建模？ - 挑战 3：高维历史 Hj（过去所有 X, A, Y），如何利用效率提升而不依赖正确建模？

[0:12:03–0:14:38] 相关文献路标（[13/36]）：causal excursion effect（Boruvka’18, Qian’21），FDA（Ramsay & Silverman’05），ML in causal inference（Chernozhukov’18, Wager & Athey’18, Kennedy’17）。

[0:14:38–0:18:36] Causal excursion effect 定义（[15/36–18/36]） - 正式定义：τ(j, t, s) = E[ Yjt(Ā_{j-1}, 1) − Yjt(Ā_{j-1}, 0) | Sj = s ]。 - 讲者用“彩虹色宽度”的示意图（[18/36]）强调：对照组的过去处理服从 MRT 随机化，最后一次处理强制设为 0 或 1，形成“excursion”。 - 为何边际化过去处理（而非固定轨迹）？一是减少参数数量，二是产生的边际估计对领域科学家直观，三是效应自然反映了参与者的实际负担水平（因为过去处理分布由 MRT 政策决定，而政策密度是负担的代理）。讲者认为这是“特征而非缺陷”。

[0:18:36–0:21:26] 识别（标准序贯可忽略性与正性成立，因随机化）。给出标准化公式（未展示具体方程，引向观测数据估计）。

[0:21:26–0:26:47] 变系数模型（[24/36–27/36]） - 提出一个可加变系数结构（简化版）：τ = β1(j) + β2(t)，其中加法性是对电子屏幕中具体表面形状的合理简化，允许未来推广。 - 引入效应 modifiers Sj 的线性扩展：τ = f0 + f1(Sj)^T β1(j) + f2(Sj)^T β2(t)（f 为预先构造的特征向量）。 - 用 B 样条基逼近 β1(j) 和 β2(t)（每个系数向量用样条展开），参数变为样条系数。

[0:26:47–0:32:00] 两阶段估计量（[28/36–31/36]） - Stage 1：用任意机器学习拟合 μ(Hj) = E[Yjt | Hj]（nuisance 模型）。明确说明：不要求这个回归模型收敛到真值，因为它可以和中心化处理联合正交化。 - Stage 2：最小化加权中心化最小二乘：
Q = Σ_{j,t} w_j [ Yjt − μ̂(Hj) − (Aj − p_j(Hj)) × τ̂(j,t,s) ]^2，
其中 τ̂(j,t,s) 用样条参数化，w_j 是稳定化 IPW。 - 鲁棒性的直观解释：因为中心化项 (Aj − p_j) 与 μ̂(Hj) 误差在期望下正交（Aj 随机化），Q 对 μ̂ 的偏误鲁棒。讲者将此归功于“正交化”（近似 Neyman 正交思想）。

[0:32:00–0:33:18] 理论结果（[31/36]）：样条 knots 数适当下，β̂ 在 l2 范数下以速率 O_p(n^{-1/2} + ρ_n) 收敛，其中 ρ_n 是样条逼近误差。若用三次样条且 β 足够光滑，可达到非参数最优率。强调该收敛性 不依赖 nuisance 模型的正确性（鲁棒性）。但渐近方差理论仍为“进行中”。

[0:33:18–0:34:52] 模拟（[32/36–33/36]）：设定 true β 为复杂（双峰）或简单（单峰）形式，Stage 1 故意忽略一个协变量 Zj 以误设 nuisance 模型。结果显示覆盖率略低于 95% 但总体良好；用交叉验证选择 knots 数与复杂度吻合。

[0:34:52–0:42:10] HeartSteps 数据分析结果（[34/36–36/36]） - 对步数作 log(step+0.5) 变换以降低偏度。 - 边际效应曲面（无效应 modifier）：J 从 1 到 210，t 从 1 到 60。发现： - 沿 J 方向（天数）：效应迅速衰减，中期覆盖零。 - 沿 t 方向（分钟）：正效应出现在约 10–40 分钟，边缘 60 分钟处有样条边界伪影。 - 区分步行建议与抗久坐建议：两者走势相似，但步行建议效应窗口更宽。 - 效应 moderation 分析：工作日 vs 周末。工作日时两个建议均有正效应；周末时无效。

[0:42:10–0:42:40] 总结（幻灯片最后）：回答了三个问题：效应窗口 10–40 分钟，效应随时间快速下降，工作日效应更大。这些结果可为下一轮干预设计提供参考。

[0:43:02–0:53:19] 讨论（Walter Dempsey）：提出以下问题
1. 分钟级 vs 累计结局的映射；
2. 可加性假设的必要性与双变量样条方向；
3. 最佳窗口选择（信号-噪声权衡）与未来政策相关性；
4. 个体水平效应；
5. 替代效应（整天总步数的分配）。讲者做了简短回应，认可大部分为开放问题。

四、对应论文与开放问题¶

对应论文¶

本报告直接对应的论文：
Tianchen Qian and Jiaxin Yu (2024). Causal inference and machine learning in mobile health: modeling time-varying effects using longitudinal functional data. arXiv: 2410.15049.
（注意：用户消息附带了一段不同论文的摘要，属错误匹配；应以讲者幻灯片中列出的 arXiv 号为准。）

开放问题（来源：讨论环节与报告末的隐含缺口）¶

分钟级 vs 累计结局的等价性：在分钟级建模和累计步数建模下，结论是否一致？哪种定义更利于域科学家解释？Walter 指出累计结局对二值情形更自然（[0:44:10–0:46:40]）。
可加性假设的放松：当前假设 τ(j,t) = β1(j)+β2(t)（加性分离），未来是否可以引入双变量样条或张量积基，以捕捉 J−T 交互效应？讲者承认这可能导致噪声增大（[0:55:00–0:55:50]）。
对未来政策的敏感性：causal excursion effect 定义依赖于当前 MRT 政策（随机化概率）。如果未来研究的政策改变，估计量是否仍能为最优窗口选择提供参考？需要敏感性分析或重新定义（[0:56:00–0:57:15]）。
个体水平效应：报告估计的是人群平均或子都群平均（通过 effect modificer），但个性化干预需要个体水平效应曲线。如何从现有数据推断？可能结合双向 AST（alternating treatment strategy）或 conformal inference（[0:57:26–0:58:15]）。
替代效应与分布目标：干预可能只是将步行时间提前，不增加总步数。应考虑全天的步数分布（替代效应），而非仅关注推送后窗口。相关方向：分布式因果效应（Sarkar et al.）（[0:58:30–0:59:15]）。
理论推断的完善：当 knots 数随样本增长时，渐近方差的正态性尚未完全证明，当前仅通过 sandwich 和经验覆盖验证（讲者自述“work in progress”，[0:32:00]）。

Maintained by 陈星宇 · Homepage · Source on GitHub