Incorporating nonparametric methods for estimating causal excursion effects in mobile health with zero-inflated count outcomes¶

作者: Xueqing Liu, Tianchen Qian, Lauren Bell, Bibhas Chakraborty
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究如何在微观随机试验框架下，估计移动健康干预的因果游览效应。其根本统计问题是：在纵向、高维历史数据、重复随机化且结局类型复杂（如零膨胀计数数据）的设定下，如何定义、识别并构造具有双稳健性与双向渐近性的估计量，以回答"干预在何时、对何人有效"的科学问题。当前该方向正处于方法论的快速扩展期：从最初的连续/二值结局，向计数、零膨胀、缺失数据等更复杂的真实世界数据类型延伸。

发展脉络： 1. 奠基工作（MRT 与 Causal Excursion Effect 的诞生）： - Klasnja et al. (2015) / Liao et al. (2016)：确立了 MRT 作为移动健康干预开发的标准实验设计，提出了在数百甚至数千个决策点进行序列随机化的范式，并给出了样本量计算方法。这解决了"如何产生数据"的问题。 - Boruvka et al. (2018)：首次在 MRT 框架下形式化定义了因果游览效应，即"在特定时间点、给定部分历史条件下，干预对近端结局的边缘效应"。这解决了"如何定义因果量"的问题，并提出了加权中心最小二乘估计量。

主要进展（从二值到一般情形）：
- Qian et al. (2021a)：将 CEE 推广到二值结局，提出了 EMEE（Estimating Marginal Excursion Effect）方法，利用半参数估计理论构造了双稳健估计量，是该文最直接的前身。
- Yu et al. (2023)：针对零膨胀非负结局提出了乘法结构嵌套均值模型（Multiplicative SNMM），并建立了双向渐近理论（样本量 \(n \to \infty\) 或决策点 \(T \to \infty\)），为本文处理零膨胀数据提供了理论铺垫。
- Shi & Dempsey (2023)：提出了 DR-WCLS 方法，引入 Meta-Learner 思想处理随机化概率未知或观测不完整的复杂情形，进一步放宽了 MRT 的理想假设。
当前 Frontier 与本文位置：
- 当前 Frontier 在于处理真实世界数据的复杂性：结局不再局限于连续或二值，而是计数数据且常伴有零膨胀；同时需要处理高维历史数据带来的维数灾难。
- 本文位置：本文填补了"零膨胀计数结局"这一空白。它继承了 Qian et al. (2021a) 的 CEE 框架与 Yu et al. (2023) 的零膨胀建模思想，核心创新在于引入非参数筛法 估计干扰参数，并在理论上证明了即使使用非参数估计，双向渐近性与 \(\sqrt{n}\)-收敛速度依然成立。

子线索聚类： - 线索一：因果游览效应的定义与识别。从 Boruvka et al. (2018) 定义边缘效应，到 Qian et al. (2021a) 处理二值结局，再到本文处理零膨胀计数结局。核心挑战在于如何在纵向随机化框架下剥离过去干预的影响，识别当前干预的因果效应。 - 线索二：干扰参数估计与半参数理论。从参数模型估计干扰参数，到 Shi & Dempsey (2023) 使用机器学习方法，再到本文使用非参数筛法。核心挑战是如何在高维历史 \(H_t\) 下灵活估计倾向得分与条件结局均值，同时保证估计量的稳健性与收敛速度。 - 线索三：零膨胀数据的统计建模。从经典的 ZIP/ZINB 模型（Hu et al., 2011），到 Yu et al. (2023) 在纵向因果推断中引入 Two-Part 模型，再到本文将 Two-Part 模型嵌入 CEE 的估计方程中。

这个方向在追问的核心问题： 1. 识别与定义：在纵向、序列随机化设定下，如何定义具有因果可解释性的边缘效应？（特别是如何处理过去干预 \(A_{t-1}\) 对当前结局的影响） 2. 估计效率与稳健性：如何构造估计量，使其对干扰参数（倾向得分、条件结局均值）的估计误差不敏感？ 3. 维数灾难与收敛速度：当历史数据 \(H_t\) 维数随时间增长或包含大量协变量时，非参数/机器学习方法能否保持 \(\sqrt{n}\)-收敛速度？双向渐近性（\(n \to \infty\) 或 \(T \to \infty\)）在何种条件下成立？

⚠️ 作者的 framing： - 作者将本文定位为"首个处理零膨胀计数结局 CEE 估计的工作"，并强调引入非参数方法解决了"参数模型误设"的风险。 - 被淡化的竞争路线：作者主要对比了参数方法（如 Qian et al. 2021a 的参数版本），但对机器学习方法（如 Shi & Dempsey 2023 的 DR-WCLS）讨论较少。虽然 DR-WCLS 关注点不同（未知倾向得分），但其双稳健框架与非参数思想与本文有重叠，作者未深入对比两者的适用边界。 - 缺失的引用：Introduction 中未引用高维统计 中处理倾向得分与结局均值的标准文献（如 van der Laan & Rose 的 Targeted Learning），这在理论溯源上略显不足，尽管核心引用（Qian, Yu, Boruvka）已覆盖主线。

张力： - 未见明显对立引用。现有文献多是在不同数据类型或假设下推进，而非推翻前人结论。例如，Yu et al. (2023) 处理零膨胀结局，但未涉及 CEE 定义；Qian et al. (2021a) 定义了 CEE 但未处理零膨胀。本文是两者的"正交组合"而非"纠错"。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据

符号定义：
- \(n\)：样本量（个体数）。
- \(T\)：决策点总数（时间点数）。
- \(A_t\)：第 \(t\) 个决策点的二值干预（\(1=\) 干预，\(0=\) 无干预）。
- \(Y_t\)：第 \(t\) 个决策点后的近端结局。本文特指零膨胀计数结局（取值为 \(0, 1, 2, \dots\)，且零的比例过高）。
- \(H_t\)：第 \(t\) 个决策点前的历史数据（包含过去的干预、结局、时变协变量）。
- \(I_t\)：可用性指示变量（Availability），\(I_t=1\) 表示个体在 \(t\) 时刻可被干预（如未睡觉、未开车）。只有 \(I_t=1\) 的时刻才纳入分析。
- \(p_t(H_t) = P(A_t=1 | H_t, I_t=1)\)：随机化概率（倾向得分），在 MRT 中由设计已知，但本文也考虑其估计。
- \(\beta\)：目标因果参数（Causal Excursion Effect），通常定义为条件均值差的系数。
模型（数据生成机制）：
- 随机化机制：\(A_t \sim \text{Bernoulli}(p_t(H_t))\)，这是 MRT 的核心特征，由实验设计控制。
- 结局模型（零膨胀计数）：\(Y_t\) 的生成包含两部分：
  1. 零膨胀部分：\(P(Y_t = 0 | H_t, A_t)\) 较高，由潜在变量 \(Z_t\) 决定（如"用户是否看手机"）。
  2. 计数部分：若 \(Y_t > 0\)，则 \(Y_t\) 服从泊松或负二项分布（如"看了手机后的浏览次数"）。
- 因果模型：定义因果游览效应。本文采用乘法结构嵌套均值模型：
  \[E[Y_t(\bar{a}_{t-1}, a_t=1) - Y_t(\bar{a}_{t-1}, a_t=0) | S_t, I_t=1] = \beta^T S_t\]
  其中 \(S_t \subseteq H_t\) 是感兴趣的调节变量，\(Y_t(\cdot)\) 是潜在结局。这定义了干预 \(A_t\) 对结局 \(Y_t\) 的边缘效应（在 \(S_t\) 层面上）。
可观测数据：
- 研究者观测到 \(n\) 个独立同分布的轨迹数据：\(\{ (H_{i,t}, A_{i,t}, Y_{i,t}, I_{i,t}) : t=1,\dots,T, i=1,\dots,n \}\)。
- 不可观测/需识别的量：潜在结局 \(Y_t(\bar{a}_{t-1}, a_t)\) 无法直接观测，需通过 MRT 的随机化假设与可忽略性假设，将观测数据的条件期望与潜在结局的边缘期望联系起来。

第二步：最小内核

为了讲清核心思路，考虑最简特例： - 设定：单个决策点 \(t\)（截面数据），无过去干预影响（\(\bar{A}_{t-1}\) 为空），调节变量 \(S_t\) 为空（边缘效应）。 - 目标：估计平均因果效应 \(\beta = E[Y(1) - Y(0)]\)。 - 结局：\(Y\) 是零膨胀计数数据。 - 干扰参数：\(\mu_a(H) = E[Y | A=a, H]\)（条件均值），\(p(H) = P(A=1|H)\)（倾向得分）。

核心思路： 1. 朴素想法：直接比较 \(E[Y|A=1]\) 和 \(E[Y|A=0]\)。这有偏差，因为混杂 \(H\) 影响结局也影响干预分配。 2. 逆概率加权（IPW）：\(\hat{\beta}_{IPW} = \frac{1}{n} \sum_{i=1}^n \left( \frac{A_i Y_i}{p(H_i)} - \frac{(1-A_i) Y_i}{1-p(H_i)} \right)\)。这要求 \(p(H)\) 准确，且方差大。 3. 双稳健/增强 IPW（AIPW）：引入结局模型 \(\mu_a(H)\) 构造 Augmentation 项：

\[\hat{\beta}_{DR} = \frac{1}{n} \sum_{i=1}^n \left( \frac{A_i (Y_i - \mu_1(H_i))}{p(H_i)} + \mu_1(H_i) - \frac{(1-A_i) (Y_i - \mu_0(H_i))}{1-p(H_i)} - \mu_0(H_i) \right)\]

性质：若 \(p(H)\) 或 \(\mu_a(H)\) 之一估计正确，\(\hat{\beta}_{DR}\) 即一致。

本文的最小内核（零膨胀 + 非参数）： - 难点：\(\mu_a(H) = E[Y | A=a, H]\) 难以估计。因为 \(Y\) 是零膨胀计数数据，直接回归会拟合很差（均值被大量零拉低，且方差结构复杂）。 - 破题想法：利用零膨胀数据的结构，将 \(\mu_a(H)\) 分解为两部分估计：

\[\mu_a(H) = P(Y>0 | A=a, H) \times E[Y | Y>0, A=a, H]\]

即分别估计"非零概率"和"非零时的条件均值"。 - 非参数引入：用筛法或核回归估计上述两部分，而非参数模型（如 Logistic 回归）。这避免了模型误设。 - 理论保证：证明即使用了非参数估计（收敛速度慢于 \(\sqrt{n}\)），最终的 \(\hat{\beta}\) 仍能保持 \(\sqrt{n}\)-收敛速度。这依赖于半参数效率理论：干扰参数的估计误差在估计方程中是高阶项，在一定光滑性条件下会相互抵消或被控制住。

三、这篇论文做了什么¶

三句话： 1. 研究了 MRT 框架下零膨胀计数结局的因果游览效应估计问题。 2. 提出了结合 Two-Part 模型与非参数筛法的双稳健估计量。 3. 证明了估计量的双向渐近性（\(n \to \infty\) 或 \(T \to \infty\)）与 \(\sqrt{n}\)-收敛速度，并通过模拟与 Drink Less 数据验证了方法的有效性。

关键设定与假设： 1. 因果游览效应定义：

\[E[Y_{t, \bar{a}_{t-1}, 1} - Y_{t, \bar{a}_{t-1}, 0} | S_t, I_t=1] = \beta^T S_t\]

这是边缘效应，仅对 \(S_t\)（感兴趣的调节变量）取条件，而对 \(\bar{A}_{t-1}\)（过去干预）取边缘期望。这解决了"过去干预对当前结局影响"难以建模的问题。 2. 假设： - Sequential Ignorability (SITA)：给定历史 \(H_t\)，干预分配 \(A_t\) 独立于潜在结局。这是 MRT 设计保证的。 - Positivity：\(0 < p_t(H_t) < 1\)，对所有 \(H_t\) 成立。 - Availability：只在 \(I_t=1\) 时进行分析。 - 模型设定：假设效应是乘法结构或加法结构。本文主要关注乘法模型，因为更适合计数数据。

主要结果： 1. 定理 1（识别性）：在假设下，因果游览效应 \(\beta\) 可由观测数据的条件期望表示，给出了识别公式。 2. 定理 2（双向渐近性与收敛速度）： - 这是核心理论贡献。证明了提出的估计量 \(\hat{\beta}\) 在以下两种情形下均具有渐近正态性： - 情形一：\(n \to \infty\)，\(T\) 固定。此时要求筛法估计的收敛速度 \(r_n = o(n^{-1/4})\)（标准的半参数速度条件）。 - 情形二：\(n\) 固定，\(T \to \infty\)。这是 MRT 特有的设定（单个个体长时间观测）。此时利用鞅差分序列的中心极限定理证明收敛性。 - 技术难点：在非参数估计干扰参数时，如何控制 Remainder 项。作者通过经验过程理论与筛法的收敛率分析，证明了估计方程的 Neyman 正交性使得估计误差对 \(\beta\) 的影响是二阶的。

证明路线与技术技巧： 1. 整体路线： - Step 1：构造估计方程。基于 Influence Function 构造无偏估计方程。核心是构造一个函数 \(\phi(O; \beta, \eta)\)，使得 \(E[\phi(O; \beta_0, \eta_0)] = 0\)，其中 \(\eta\) 是干扰参数（倾向得分与条件均值）。 - Step 2：非参数估计干扰参数。用筛法估计 \(\eta\)。对于零膨胀结局，分别估计 \(P(Y_t>0|H_t, A_t)\) 和 \(E[Y_t|Y_t>0, H_t, A_t]\)。 - Step 3：求解估计方程。得到 \(\hat{\beta}\)。 - Step 4：展开残差分析。将 \(\sqrt{n}(\hat{\beta} - \beta_0)\) 分解为线性主项与余项。 - Step 5：控制余项。利用经验不等式与筛法的收敛率，证明余项是 \(o_p(1)\)。

关键跳跃点：
- 零膨胀的处理：直接估计 \(E[Y|H]\) 在零膨胀情形下效率低且难以非参数拟合。作者引入 Two-Part 模型，将问题转化为两个更平滑的回归问题（概率回归 + 正均值回归），这利用了数据的结构信息。
- 双向渐近的证明：\(T \to \infty\) 的情形不能简单套用独立同分布理论。作者利用 MRT 的序列随机化性质，构造鞅差分，应用鞅中心极限定理。
技术技巧点名：
- Influence Function (影响函数)：构造双稳健估计量的核心工具，保证了估计的半参数有效性。
- Neyman Orthogonality (Neyman 正交性)：估计方程对干扰参数的导数在真值处为零，这是非参数估计下仍能保持 \(\sqrt{n}\)-收敛的关键。
- Siever Estimation (筛法估计)：非参数回归的具体实现，通过多项式基展开逼近未知函数，便于计算收敛率。
- Martingale Theory (鞅理论)：用于处理 \(T \to \infty\) 情形下的纵向数据依赖性。

真实例子与应用： - 数据：Drink Less MRT 试验。\(n=350\) 用户，\(T=28\) 天，每天一个决策点（是否发送推送通知）。 - 结局：\(Y_t\) = 发送通知后一小时内打开 App 的屏幕浏览次数。这是典型的零膨胀数据（很多时刻用户根本不看手机，\(Y_t=0\)；看了则次数为正整数）。 - 应用：估计发送通知对浏览次数的因果效应，并检验效应是否随时间衰减。 - 结果：发现发送通知显著增加了浏览次数，且效应在干预初期较强，随时间推移有所下降。非参数方法比参数方法（Poisson 回归）捕捉到了更复杂的效应异质性。

🔎 结论是否比证明窄： - 论文声称双稳健性，但理论部分主要证明了在干扰参数估计正确收敛速度下的渐近性质。对于"两个干扰参数模型都错"的情形，虽然估计量仍可能稳健（如具备模型错设下的稳健性），但理论并未严格证明其优于参数方法。这是半参数推断的常见局限，作者在讨论部分有提及。

四、开放问题¶

高维历史数据的维数灾难：本文假设筛法能处理历史数据 \(H_t\)，但当 \(H_t\) 维数极高（如包含大量传感器流数据）时，非参数筛法仍面临维数灾难。扎根点：Introduction 提到 "high-dimensional observed history"，但方法部分假设 \(S_t\) 是低维的，且筛法对维数敏感。能否结合高维统计（如 Lasso、DNN）来估计干扰参数，同时保持双向渐近性？
未知倾向得分下的效率边界：MRT 设计下倾向得分已知，但实际中常有偏差（如 Shi & Dempsey 2023 指出）。本文假设 \(p_t(H_t)\) 已知或能被正确估计。若倾向得分模型错设，非参数估计的稳健性如何？扎根点：Theorem 2 的条件。
更复杂的零膨胀结构：本文假设零膨胀部分与计数部分独立（或仅通过协变量关联）。若存在潜在相关性（如未观测因素同时影响"是否看手机"和"看多久"），模型识别性如何？扎根点：Two-Part 模型的标准假设，本文未深入讨论内生性。
计算效率：筛法在 \(T\) 很大时计算开销巨大。是否有更高效的算法（如在线学习更新）来适应移动健康的实时分析需求？扎根点：Discussion 中提到的计算挑战。

Maintained by 陈星宇 · Homepage · Source on GitHub

Incorporating nonparametric methods for estimating causal excursion effects in mobile health with zero-inflated count outcomes¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论