Incorporating nonparametric methods for estimating causal excursion effects in mobile health with zero-inflated count outcomes¶
作者: Xueqing Liu, Tianchen Qian, Lauren Bell, Bibhas Chakraborty
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向研究如何在微观随机试验框架下,估计移动健康干预的因果游览效应。其根本统计问题是:在纵向、高维历史数据、重复随机化且结局类型复杂(如零膨胀计数数据)的设定下,如何定义、识别并构造具有双稳健性与双向渐近性的估计量,以回答"干预在何时、对何人有效"的科学问题。当前该方向正处于方法论的快速扩展期:从最初的连续/二值结局,向计数、零膨胀、缺失数据等更复杂的真实世界数据类型延伸。
发展脉络: 1. 奠基工作(MRT 与 Causal Excursion Effect 的诞生): - Klasnja et al. (2015) / Liao et al. (2016):确立了 MRT 作为移动健康干预开发的标准实验设计,提出了在数百甚至数千个决策点进行序列随机化的范式,并给出了样本量计算方法。这解决了"如何产生数据"的问题。 - Boruvka et al. (2018):首次在 MRT 框架下形式化定义了因果游览效应,即"在特定时间点、给定部分历史条件下,干预对近端结局的边缘效应"。这解决了"如何定义因果量"的问题,并提出了加权中心最小二乘估计量。
-
主要进展(从二值到一般情形):
- Qian et al. (2021a):将 CEE 推广到二值结局,提出了 EMEE(Estimating Marginal Excursion Effect)方法,利用半参数估计理论构造了双稳健估计量,是该文最直接的前身。
- Yu et al. (2023):针对零膨胀非负结局提出了乘法结构嵌套均值模型(Multiplicative SNMM),并建立了双向渐近理论(样本量 \(n \to \infty\) 或决策点 \(T \to \infty\)),为本文处理零膨胀数据提供了理论铺垫。
- Shi & Dempsey (2023):提出了 DR-WCLS 方法,引入 Meta-Learner 思想处理随机化概率未知或观测不完整的复杂情形,进一步放宽了 MRT 的理想假设。
-
当前 Frontier 与本文位置:
- 当前 Frontier 在于处理真实世界数据的复杂性:结局不再局限于连续或二值,而是计数数据且常伴有零膨胀;同时需要处理高维历史数据带来的维数灾难。
- 本文位置:本文填补了"零膨胀计数结局"这一空白。它继承了 Qian et al. (2021a) 的 CEE 框架与 Yu et al. (2023) 的零膨胀建模思想,核心创新在于引入非参数筛法 估计干扰参数,并在理论上证明了即使使用非参数估计,双向渐近性与 \(\sqrt{n}\)-收敛速度依然成立。
子线索聚类: - 线索一:因果游览效应的定义与识别。从 Boruvka et al. (2018) 定义边缘效应,到 Qian et al. (2021a) 处理二值结局,再到本文处理零膨胀计数结局。核心挑战在于如何在纵向随机化框架下剥离过去干预的影响,识别当前干预的因果效应。 - 线索二:干扰参数估计与半参数理论。从参数模型估计干扰参数,到 Shi & Dempsey (2023) 使用机器学习方法,再到本文使用非参数筛法。核心挑战是如何在高维历史 \(H_t\) 下灵活估计倾向得分与条件结局均值,同时保证估计量的稳健性与收敛速度。 - 线索三:零膨胀数据的统计建模。从经典的 ZIP/ZINB 模型(Hu et al., 2011),到 Yu et al. (2023) 在纵向因果推断中引入 Two-Part 模型,再到本文将 Two-Part 模型嵌入 CEE 的估计方程中。
这个方向在追问的核心问题: 1. 识别与定义:在纵向、序列随机化设定下,如何定义具有因果可解释性的边缘效应?(特别是如何处理过去干预 \(A_{t-1}\) 对当前结局的影响) 2. 估计效率与稳健性:如何构造估计量,使其对干扰参数(倾向得分、条件结局均值)的估计误差不敏感? 3. 维数灾难与收敛速度:当历史数据 \(H_t\) 维数随时间增长或包含大量协变量时,非参数/机器学习方法能否保持 \(\sqrt{n}\)-收敛速度?双向渐近性(\(n \to \infty\) 或 \(T \to \infty\))在何种条件下成立?
⚠️ 作者的 framing: - 作者将本文定位为"首个处理零膨胀计数结局 CEE 估计的工作",并强调引入非参数方法解决了"参数模型误设"的风险。 - 被淡化的竞争路线:作者主要对比了参数方法(如 Qian et al. 2021a 的参数版本),但对机器学习方法(如 Shi & Dempsey 2023 的 DR-WCLS)讨论较少。虽然 DR-WCLS 关注点不同(未知倾向得分),但其双稳健框架与非参数思想与本文有重叠,作者未深入对比两者的适用边界。 - 缺失的引用:Introduction 中未引用高维统计 中处理倾向得分与结局均值的标准文献(如 van der Laan & Rose 的 Targeted Learning),这在理论溯源上略显不足,尽管核心引用(Qian, Yu, Boruvka)已覆盖主线。
张力: - 未见明显对立引用。现有文献多是在不同数据类型或假设下推进,而非推翻前人结论。例如,Yu et al. (2023) 处理零膨胀结局,但未涉及 CEE 定义;Qian et al. (2021a) 定义了 CEE 但未处理零膨胀。本文是两者的"正交组合"而非"纠错"。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据
-
符号定义:
- \(n\):样本量(个体数)。
- \(T\):决策点总数(时间点数)。
- \(A_t\):第 \(t\) 个决策点的二值干预(\(1=\) 干预,\(0=\) 无干预)。
- \(Y_t\):第 \(t\) 个决策点后的近端结局。本文特指零膨胀计数结局(取值为 \(0, 1, 2, \dots\),且零的比例过高)。
- \(H_t\):第 \(t\) 个决策点前的历史数据(包含过去的干预、结局、时变协变量)。
- \(I_t\):可用性指示变量(Availability),\(I_t=1\) 表示个体在 \(t\) 时刻可被干预(如未睡觉、未开车)。只有 \(I_t=1\) 的时刻才纳入分析。
- \(p_t(H_t) = P(A_t=1 | H_t, I_t=1)\):随机化概率(倾向得分),在 MRT 中由设计已知,但本文也考虑其估计。
- \(\beta\):目标因果参数(Causal Excursion Effect),通常定义为条件均值差的系数。
-
模型(数据生成机制):
- 随机化机制:\(A_t \sim \text{Bernoulli}(p_t(H_t))\),这是 MRT 的核心特征,由实验设计控制。
- 结局模型(零膨胀计数):\(Y_t\) 的生成包含两部分:
- 零膨胀部分:\(P(Y_t = 0 | H_t, A_t)\) 较高,由潜在变量 \(Z_t\) 决定(如"用户是否看手机")。
- 计数部分:若 \(Y_t > 0\),则 \(Y_t\) 服从泊松或负二项分布(如"看了手机后的浏览次数")。
- 因果模型:定义因果游览效应。本文采用乘法结构嵌套均值模型:
\[E[Y_t(\bar{a}_{t-1}, a_t=1) - Y_t(\bar{a}_{t-1}, a_t=0) | S_t, I_t=1] = \beta^T S_t\]其中 \(S_t \subseteq H_t\) 是感兴趣的调节变量,\(Y_t(\cdot)\) 是潜在结局。这定义了干预 \(A_t\) 对结局 \(Y_t\) 的边缘效应(在 \(S_t\) 层面上)。
-
可观测数据:
- 研究者观测到 \(n\) 个独立同分布的轨迹数据:\(\{ (H_{i,t}, A_{i,t}, Y_{i,t}, I_{i,t}) : t=1,\dots,T, i=1,\dots,n \}\)。
- 不可观测/需识别的量:潜在结局 \(Y_t(\bar{a}_{t-1}, a_t)\) 无法直接观测,需通过 MRT 的随机化假设与可忽略性假设,将观测数据的条件期望与潜在结局的边缘期望联系起来。
第二步:最小内核
为了讲清核心思路,考虑最简特例: - 设定:单个决策点 \(t\)(截面数据),无过去干预影响(\(\bar{A}_{t-1}\) 为空),调节变量 \(S_t\) 为空(边缘效应)。 - 目标:估计平均因果效应 \(\beta = E[Y(1) - Y(0)]\)。 - 结局:\(Y\) 是零膨胀计数数据。 - 干扰参数:\(\mu_a(H) = E[Y | A=a, H]\)(条件均值),\(p(H) = P(A=1|H)\)(倾向得分)。
核心思路: 1. 朴素想法:直接比较 \(E[Y|A=1]\) 和 \(E[Y|A=0]\)。这有偏差,因为混杂 \(H\) 影响结局也影响干预分配。 2. 逆概率加权(IPW):\(\hat{\beta}_{IPW} = \frac{1}{n} \sum_{i=1}^n \left( \frac{A_i Y_i}{p(H_i)} - \frac{(1-A_i) Y_i}{1-p(H_i)} \right)\)。这要求 \(p(H)\) 准确,且方差大。 3. 双稳健/增强 IPW(AIPW):引入结局模型 \(\mu_a(H)\) 构造 Augmentation 项:
本文的最小内核(零膨胀 + 非参数): - 难点:\(\mu_a(H) = E[Y | A=a, H]\) 难以估计。因为 \(Y\) 是零膨胀计数数据,直接回归会拟合很差(均值被大量零拉低,且方差结构复杂)。 - 破题想法:利用零膨胀数据的结构,将 \(\mu_a(H)\) 分解为两部分估计:
三、这篇论文做了什么¶
三句话: 1. 研究了 MRT 框架下零膨胀计数结局的因果游览效应估计问题。 2. 提出了结合 Two-Part 模型与非参数筛法的双稳健估计量。 3. 证明了估计量的双向渐近性(\(n \to \infty\) 或 \(T \to \infty\))与 \(\sqrt{n}\)-收敛速度,并通过模拟与 Drink Less 数据验证了方法的有效性。
关键设定与假设: 1. 因果游览效应定义:
主要结果: 1. 定理 1(识别性):在假设下,因果游览效应 \(\beta\) 可由观测数据的条件期望表示,给出了识别公式。 2. 定理 2(双向渐近性与收敛速度): - 这是核心理论贡献。证明了提出的估计量 \(\hat{\beta}\) 在以下两种情形下均具有渐近正态性: - 情形一:\(n \to \infty\),\(T\) 固定。此时要求筛法估计的收敛速度 \(r_n = o(n^{-1/4})\)(标准的半参数速度条件)。 - 情形二:\(n\) 固定,\(T \to \infty\)。这是 MRT 特有的设定(单个个体长时间观测)。此时利用鞅差分序列的中心极限定理证明收敛性。 - 技术难点:在非参数估计干扰参数时,如何控制 Remainder 项。作者通过经验过程理论与筛法的收敛率分析,证明了估计方程的 Neyman 正交性使得估计误差对 \(\beta\) 的影响是二阶的。
证明路线与技术技巧: 1. 整体路线: - Step 1:构造估计方程。基于 Influence Function 构造无偏估计方程。核心是构造一个函数 \(\phi(O; \beta, \eta)\),使得 \(E[\phi(O; \beta_0, \eta_0)] = 0\),其中 \(\eta\) 是干扰参数(倾向得分与条件均值)。 - Step 2:非参数估计干扰参数。用筛法估计 \(\eta\)。对于零膨胀结局,分别估计 \(P(Y_t>0|H_t, A_t)\) 和 \(E[Y_t|Y_t>0, H_t, A_t]\)。 - Step 3:求解估计方程。得到 \(\hat{\beta}\)。 - Step 4:展开残差分析。将 \(\sqrt{n}(\hat{\beta} - \beta_0)\) 分解为线性主项与余项。 - Step 5:控制余项。利用经验不等式与筛法的收敛率,证明余项是 \(o_p(1)\)。
-
关键跳跃点:
- 零膨胀的处理:直接估计 \(E[Y|H]\) 在零膨胀情形下效率低且难以非参数拟合。作者引入 Two-Part 模型,将问题转化为两个更平滑的回归问题(概率回归 + 正均值回归),这利用了数据的结构信息。
- 双向渐近的证明:\(T \to \infty\) 的情形不能简单套用独立同分布理论。作者利用 MRT 的序列随机化性质,构造鞅差分,应用鞅中心极限定理。
-
技术技巧点名:
- Influence Function (影响函数):构造双稳健估计量的核心工具,保证了估计的半参数有效性。
- Neyman Orthogonality (Neyman 正交性):估计方程对干扰参数的导数在真值处为零,这是非参数估计下仍能保持 \(\sqrt{n}\)-收敛的关键。
- Siever Estimation (筛法估计):非参数回归的具体实现,通过多项式基展开逼近未知函数,便于计算收敛率。
- Martingale Theory (鞅理论):用于处理 \(T \to \infty\) 情形下的纵向数据依赖性。
真实例子与应用: - 数据:Drink Less MRT 试验。\(n=350\) 用户,\(T=28\) 天,每天一个决策点(是否发送推送通知)。 - 结局:\(Y_t\) = 发送通知后一小时内打开 App 的屏幕浏览次数。这是典型的零膨胀数据(很多时刻用户根本不看手机,\(Y_t=0\);看了则次数为正整数)。 - 应用:估计发送通知对浏览次数的因果效应,并检验效应是否随时间衰减。 - 结果:发现发送通知显著增加了浏览次数,且效应在干预初期较强,随时间推移有所下降。非参数方法比参数方法(Poisson 回归)捕捉到了更复杂的效应异质性。
🔎 结论是否比证明窄: - 论文声称双稳健性,但理论部分主要证明了在干扰参数估计正确收敛速度下的渐近性质。对于"两个干扰参数模型都错"的情形,虽然估计量仍可能稳健(如具备模型错设下的稳健性),但理论并未严格证明其优于参数方法。这是半参数推断的常见局限,作者在讨论部分有提及。
四、开放问题¶
- 高维历史数据的维数灾难:本文假设筛法能处理历史数据 \(H_t\),但当 \(H_t\) 维数极高(如包含大量传感器流数据)时,非参数筛法仍面临维数灾难。扎根点:Introduction 提到 "high-dimensional observed history",但方法部分假设 \(S_t\) 是低维的,且筛法对维数敏感。能否结合高维统计(如 Lasso、DNN)来估计干扰参数,同时保持双向渐近性?
- 未知倾向得分下的效率边界:MRT 设计下倾向得分已知,但实际中常有偏差(如 Shi & Dempsey 2023 指出)。本文假设 \(p_t(H_t)\) 已知或能被正确估计。若倾向得分模型错设,非参数估计的稳健性如何?扎根点:Theorem 2 的条件。
- 更复杂的零膨胀结构:本文假设零膨胀部分与计数部分独立(或仅通过协变量关联)。若存在潜在相关性(如未观测因素同时影响"是否看手机"和"看多久"),模型识别性如何?扎根点:Two-Part 模型的标准假设,本文未深入讨论内生性。
- 计算效率:筛法在 \(T\) 很大时计算开销巨大。是否有更高效的算法(如在线学习更新)来适应移动健康的实时分析需求?扎根点:Discussion 中提到的计算挑战。
Maintained by 陈星宇 · Homepage · Source on GitHub