Distal causal excursion effects: modeling long-term effects of time-varying treatments in micro-randomized trials¶

作者: Tianchen Qian
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向的核心问题是：在微随机试验（micro-randomized trial, MRT）中，如何定义并估计一种时变干预（例如手机推送的步行建议）对远端结果（例如几个月后的平均每日步数）的因果效应？ MRT 中每个参与者在数百个决策点被随机分配干预与否，传统因果游走效应（causal excursion effect, CEE; Boruvka et al. 2018）定义了“在某个时间点接受 vs. 不接受干预”对近端结果（例如之后 30 分钟内的步数）的效应，并通过边际化（marginalization）大部分后续干预分配来保持模型的简约。然而，当研究者关心的是干预对远处（例如 6 周后）的累积或持续性影响时，CEE 框架不直接适用，因为远端结果是在大量决策点之后才被观测，且其间干预分配历史极其复杂。本文提出的远端因果游走效应（DCEE）正是为此场景量身设计的 estimand。这一方向目前仍处于早期成长期：定义了新 estimand、给出了两个渐近正态的估计器，但效率理论（semiparametric efficiency bound）和最优估计仍属空白。

发展脉络¶

奠基工作：MRT 的设计与 CEE 的提出

Liao et al. (2015)：首次系统定义了 MRT 的设计——每个参与者在众多决策点被随机化，以评估“在当下”提供干预的近端效果，并给出了样本量计算公式。这篇工作确立了 MRT 作为下一代行为干预试验设计的地位。
Boruvka et al. (2016/2018)：提出了因果游走效应（CEE）——对比“在当前决策点接受干预”与“不接受干预”对近端结果的影响，并在边际化（marginalizing over）未来几乎所有干预分配的同时，允许效果被时间、上下文或过去治疗反应所调节。CEE 的估计采用带中心的加权最小二乘（weighted, centered least squares），回避了对整个干预历史的建模。

主要进展：CEE 的稳健估计与效率理论

Cheng, Bell & Qian (2023)：推导了 CEE 在身份链接和对数链接下的半参数效率界，并提出了一类两步估计器，达到该效率界且对结局模型和倾向性模型的误设均具有全局鲁棒性。该文还建立了带有交叉拟合和不带交叉拟合的广义 Z-估计量的渐近理论，后来被 Qian (2025) 直接引用来建立 DCEE 估计器的渐近正态性。这是 CEE 家族在估计效率上的一个里程碑。
Bao et al. (2023)：针对二值结局，提出了“每决策逆概率加权”（per-decision IPW）方法，缓解了 MRT 中因后续干预大量存在导致的方差膨胀问题。这是 CEE 框架在特定结局类型上的细化。

当前 frontier：从近端到远端、从单点到序列

Guo, Richardson & Robins (2021)：讨论了对二值结局的时变因果游走效应，并指出了现有 CEE 在某些非正态结局下的理论缺口，为后文的 DCEE 提供了对比基线。
Wu et al. (2024)：提出了一个平衡短期与长期奖励的策略学习框架，其中长期结果可能有缺失——虽然其设定是单个决策后的长期奖励，而非 MRT 中数百个决策点后的远端结果，但指明了“长期 vs 短期”的张力是一个被广泛关注的新方向。
Qian (2025)：在同一作者的另一新工作中，将 CEE 扩展到动态因果中介分析，定义了自然直接和间接游走效应，并给出了乘性稳健的估计器。该工作与 DCEE 一脉相承——都是试图在 MRT 中拓宽可评估的因果问题类型。

本文位置：Qian (2025) 站在这些工作的交汇处，明确指出核心缺口——现有 CEE 框架无法处理远端结果，因为在远端结果被观测之前，已有成百上千个决策点发生了干预。本文提出的 DCEE 正是首创性地弥合了这一缺口，并通过将 CEE 的“边际化”操作扩展到远端结果上，保持了模型的简约性。

子线索聚类¶

CEE 方法学线（Boruvka 2018 → Cheng et al. 2023 → Bao et al. 2023）：专注 CEE 的定义、稳健估计与半参数效率。这是本方向最成熟的一支。
长期效应线（Wu et al. 2024, Qian 2025）：关注如何将短期干预与长期结果联系起来。Qian 的两篇 2025 年工作分别从中介分析和远端效应两个角度切入。
MRT 设计与时序线（Liao et al. 2015 → Klasnja et al. 2018 → Liu et al. 2022）：关注 MRT 本身的试验设计、功率分析、实际操作。DCEE 的提出是为了回答这类试验中科学家真正关心的长期问题。
干扰与非标准设定（Shi et al. 2022, Hudgens & Halloran 2008）：当参与者之间存在干扰或聚类级效应时，CEE 和 DCEE 都需要修正。本文明确排除了这一情况。

这个方向在追问的核心问题¶

Q1：如何定义“干预对远端结果”的因果效应，使其既反映平均治疗效应，又在刺激点众多时保持模型的可解释性？
Q2：这种效应能否仅用可观测数据（如 MRT 的随机化机制）识别，而不需要建模整个干预历史？
Q3：在结局模型可能被误设的情况下，如何构造稳健且渐近有效的估计器？
Q4：这种 estimand 的效率界是什么？现有的两步估计器是否达到了效率界？

当前主流方法：两步估计（M 型估计 + 逆概率加权）。瓶颈：尚无半参数效率理论；对于高度非线性的结局模型，估计器的稳健性边界不明确；当结局是二值或多类别时，需另外开发 per-decision 加权策略。

⚠️ 作者的 framing¶

作者的缺口叙述：“Existing causal inference methods, such as the causal excursion effect, are limited to proximal outcomes, making it challenging to quantify the long-term impact of interventions.” 作者把缺口 frame 为从近端到远端的直接推广——CEE 的核心操作（边际化）可以“自然”地扩展到远端结果。这一叙述淡化了两个竞争路线：

边际结构模型（MSM）与结构嵌套模型（SNM）（Robins 1999, Rudolph et al. 2022）：这些经典模型理论上也能处理远端效应，但作者引用 Rudolph et al. (2022) 指出它们在 MRT 的众多决策点下“变得不切实际，除非施加限制性强且往往不现实的假设”。作者明确将 MSM/SNM 视为不可行路径，从而为 DCEE 的提出让路。
动态治疗方案的 G 估计（Wallace et al. 2017）：理论上可以估计长期效应，但 Wallage 的方法针对的是“最优方案”而非“当前随机化策略下的效应”，且同样在大量决策点时面临不稳定性。

值得研究的缺失：作者没有提及强化学习（RL）在长期效应估计中的应用（如 Hu et al. 2020 讨论的 shaping rewards 问题）。RL 确实需要远端奖励，但其策略优化目标与 DCEE 的“效果评估”目标不同。Qian 2025 的 DCMA 工作已经涉及 RL 中的 reward decomposition，但在 DCEE 中完全没有出现。这是一个潜在的可查缺口——是否已有 RL 方法能直接回答“某个推送策略对 6 周后步数的平均效应”这种 inferential 问题？很可能答案是否定的，但这正是需要研究者去确认的点。

张力¶

未见明显的对立引用。所有引入的工作基本形成了一致的叙事：MRT 好 → CEE 好但不能做远端 → 需要扩展 CEE 做远端。Cheng et al. (2023) 的全局鲁棒性和 Bao et al. (2023) 的 per-decision IPW 是技术上的互补而非对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

本研究涉及的记号系统（一次性清点，后续所有技术节使用的记号都在这里定义）：

决策点：\(t = 1, \ldots, T\)，其中 \(T\) 可能很大（数百甚至上千）。每个 \(t\) 对应于一次可能的干预机会。
时变治疗：\(A_t \in \{0, 1\}\)，表示在第 \(t\) 个决策点是否被随机分配“活动推送”。随机化机制假设已知（这是 MRT 的核心特征，由试验设计者控制）。
近端结果：\(Y_{t, \Delta}\)，定义为第 \(t\) 个决策点后 \(\Delta\) 时间窗口内的结果（例如推送后 30 分钟的步数）。这是 CEE 使用的结局。
远端结果：\(Y_{T+1}\)，表示在最后一个决策点（试验结束）之后观测到的结局（例如第 6 周末的平均每日步数）。这是本文的核心结局。
时变协变量：\(X_t\)，表示第 \(t\) 个决策点之前可观测到的个体状态（时间、心情、位置、过去几天的步数等）。\(H_t = (X_1, A_1, \ldots, A_{t-1}, X_t)\) 是截止到第 \(t\) 个决策点的历史。
游走策略：\(g_t\) 是一个从历史 \(H_t\) 映射到二元决策 \(\{0,1\}\) 的规则，表示“如果按策略 \(g\)，在第 \(t\) 点是否提供治疗”。本文研究的两种游走策略分别记为 \(g_t = 1\) 和 \(g_t = 0\)。
远端因果游走效应（DCEE）：
\[\text{DCEE}(t_0, 1, 0) = \mathbb{E}[Y_{T+1}(1_{A_{t_0}=1}, \text{\emph{marginalized over }} A_{j} \text{ for } j \neq t_0)] - \mathbb{E}[Y_{T+1}(1_{A_{t_0}=0}, \text{\emph{marginalized over }} A_{j} \text{ for } j \neq t_0)],\]
其中 \(A_j\) 按 MRT 的原始随机化概率抽取。直观上：在其他所有决策点上的治疗都按试验原方案随机分配的条件下，在第 \(t_0\) 点强制推送 vs 强制不推送对远端结果的边际效应。这里的“边际化”操作使得模型不会因为 \(T\) 过大而爆炸。
参数化模型：
\[\text{DCEE}(t, 1, 0) = f(t; \beta),\]
其中 \(f\) 是已知函数形式（如线性、多项式、分段常数），\(\beta\) 是有限维参数。这是本文的核心 estimand——一个简洁的参数化曲面。
倾向性（随机化概率）：\(\pi_t(H_t) = P(A_t=1 \mid H_t)\)。在 MRT 中已知或可精确计算。
结局模型（用于稳健性）：\(m_t(H_t) = \mathbb{E}[Y_{T+1} \mid H_t, A_t]\)。这是需要估计的 nuisance。

可观测数据：研究者实际看到的是来自 \(n\) 个独立参与者的数据集 \(\{\{A_{it}, H_{it}, Y_{i,T+1}\}_{t=1}^T\}_{i=1}^n\)。注意，\(Y_{T+1}\) 只在每个参与者的试验结束时观测一次，且是标量（不是每个时间点都有远端结果）。\(A_t\) 是随机化的，\(A_t\) 与 \(H_t\) 的关系完全由试验设计决定。

潜在（potential）数据：\(Y_{T+1}(\bar{a})\)，其中 \(\bar{a} = (a_1, \ldots, a_T)\) 是一个完整的治疗序列。远端结果依赖于整个治疗历史。DCEE 突出的是仅改变某一个 \(t_0\) 点的治疗，其他点按原始随机化分布抽样的边际效应。

第二步：最小内核¶

最简特例：\(T=2\)。

即只有两个决策点（\(t=1\) 和 \(t=2\)）。远端结果 \(Y_3\)（这里用 \(Y_3\) 代替 \(Y_{T+1}\)）在试验结束时观测，是一个标量。这样整个 \(2^2=4\) 个潜在结果 \(\{Y_3(1,1), Y_3(1,0), Y_3(0,1), Y_3(0,0)\}\) 都是定义良好的——虽然观测不到全部。假设 MRT 的随机化是：\(A_1 \perp\!\!\!\perp \text{所有潜在结果} \mid H_1\)（\(A_1\) 与列联不相关，可以依赖 \(H_1\)）和 \(A_2 \perp\!\!\!\perp \text{所有潜在结果} \mid H_2, A_1\)。这是典型的序贯可忽略性假设在 MRT 中的简化版本。

现在定义 DCEE(1, 1, 0)：

\[\text{DCEE}(1, 1, 0) = \mathbb{E}[Y_3(A_1=1, A_2 \sim \pi_2(\cdot))] - \mathbb{E}[Y_3(A_1=0, A_2 \sim \pi_2(\cdot))]\]

其中 \(A_2 \sim \pi_2(\cdot)\) 表示在第 2 个决策点的治疗按原始 MRT 随机化概率独立抽样（也就是说，我们不控制第 2 个点的干预，只让它按试验原方案随机）。这是一个边际平均：我们在第 1 点强行控制治疗赋值，然后让第 2 点“按常发挥”，最后观测远端结果 \(Y_3\)。对比 \(Y_3\) 在两种 \(A_1\) 取值下的均值，就是 DCEE。

关键识别：在 \(T=2\) 下，

\[\mathbb{E}[Y_3(A_1=1, A_2 \sim \pi_2)] = \mathbb{E}_{H_2, A_1=1} \Big[ \mathbb{E}[Y_3 \mid H_2, A_1=1, A_2=1] \cdot \pi_2(H_2) + \mathbb{E}[Y_3 \mid H_2, A_1=1, A_2=0] \cdot (1-\pi_2(H_2)) \Big]\]

上式所有项均可从观测数据估计（因为 \(A_1=1\) 和 \(A_2\) 的随机化确保了条件期望可识别）。这就完成了从人口平均可识别性到估计的桥梁。

推广到一般 \(T\)：更复杂，需要迭代地“边际化”中间决策点，但最简例子 \(T=2\) 已经捕捉了核心想法——只对感兴趣的某个决策点做因果对比，其他点保留随机化生成的自然分布。

三、这篇论文做了什么¶

三句话¶

研究问题：在 MRT 中，定义并估计时变干预对远端结果的长期因果效应——这是现有 CEE 无法覆盖的空白。
核心方法：提出远端因果游走效应（DCEE），一种对比两种游走策略下远端结果的新 estimand，并给出两个两步估计器（带或不带交叉拟合），通过一个逆概率加权项（与 CEE 类似）来回归——该估计器对结局模型的误设具有鲁棒性。渐近性质的建立利用了 Cheng et al. (2023) 中广义 Z-估计量的理论。
主要结论：两个估计器在正则条件下都是 \(\sqrt{n}\)-一致的、渐近正态的，且对结局模型误设保持稳健。仿真验证了其有限样本表现；应用于 HeartSteps MRT 发现：早期的推送对长期习惯养成有更强的效果，暗示了干预时机的重要性。

关键设定与假设¶

设定：\(n\) 个独立个体，每个个体经历 \(T\) 个决策点，在每个点 \(t\) 上随机分配 \(A_t \in \{0,1\}\)；在 \(t=T+1\) 时观测远端标量结果 \(Y_{T+1}\)。
假设 A1（序贯可忽略性）：\(A_t \perp\!\!\!\perp \bar{Y}(a) \mid H_t\)，对于所有可能的治疗序列 \(\bar{a}\) 和所有 \(t\)。在 MRT 中因随机化自动成立。
假设 A2（已知随机化概率）：\(\pi_t(H_t) = P(A_t=1 \mid H_t)\) 已知且有界：\(0 < \pi_t(H_t) < 1\)。这是设计特征。
假设 A3（结果模型的正则条件）：结局回归模型 \(m_t(H_t, A_t)\) 的估计器在 \(L_2(P)\) 意义下以 \(o_p(1)\) 收敛——即不需要 \(n^{-1/2}\) 率，但需要一致。显然这是温和条件，使得稳健性成立——这是与一些现有方法不同的地方。
模型假设：DCEE 本身被参数化为一个够简单且够平滑的形态（例如线性、低次多项式），确保参数估计在有限样本中稳定。这个假设是关于causal parameter的，不是关于 outcome 的。
与已有文献的比较：相比 Boruvka et al. (2018) 仅需假设 CEE 的近端参数化，本文的 DCEE 在更长的预测窗口内工作；相比 Cheng et al. (2023) 要求结局模型达到 \(n^{-1/4}\) 收敛率才能实现有效边界，本文仅要求 \(o_p(1)\) 收敛以保证一致性。这是权衡：牺牲了效率（不声称达到半参数效率界），但降低了对 nuisance 模型精度的要求。

主要结果¶

定理 1（识别性与渐近正态性，非交叉拟合估计器 \(\hat{\beta}_{ncf}\)）：在 A1-A3 以及某些矩条件下，\(\sqrt{n}(\hat{\beta}_{ncf} - \beta_0) \xrightarrow{d} N(0, \Sigma_{ncf})\)，其中 \(\Sigma_{ncf}\) 有一个闭合的渐近方差公式。该估计器由两步构成：首步估计结局模型 \(\hat{m}_t\)，第二步求解一个加权的 M-估计方程，其权重由 \(\pi_t\) 和 \(\hat{m}_t\) 组合形成。

定理 2（交叉拟合估计器 \(\hat{\beta}_{cf}\)）：采用 \(K\)-折交叉拟合，其中每一折都用其余数据估计 \(\hat{m}_t^{(-k)}\)，然后在第 \(k\) 折上评价估计方程。结果：\(\sqrt{n}(\hat{\beta}_{cf} - \beta_0) \xrightarrow{d} N(0, \Sigma_{cf})\)，且 \(\Sigma_{cf}\) 与 \(\Sigma_{ncf}\) 形式相同但可能效率略高（避免过度拟合偏误）。交叉拟合在此处的主要作用是缓解由同一个数据既估结局模型又估因果参数带来的过度拟合偏误，而非如 DML 那样为了达到 \(n^{-1/4}\) 收敛率——因为结局模型只要求 \(o_p(1)\)。

核心直觉：DCEE 估计器本质上比 CEE 估计器多了一个对整个中间历史的求和，但等价于关键权重 \(W_t\)（取决于 \(\pi_t\) 和 \(m_t\)）的累积。一旦权重设定正确，估计方程保证 \(\beta\) 的一致性与渐近正态性，无论结局模型 \(m_t\) 是否被正确指定。

对比 baseline：与 Boruvka et al. (2018) 的 CEE 估计器对比，DCEE 估计器在长期效应上可能更光滑（因为汇总了更多时间点的信息），但从均方误差角度不一定更优——作者在仿真中提供了对比。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

构建估计方程：定义 \(\Psi_n(\beta) = \frac{1}{n}\sum_{i=1}^n \sum_{t=1}^T R_{it}(\beta) = 0\)，其中 \(R_{it}\) 是参与者在 \(t\) 点上的“修正残差”——其形式类似 CEE 的加权残差，但包含一个对 \(Y_{T+1}\) 的条件期望修正项，用来为远端结果而非近端结果赋能。这步把 DCEE 箱到 M-估计量框架中。
通过经验过程论证一致性：借助 Cheng et al. (2023) 中广义 Z-估计量的理论，证明估计方程的期望式在真值 \(\beta_0\) 处为零，且在 \(\beta\) 处是严格单调的（一定唯一性条件）。由于 \(A_t\) 的随机化，这一步不依赖于结局模型 \(m_t\) 的正确性。
建立渐近展开：对 \(\sqrt{n}(\hat{\beta} - \beta_0)\) 写出一阶 Taylor 展开：
\[\sqrt{n}(\hat{\beta} - \beta_0) = \frac{1}{\sqrt{n}} \sum_{i} IF_i + o_p(1),\]
其中 \(IF_i\) 是影响函数，形如一个涉及 treatment 变量、随机化权重的和。
处理交叉拟合：交叉拟合的包络论证需要证明：每一折的估计方程在平均意义下不需修正（因为尽早 \(\beta\) 的真值跨折不变）。交叉拟合的主要好处是允许用更灵活的机器学习算法估计 \(m_t\)，而不必担心为 \(\beta\) 估计带来的偏误。
方差估计：用标准的“sandwich”公式估计 \(\Sigma_{ncf}\) 和 \(\Sigma_{cf}\)，其中中间的“meat”由估计方程的各分量方差给出。

关键跳跃点： - 跳跃点 1：将 DCEE 的识别式写成观测数据的条件期望的和——这需要对远端结果的结构做出一个类似于“sequential regression”的假设，允许将 \(Y_{T+1}\) 投影到每个时间点 \(t\) 上的 \(H_t\) 和 \(A_t\) 上。作者通过一个反向回归技巧（从 \(t=T\) 开始向后做条件期望）实现了这一点。 - 跳跃点 2：证明估计方程的矩条件在结局模型误设下仍成立。这一步被 Cheng et al. (2023) 全局鲁棒性结果覆盖，其关键是权重的设计使误差与目标参数正交——类似 double robustness，但仅需要单一的 nuisance（结局模型）被一致估计，不需要倾向性模型（因为已知）和结局模型同时正确。

技术技巧点名： - 经验过程：用于建立 M-估计量的一致性与渐近正态性，处理 nuisance 函数估计的 Donsker 条件。 - 反回归序列：将远端结果 \(Y_{T+1}\) “反向”分解到每个时间点上的条件期望（即顺序向后插补），这是将 DCEE 识别为“可观测数据函数”的关键。 - 交叉拟合（K-fold cross-fitting）：用于减轻过度拟合偏误，尤其是当结局模型使用高度灵活的工具时。本论文的交叉拟合替代了高维统计中常用的“sample splitting”作为 Donsker 条件的替代。 - 用 Cheng et al. (2023) 的 Z-估计量理论包裹整个证明：避免了从零搭建渐近论证，但要求精细验证 Cheng et al. 的条件在 DCEE 设定下成立。

真实例子与 HeartSteps MRT¶

数据：HeartSteps MRT（Klasnja et al. 2018），44 名参与者，6 周，每天 5 个决策点（共 210 个决策点/人）。干预：是否发送一条“行走建议”推送。原始 CEE 近端结果是推送后 30 分钟步数。本文的远端结果定义为第 6 周末的平均每日步数（一个标量）。协变量包括时间、前一周步数、情绪、位置等。
如何使用方法：将 DCEE 参数化为一个时间 \(t\) 的平滑函数（具体形式为含时间效应的线性模型），并在 44 参与者上估计。因为 \(n\) 小（44），作者只报告了非交叉拟合版本（交叉拟合可能因数据稀疏而不收敛，正如 Zivich & Breskin 2021 / Naimi et al. 2017 所指出的）。也尝试了交叉拟合，结果类似。
结果：DCEE 随时间 \(t\) 衰减——早期决策点（第 1-3 周）的推送对最终步数的平均增益显著（p < 0.05），晚期推送（第 5-6 周）的效应接近零且不显著。CEE 的估计（近端效应）也呈类似模式，但 DCEE 衰减更陡峭。这暗示：早期的行为“刺激”对长期习惯形成更加重要，晚期推送可能只是维持而非真正建立习惯。
例子想说明什么：第一，验证 DCEE 估计器在真实数据中可计算且能给出有意义的（且与 CEE 一致但更敏感）结果；第二，展示因果时序分析的实际价值——行为干预的时机不仅是统计问题，也直接关联干预设计（应在早期加强推送）。

🔎 结论是否比证明窄¶

是。部分地方有跳跃：

在定理的渐近方差表达中，作者断言估计器达到了某种“预渐近有效性”（可以理解为与基于真实 \(m_t\) 的 oracle 估计器有相同的方差），但没有提及半参数效率界（即未声称达到了 \(n^{-1/2}\) 收敛下的最小渐近方差）。文中写道“Our estimators are robust to misspecification of the outcome model”但未指明“且达到效率界”——实际上从 Cheng et al. (2023) 的背景看，若只要求 \(o_p(1)\) 率的结局模型，通常无法达到效率最小的界。效率界的推导本身是一个开放问题，但作者没有明确或在未来工作中提到。
仿真中 ranger 随机森林（Wright & Ziegler 2015）被用于结局模型估计，且最后一节代码示例直接调用了 ranger。但作者没有给出关于随机森林是否满足 \(o_p(1)\) 一致性的理论保证——在低维 \(n=44, T=210\) 场景，随机森林经验上表现良好，但理论上其 \(L_2\) 一致性对高维、强相关协变量并不总是被证明。作者在引用 Naimi et al. 2017 和 Zivich & Breskin 2021 的讨论时隐含了这种风险，但未在理论定理中形式化。
交叉拟合版本的渐近方差公式仅用一个点估计的 met-heuristic 来保证——即它声称等价于非交叉版本，但这是因为“当结局模型对任意折估计一致时，折间误差可忽略”。这需要更细致的方差分解来证实，而本文仅在 CEE 框架中引用 Cheng et al. (2023) 的结果，未给出关于 DCEE 的扩展细节。在仿真中，交叉拟合与非交叉拟合表现非常接近，正好暗示了过度拟合偏误在 \(n=44\) 时可能已由随机化本身控制（因为 \(A_t\) 完全独立，\(m_t\) 的过度拟合难以偏差治疗效应的估计）。

四、开放问题（扎根原文）¶

DCEE 的半参数效率界：本文两个估计器都是 \(\sqrt{n}\)-一致且渐近正态的，但它们的渐近方差是否达到了半参数效率界？作者在引言和结果中未提及效率界，全文也没有类似于 Cheng et al. (2023) 的“efficient influence function”推导。这是一个明确的 open problem——参考 Cheng et al. (2023) 对 CEE 的效率界推导，对 DCEE 做类似分析将是一个直接且重要的后续工作。扎根于“the semiparametric efficiency bound for CEE was derived in Cheng et al. (2023), but such an analysis for DCEE has not been pursued here”。
超过一种 nuisance 估计器的鲁棒性：本估计器对结局模型 \(m_t\) 误设鲁棒，但对倾向性模型 \(\pi_t\) 的误设呢？尽管在 MRT 中 \(\pi_t\) 已知，但若存在非遵守性（non-adherence）或实际分配偏离设计，\(\pi_t\) 也会误设。作者在灵敏度分析一节仅做了短讨论，并未扩展理论。扎根于“Our estimator is robust to misspecified outcome models... in the presence of non-adherence, estimation of the actual randomization probability may require modeling”。
如何对未来 MRT 做 power analysis / sample size calculation：Liao et al. (2015) 为 CEE 的近端效应提供了样本量计算公式，但本文未给出 DCEE 的类似工具。要推广到远端结果，需要新的方差表达式以及不同效应大小的先验。扎根于“Sample size calculations for MRT targeting proximal effects exist (Liao et al., 2016), but analogous tools for DCEE remain to be developed”。
交叉拟合在极小而 \(T\) 极大时的有限样本行为：作者在 HeartSteps 小样本 (\(n=44\), \(T=210\)) 中仅报告了非交叉拟合版本，称交叉拟合可能不收敛。但 Zivich & Breskin (2021) 和 Naimi et al. (2017) 建议交叉拟合几乎总是更好的选择。当 \(n\) 极小（<50）而 \(T\) 极大（>200）时，是否存在统一的理论或 heuristic 来指导何时使用交叉拟合？这可能是一个宝贵的应用场景扩展。扎根于“We recommend using cross-fitting when overfitting bias is a concern … but using the non-cross-fitted version if cross-fitting fails to converge”。

Maintained by 陈星宇 · Homepage · Source on GitHub