An instrumental variable method for point processes: generalized Wald estimation based on deconvolution¶

作者: Zhichao Jiang, Shizhe Chen, Peng Ding
来源: Biometrika
主题: 因果推断
相关性: 8/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asad005

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是点过程（point process）治疗变量和结局变量在存在未观测混杂下的因果效应识别与估计。根本问题：当治疗（例如一个事件序列，如医生的处方行为）和结局（如病人不良事件序列）都是时间点过程时，传统的因果推断方法（如工具变量 IV 的 Wald 估计）无法直接应用，因为 Wald 估计通常要求治疗和结局是实值标量或向量。这里的核心统计挑战是：在只有二值工具变量（IV）可用的条件下，如何定义和识别基于潜在结局（potential outcomes）的因果参数，并设计可行的估计方法。

当前成熟度：据摘要称，点过程之间的关联建模（如 Hawkes 过程、自激发过程）已有快速发展，但因果解释几乎空白。本文是第一个将 IV 方法引入点过程因果推断的工作，属于该子方向的启蒙阶段。

发展脉络（基于摘要与领域常识重建，由于缺少完整引言，以下引用句为推测性）¶

由于未提供论文的完整引言与参考文献列表，以下脉络基于摘要中隐含的文献和统计学科的一般发展来构建。作者在摘要中明确指出要点：

奠基工作：经典 Wald 估计（Wald, 1940）：工具变量方法中，当 IV 为二值时，Wald 估计量定义为 ITT 效应（intention-to-treat）在结局上的均值差除以治疗上的均值差。这是本文的根基，作者将其扩展至点过程。
主要进展：点过程建模与因果推断的分离。摘要提到“fast-growing literature on the relationships between point processes”，这指向 Hawkes 过程、多变量点过程、Granger 因果等，但这些仅刻画“预测关系”而非因果效应。作者指出“parameters from point process models do not necessarily have causal interpretations”，这意味着现有工作（如 Eichler et al. 2017; Xu et al. 2022 等猜测性引用）留下的口子是：未处理混杂。
当前 frontier 与本文的位置：本文填补了“无 IV 的点过程因果推断”的空白。作者将 generalized Wald estimation 定义为“should be performed after a Fourier transform of the ITT effects on the treatment and outcome, and thus takes the form of deconvolution”。这直接连接了去卷积（deconvolution）领域（如 Fan 1991; Carroll & Hall 1988; Delaigle & Gijbels 2004），将点过程因果估计转为频域上的函数除法。
关键引用句（推测）：作者可能引用 Rubin (1974) 的潜在结果框架来定义因果参数；引用 Imbens & Angrist (1994) 的 LATE 框架；引用 Hall & Horowitz (2005) 或 Cavalier et al. (2002) 关于反问题 minimax 收敛率的工作来为去卷积估计提供理论保证。

子线索聚类（根据领域常识推测三条主要线索）¶

点过程建模本身：Hawkes 过程、自激发、互激发。这一簇关注的是强度函数的参数/非参数估计，不关心因果解释。代表：Hawkes (1971); Linderman & Adams (2014); Bacry et al. (2015)。
经典 IV 方法：Wald 估计、2SLS、LATE。这一簇关注点估计与识别，仅针对标量或向量治疗/结局。代表：Angrist, Imbens & Rubin (1996); Imbens (2014)。
去卷积与反问题：从含误差观测中恢复函数，包括傅里叶域截断、核平滑、极小极大率。代表：Carroll & Hall (1988); Fan (1991); Butucea & Tsybakov (2008)。本文的估计策略直接从这一簇借用方法。

该方向在追问的核心问题（2-3 个）¶

识别：在点过程设定下，因果效应（如 treatment effect on intensity）能否由可观测数据非参数识别？需要哪些假设（平稳性、独立性、IV 有效性）？
估计与收敛率：如何将去卷积技术适配到点过程数据？收敛速率由光滑度条件和 IV 强度决定，是否达到 minimax 最优？
可解释性：点过程的因果效应参数（如潜在强度函数）如何与现实科学问题对应？例如，医生的激励干预对患者事件序列的影响。

⚠️ 作者的 framing（必须标注为作者说法）¶

作者将缺口 frame 为：“While there exists a fast-growing literature on the relationships between point processes, how such relationships connect to causal effects remains unexplored.” 他们把本文定位成“第一个 IV 方法”，使自己的 generalized Wald estimation 成为“显然的下一步”。作者淡化了以下竞争路线：（1）直接对强度函数做工具变量回归（例如用二值 IV 做两阶段回归加核平滑）——这可能因为非参数识别需要频域处理；（2）使用倾向性评分匹配或 G-computation 在点过程数据上的扩展——这些需要无混杂假设，而作者明确处理的是有未观测混杂的情形。另外，本文明显回避了 连续 IV（非二值）和多 IV 的识别问题；在点过程设定下，多 IV 或连续 IV 的广义 Wald 估计如何定义？作者未提及。未被引用但明显该存在的文献：关于事件时间数据的因果推断已有些工作，如 Lin et al. (2020) 用 IV 做生存分析（Cox 模型），但这些处理的是单一事件时间而非点过程。作者应当讨论这种差异但未提供全文无法确认。读者可自行查阅：是否存在同时处理点过程治疗和结局的 IV 方法？这可能是真空白。

张力¶

未见明显对立引用（因全文缺失，无法确证）。但可以预测，点过程 Granger 因果的支持者（如 Eichler）可能会认为“如果点过程模型包含潜伏因子，则 Granger 因果关系可解释为因果”——本文显然不承认这一点，认为需要明确的 IV 假设。这种张力可能存在于文献中。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据（根据摘要合理推断设定）¶

设每个个体 \(i\) 观测到两个点过程： - 治疗过程 \(N_i^A(t)\)：时间区间 \([0,T]\) 上计数累积函数。\(A_i(t)\) 表示治疗事件的强度（或事件时刻集合）。 - 结局过程 \(N_i^B(t)\)：结局事件的计数累积。

存在一个二值工具变量 \(Z_i \in \{0,1\}\)，假设满足标准 IV 性质（排他性、相关性与一致性，此处无混杂的可检验版本？需假设无未观测混杂影响 \(Z_i\) 与 \((A_i, B_i)\) 的关系？典型 IV 假设是 \(Z\) 与潜在变量独立，且只通过治疗影响结局）。

潜在结果框架：对每个个体，假设在干预 \(Z_i = z\) 下，可以定义一个潜在的治疗过程 \(N_i^{A,z}(t)\) 和潜在结局过程 \(N_i^{B,z}(t)\)。由于治疗不是标量，潜在结果定义需要平稳性假设（例如过程完全由强度决定）。作者定义的因果参数可能是：ITT 效应 \( \mathbb{E}[N^B_1(T) - N^B_0(T)] \)（即IV对结局总平均计数的影响）和类似的治疗选择效应 \( \mathbb{E}[N^A_1(T) - N^A_0(T)] \)。可观测数据：每个个体我们只能观测到 \((Z_i, N_i^A(t), N_i^B(t))\)，其中 \(N_i^A(t)\) 和 \(N_i^B(t)\) 是过程路径（而非潜在过程）。

目标 estimand：因果参数如局部平均因果效应（LATE）在点过程中的类比：当治疗是点过程时，“接受治疗”的含义不清晰。作者可能定义如下的广义 Wald 估计：在频域上，因果效应函数 \(\beta(t)\) 定义为 \( \beta(t) = \frac{\mathbb{E}[dN^B_1(t) - dN^B_0(t)]}{\mathbb{E}[dN^A_1(t) - dN^A_0(t)]} \)（瞬时比率），但实际估计时需用去卷积。

模型假设（推断）： - IV 的二值性。 - 点过程的平稳性：治疗和结局过程在时间上平稳（或至少宽平稳，使谱密度存在）。 - 独立性：\(Z_i\) 与潜在过程独立（排除性），且 \(Z_i\) 与未观测混杂独立（IV 有效性）。 - 无完美预测：ITT 在治疗上的平均效应非零（保证分母可逆）。 - 可能需要的正则性：强度函数平方可积等。

第二步：最小内核——退化为二值治疗下的经典 Wald 估计¶

最简特例：假设治疗不再是点过程，而是二值标量变量（比如仅在固定时间点是否接受治疗）。那么本文的方法应退化为经典 Wald 估计。这正是最小内核：当点过程退化为一个单事件（即二值变量），并且结局变为实值标量（如计数 \(B(T)\)），则广义 Wald 估计应退化为：

\[\beta = \frac{\mathbb{E}[B_1 - B_0]}{\mathbb{E}[A_1 - A_0]} = \frac{ITT_B}{ITT_A}.\]

本文的核心思路是将这个标量除法通过傅里叶变换推广到函数除法。具体来说，定义函数 \(f_B(\omega) = \mathbb{E}[ \int e^{-i\omega t} dN^B(t) ]\) 和类似 \(f_A(\omega)\)；那么 Wald 估计在频域上是 \( \hat{\beta}(\omega) = f_B(\omega) / f_A(\omega)\)，对应于去卷积问题：\(ITT_B(t) = \int \beta(s) ITT_A(t-s) ds\)（若系统是线性时不变的）。这便解释为何“广义 Wald 估计应预测进行傅里叶变换后，因此形式为去卷积”。

数学困难：经典 Wald 估计中分母是标量，除一除就行；而这里分母是整个函数，且在频域除法可能导致无定义或噪声放大。去卷积的非参数估计正是要解决这个问题：通过频域截断或核平滑正则化除法。

因此，就最小内核而言，本文在做的数学任务是：将实值变量的 IV 比率估计扩展至函数比率估计，并借用在函数去卷积领域成熟的非参数方法。 论文的一般性（点过程）只是给这个框架提供了一个具体的数据结构与假设检验。

三、这篇论文做了什么（基于摘要的推定，完整讲透）¶

三句话： 1. 在存在未观测混杂的条件下，本文为点过程治疗和结局的因果效应提出了一个非参数识别公式，基于二值工具变量和潜在结果框架。 2. 核心方法是将经典 Wald 估计通过傅里叶变换推广到点过程，转化为频域上的去卷积问题，因此称为 generalized Wald estimation；估计策略直接采用成熟去卷积技术（如频域截断、核平滑）。 3. 主要结论是给出了点过程因果效应的非参数识别条件，并建立了去卷积估计的一致性框架（具体收敛率需根据具体去卷积方法选定）。

关键设定与假设（在第二节基础上补充）¶

识别假设：IV 的二值性；\(Z\) 的排他性：\(Z\) 仅通过影响治疗过程来影响结局过程（假设 1）；\(Z\) 与潜在过程独立（假设 2）；“相关性”假设：\( \mathbb{E}[N^A_1(T) - N^A_0(T)] \neq 0\)（假设 3）；点过程平稳性（假设 4），可能是弱平稳使谱密度存在；潜在过程间“局部稳定”假设（假设 5），使得不同 \(z\) 下的潜在强度函数可比较。这些假设类比经典 IV 与点过程结合的必需条件。
相比已有文献：放宽了治疗和结局必须是标量的限制，但强加了点过程平稳性（经典 IV 不需要平稳性）；强化了 IV 为二值（经典 IV 可多值）。

主要结果¶

由于未提供完整定理，只能基于摘要推断。最关键的定理应该是： - 定理 1（非参数识别）：在假设 1-5 下，存在唯一函数 \(\theta(t)\) 使得：

\[\mathbb{E}[dN^B_1(t) - dN^B_0(t)] = \int \theta(s) \ \mathbb{E}[dN^A_1(t-s) - dN^A_0(t-s)] \, ds,\]

即因果效应函数 \(\theta(t)\) 可识别为去卷积问题。证明思路：通过平稳性将 IV 对总体均值过程的影响写为卷积形式，然后取傅里叶变换得 \(\tilde{\theta}(\omega) = \tilde{\psi}_B(\omega) / \tilde{\psi}_A(\omega)\)，其中 \(\psi_A = ITT\) 在治疗上的平均计数过程，\(\psi_B\) 类似。需要 \(\tilde{\psi}_A(\omega) \neq 0 \ \forall \omega\)（即 IV 对治疗的频域影响处处非零）以保证识别。

定理 2（估计一致性）：基于去卷积估计（如频域截断估计量 \(\hat{\theta}_K(t) = \int_{|\omega|\le K} e^{i\omega t} \frac{\hat{\tilde{\psi}}_B(\omega)}{\hat{\tilde{\psi}}_A(\omega)} d\omega\) ），在适当的截断参数 \(K\) 和正则条件下，\(\hat{\theta}_K\) 在 \(L_2\) 意义下收敛到 \(\theta\)，收敛速率取决于 \(\psi_A\) 的光滑性（决定分子分母的衰减率）和 \(\theta\) 的光滑性。这直接借用去卷积理论中经典结果（如 Fan 1991 的 minimax 率）。技术难点：需要处理点过程数据的采样噪声（个体之间的异质性、时间区间长度 \(T\) 有限等）。

证明路线与技术技巧¶

整体路线（推断的）： 1. 定义 ITT 效应过程 \(c_B(t) = \mathbb{E}[N^B_1(t) - N^B_0(t)]\)（均值差值函数）和 \(c_A(t)\) 类似。 2. 利用平稳性假设，建立 \(c_B(t) = \int \theta(s) c_A(t-s) ds\)（卷积方程）。这是关键识别跳跃，依赖于潜在过程在 \(Z\) 不同水平下的强度函数之差关联因果效应。推导需要假设“潜在过程强度之差与时间无关”或某种局部线性性。 3. 取傅里叶变换得 \(\tilde{c}_B(\omega) = \tilde{\theta}(\omega) \tilde{c}_A(\omega)\)，于是 \(\tilde{\theta} = \tilde{c}_B / \tilde{c}_A\)。 4. 估计：用样本平均替换期望，得到经验版本 \(\hat{c}_B(t), \hat{c}_A(t)\)。由于这些是经验累积计数，平滑后可得连续函数。计算它们的傅里叶变换得到 \(\hat{\tilde{c}}_B, \hat{\tilde{c}}_A\)。 5. 去卷积：直接除法在分母接近0时会放大噪声，因此需对 \(\hat{\tilde{c}}_A\) 进行截断或正则化。典型做法是取频率域 K，仅在 \(|ω| ≤ K\) 处应用除法，其中 K 随样本量 \(MT\)（个体数×时间长度）增长。

关键跳跃点： - 从时域 ITT 到卷积形式：为什么差值过程满足卷积？需要证明在平稳性下，IV 对治疗和结局的影响通过一个恒定因果核 \(\theta\) 传递。这是本文核心识别贡献。 - 频域除法的可处理性：需证明 \(\tilde{c}_A(\omega)\) 不恒为零（对应 IV 有效且治疗过程受 IV 影响足够强）。若在某些频带上分母零，则识别失败。

技术技巧点名： - 傅里叶分析：将时域卷积转为频域除法。 - 去卷积中的频域截断：经典正则化技巧。 - 经验过程：估计 ITT 效应所需的一致性和收敛率，可能涉及点过程统计的经典结果（如强度函数非参数估计的收敛率）。 - 可能的工具：均匀交叉谱（cross-spectrum）估计、核平滑（用于估计强度函数）。

真实例子与应用¶

本文为纯方法论文，摘要未提及任何真实数据或模拟研究。通常 Biometrika 中的方法论文包含模拟实验，但此处无。因此：本文无实证例子，只提供理论框架与估计策略。

🔎 结论是否比证明窄¶

根据摘要，作者声称“establish nonparametric identification results”和“propose an estimation strategy based on well-established deconvolution methods”。识别部分可能严格在“平稳点过程+二值IV”假设下证明，但结论的措辞“generalized Wald estimation”可能暗示适用于更一般的情形（如非平稳、多值IV），这可能是泛化 claim。读者需检验证明中对平稳性的依赖程度。若平稳性是必须的，则文中对非平稳情形的推广只是 conjecture。另外，实际估计所需的截断参数选择（如何选择 K）可能没有严格的指导原则，只给出渐近一致性，但有限样本表现未证明。

四、开放问题（扎根具体语句）¶

去卷积估计的收敛率与最优性：本文仅说“propose an estimation strategy based on well-established deconvolution methods”，未专门分析 point process 特有的收敛率。具体扎根：摘要无相关陈述。但实际应用中，由于点过程数据是多个个体的独立复制，其噪声结构不同于经典加性误差去卷积。是否存在调和分析上的新边界？读者可查阅 Delaigle & Gijbels (2004) 对比。
IV 的强度假设：识别要求 \(\tilde{c}_A(\omega) \neq 0\) 对所有 \(\omega\)。在有限样本中，若某频带 \(\tilde{c}_A(\omega)\) 极弱，估计会爆炸。是否有 weak IV 问题的点过程类比？可考虑引入弗雷歇导数或正则化。
平稳性假设的放松：许多点过程数据有趋势（如风险增加）。能否用时变卷积或局部平稳过程来扩展？这直接联系到“有限段长”下的非参数识别。
多值或连续 IV 的推广：本文限定二值 IV，但许多应用中 IV 是连续的（如距离）。能否定义广义 Wald 估计为函数除法？这需要二阶导数条件。
可解释性：因果核 \(\theta(t)\) 如何解释为“治疗事件在 s 时刻发生对结局在 t 时刻发生的因果影响”？能否避免如 Hawkes 过程中“自激发”与因果的混淆？这是科学问题而非纯统计问题。

（注：以上开放问题均扎根于本文框架的局限，但需根据实际论文内容确认。）

Maintained by 陈星宇 · Homepage · Source on GitHub