Robust estimation of occupation probabilities for coarsened multistate processes¶

作者: Niklas Nyboe Maltzahn, Gergely Dániel Lukáts, Kjetil Røysland
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.27952

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注的是多状态过程（multistate process）中状态占据概率（occupation probability）的因果推断。根本问题是：在存在右删失（right-censoring）和基线暴露（baseline exposure）两种粗化机制的情况下，如何从观测数据中识别并稳健地估计反事实（counterfactual）状态占据概率——即如果所有个体都接受某一特定干预（如治疗A=1或对照A=0），他们在给定时间点处于某个状态的概率。该方向当前成熟度中等：已有针对特定模型（如竞争风险、illness-death模型、复发事件模型）的稳健估计方法，但缺乏一个能处理任意状态数、非马尔可夫过程、允许时变混杂的统一框架。

发展脉络（history）¶

奠基工作：该方向的理论根基来自缺失数据与因果推断的经典文献。Gill et al. (1997) 系统性地刻画了随机粗化（coarsening at random, CAR） 的充分必要条件，为后续将缺失数据问题转化为可识别问题提供了理论基础。van der Laan & Robins (2003) 的专著《Unified Methods for Censored Longitudinal Data and Causality》则建立了处理删失纵向数据与因果推断的统一半参数框架，特别是给出了在CAR假设下推导有效影响函数（efficient influence function）的一般程序。Hubbard et al. (2000) 将这一框架应用于右删失数据下治疗特异性生存分布的局部有效估计，推导了AIPW估计量，并给出了投影公式——这是本文最直接的技术前身。

主要进展：随后，针对不同多状态模型的特化方法陆续出现。Ozenne et al. (2020) 针对竞争风险模型，推导了平均处理效应（ATE）的双重稳健估计方程，并证明了估计量的正则渐近线性性。Rytgaard et al. (2023) 将TMLE推广到连续时间竞争风险设定，提出了针对绝对风险和生存概率的迭代更新算法。Munch et al. (2023) 针对不可逆illness-death模型（无复发），利用半参数效率理论导出了一类状态占据概率的估计量，并允许使用数据自适应方法估计转移强度函数。Baer et al. (2023) 则处理了复发事件数据中的因果推断，在存在终止事件（terminal event）的情况下提出了多重稳健估计框架。

当前frontier与本文位置：上述方法各有局限——要么局限于特定模型结构（如竞争风险、illness-death、复发事件），要么要求马尔可夫性质，要么无法处理时变混杂。本文声称填补了这一空白：在CAR假设下（允许时变混杂、不要求马尔可夫性质），为任意状态数的多状态过程推导了状态占据概率的AIPW估计量及其有效影响函数，并证明了双重稳健性。作者将本文定位为Hubbard et al. (2000) 框架向一般多状态过程的系统推广。

子线索聚类¶

基于CAR的AIPW估计（本文主线）：Hubbard et al. (2000)、van der Laan & Robins (2003)、van der Laan et al. (1999)。核心思路：在CAR假设下，通过逆概率加权识别目标参数，再通过减去投影到粗化机制得分空间的部分得到有效影响函数，进而构造AIPW估计量。这一线索的特点是不依赖马尔可夫性质，但要求CAR假设。
基于转移强度的估计（竞争路线）：Munch et al. (2023)、Rytgaard et al. (2023)、Ozenne et al. (2020)。核心思路：将目标参数（如状态占据概率）视为转移强度函数的泛函，先估计转移强度（通常用Cox模型或惩罚Poisson回归），再通过Aalen-Johansen估计量或类似方法得到占据概率。这一线索的优点是直接建模过程动力学，但通常需要马尔可夫假设或更复杂的非参数估计。
针对特定模型的特化方法：Baer et al. (2023)（复发事件+终止事件）、Cai & van der Laan (2020)（一步TMLE for time-to-event）、Kim et al. (2021)（增量干预效应+多时间点）。这些方法针对特定数据结构优化了估计量，但难以直接推广到一般多状态过程。

这个方向在追问的核心问题¶

识别问题：在什么假设下，反事实状态占据概率可以从观测数据中识别？CAR vs. 序贯可交换性（sequential exchangeability）——哪个更弱、哪个更现实？
效率问题：给定识别假设，半参数效率界是什么？如何构造达到该界的估计量？
稳健性问题：当部分模型（倾向性得分、删失模型、结果回归）被误指定时，估计量是否仍然一致？双重稳健性是否成立？
高维/非参数问题：当状态数多、时变协变量维度高时，如何避免维数灾难？能否用机器学习估计 nuisance 参数并仍保持√n收敛？

已知瓶颈：CAR假设虽然比条件独立删失更弱，但隐含了跨世界假设（cross-world assumptions），这在因果推断中是有争议的（Baer et al., 2023 明确指出了这一点）。此外，CAR下的正性假设（positivity）在有限样本中很难满足，特别是当过程历史复杂时。

⚠️ 作者的 framing¶

作者把缺口 frame 成：现有方法要么局限于特定模型（竞争风险、illness-death、复发事件），要么要求马尔可夫性质，要么无法处理时变混杂。本文通过采用CAR假设（而非更常见的条件独立删失），声称能够统一处理任意状态数的多状态过程，不要求马尔可夫性质，允许时变混杂。作者在引言中明确写道："with our weak assumption criteria, the proposed estimators apply broadly to multistate models with an arbitrary number of states, and allow state transitions and time-varying covariates to be non-Markov processes, unlike previous methods which are tailored to specific models under various restrictive criteria."

被淡化或回避的竞争路线： - 基于转移强度的方法被作者定位为"case specific"，且指出在一般多状态模型中转移数（K²-K）远多于状态数（K），因此估计所有转移强度是"过度参数化"的。但作者没有正面回应：如果转移强度本身是研究兴趣所在（如理解疾病进展机制），那么直接估计占据概率可能是不够的。 - 序贯可交换性（sequential exchangeability） 这一在纵向因果推断中更常见的假设被完全回避。作者没有讨论CAR与序贯可交换性之间的关系，也没有解释为什么在连续时间多状态设定中CAR比序贯可交换性更合理。

什么明显该被引/该存在、却没出现在intro里？ - Kennedy (2020, 2022) 关于双重稳健估计和半参数效率理论的综述性工作——虽然Kennedy (2022) 被引用了（在讨论交叉拟合时），但Kennedy (2020) 关于CATE估计的通用误差界和oracle不等式没有被引用，尽管其"伪结果回归"（pseudo-outcome regression）思路与本文估计η和Q的方法高度相关。 - Robins & Rotnitzky (1992) 关于利用替代标记恢复删失数据信息的经典工作——虽然被引用了（在讨论伪结果回归时），但其在AIPW估计量发展中的奠基性地位没有被充分强调。 - 关于"modified AIPW"的文献——van der Laan & Jewell (2003) 被引用了（在讨论诊断工具时），但更系统的关于"modified"或"targeted"估计量的理论（如TMLE）没有被深入讨论。

张力¶

未见明显对立引用。各被引工作之间在方法论上互补而非矛盾：Hubbard et al. (2000) 提供了AIPW框架，Munch et al. (2023) 和 Rytgaard et al. (2023) 提供了针对特定模型的特化，本文则试图统一。唯一的潜在张力是CAR vs. 序贯可交换性——Baer et al. (2023) 明确指出CAR隐含跨世界假设，而序贯可交换性则没有。但本文没有正面回应这一批评。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - 状态与过程：\(Z^a(t) \in [K] := \{1, \dots, K\}\) 是反事实多状态过程，表示个体在干预\(a \in \{0,1\}\)下时刻\(t\)所处的状态。\(E^{abs} \subset [K]\) 是吸收状态集（如死亡）。\(\tau^a := \inf\{t: Z^a(t) \in E^{abs}\}\) 是吸收时间。 - 协变量：\(L^a(t)\) 是时变协变量过程（如血压）。\(W\) 是基线协变量（包含\(L(0)\)），不依赖于\(a\)。 - 完整数据：\(\bar{X}^a := \{X^a(s): s \leq \tau^a\}\)，其中\(X^a(u) := \{1\{\tau^a \leq u\}, Z^a(u), L^a(u)\}\)。完整反事实数据为\(\bar{\mathbf{X}} := (\bar{X}^0, \bar{X}^1)\)。 - 目标参数：\(\psi_{t_0, j}^{\bar{\mathbf{X}}}(F) := E_F[1\{Z^a(\tau^a \wedge t_0) = j\}]\)，即反事实状态占据概率。下标\(t_0\)和\(j\)常被省略。 - 粗化机制：\(C^a\) 是反事实右删失时间。\(A\) 是观测到的二元治疗变量。粗化变量为\((C^A, A)\)。观测到的删失时间\(C := C^A\)。 - 观测数据：\(O^A = (C^A, A, \Delta^A, \bar{Z}^A(\tau^A \wedge C^A), \bar{L}^A(\tau^A \wedge C^A))\)，其中\(\Delta^A := 1\{\tau^A \leq C^A\}\) 是事件指示。观测到的停止时间\(\tilde{\tau} := \tau^A \wedge C^A\)。 - \(t_0\)-删失指示：\(\Delta_{t_0}^a := \Delta^a \vee 1\{C^a \geq t_0\} = 1\{\tau^a \wedge t_0 \leq C^a\}\)，表示个体在\(t_0\)之前是否未被删失。 - nuisance参数：\(\pi(a|W) := P(A=a|W)\) 是倾向性得分。\(G(t|\bar{X}^a, a) := P(C^a > t|\bar{X}^a)\) 是删失生存函数。\(\eta(u, \bar{X}(u), a) := E[H|\bar{X}(u), \tilde{\tau} \geq u, A=a]\)，其中\(H := 1\{Z(\tilde{\tau} \wedge t_0) = j\}\)。\(Q(a, W) := E[H|A=a, W]\)。

模型： - 完整数据\(\bar{\mathbf{X}}\)服从某个未知分布\(F\)。粗化机制由\(\pi\)和\(G\)决定。关键假设是一致性（consistency）、正性（positivity）和可交换性（exchangeability/CAR）。在CAR下，粗化核分解为\(\pi(a|W) G(dt|\bar{X}^a(t), a)\)。 - 不要求马尔可夫性质：\(Z^a(t)\)的转移可以依赖于完整历史\(\bar{X}^a(t)\)。

可观测数据： - 研究者实际能观测到的是\(n\)个独立同分布的\(O_i = (C_i, A_i, \Delta_i, \bar{Z}_i(\tilde{\tau}_i), \bar{L}_i(\tilde{\tau}_i))\)。注意：\(\bar{Z}_i\)和\(\bar{L}_i\)只观测到\(\tilde{\tau}_i\)时刻为止。对于被删失的个体（\(\Delta_i=0\)），我们不知道\(\tau_i\)，也不知道\(\tau_i\)之后的状态和协变量。 - 想要但观测不到的是：完整反事实过程\(\bar{X}^0\)和\(\bar{X}^1\)，特别是对于被删失的个体，其反事实状态\(Z^a(\tau^a \wedge t_0)\)。

第二步：最小内核¶

最简特例：考虑一个两状态（存活/死亡）模型，\(K=2\)，\(E^{abs}=\{2\}\)（死亡）。目标参数是反事实生存概率\(\psi(t_0) = P(Z^a(\tau^a \wedge t_0) = 1) = P(\tau^a > t_0)\)，即经典的生存函数。假设没有时变协变量（\(L^a(t)\)为空），只有基线协变量\(W\)。进一步假设删失时间\(C^a\)独立于\(\tau^a\)给定\(W\)（即条件独立删失，这是CAR的一个特例）。在这个特例下：

识别：反事实生存概率由IPW估计量识别：
\[\psi(t_0) = E\left[ \frac{1\{A=a\} 1\{\tilde{\tau} > t_0\}}{\pi(a|W) G(t_0|W)} \right]\]
其中\(G(t_0|W) = P(C > t_0|W)\)。直觉：每个未删失的个体被加权\(1/(\pi G)\)，以代表那些因治疗分配或删失而"丢失"的个体。
有效影响函数：在这个特例下，\(\eta(u, \bar{X}(u), a)\)退化为\(E[1\{\tau > t_0\}|\tau > u, A=a, W]\)（因为\(\bar{X}(u)\)只包含\(\tau > u\)的信息），\(Q(a, W) = E[1\{\tau > t_0\}|A=a, W]\)。有效影响函数为：
\[IF_{\psi} = \frac{1\{A=a\} 1\{\tilde{\tau} > t_0\}}{\pi(a|W) G(t_0|W)} - \left(\frac{1\{A=a\}}{\pi(a|W)} - 1\right) Q(a, W) - \frac{1\{A=a\}}{\pi(a|W)} \int_0^{t_0} \frac{\eta(u, W)}{G(u|W)} dM_G(u)\]
其中\(M_G(u)\)是删失计数过程的鞅。
核心思路：第一项是IPW估计量。第二项减去倾向性得分的投影，使得当\(\pi\)被误指定但\(Q\)正确时，估计量仍然一致（双重稳健性的第一层）。第三项减去删失鞅的投影，使得当\(G\)被误指定但\(\eta\)正确时，估计量仍然一致（双重稳健性的第二层）。整个论文的一般情形只是这个特例的"加壳"——将两状态推广到多状态，将条件独立删失推广到CAR（允许删失依赖于过程历史），将基线协变量推广到时变协变量。
为什么难：在一般情形下，\(\eta(u, \bar{X}(u), a)\)依赖于完整过程历史\(\bar{X}(u)\)，而不仅仅是"存活"指示。这使得\(\eta\)的估计变得复杂——需要回归加权伪结果（pseudo-outcomes）对历史摘要。此外，删失鞅的积分涉及对\(\eta\)和\(G\)的乘积，其收敛率分析（特别是余项\(R(\hat{\mu}, \mu_0)\)中的积分项）是技术难点。

三、这篇论文做了什么¶

三句话¶

研究问题：在存在右删失和基线暴露两种粗化机制的多状态过程中，如何识别并稳健估计反事实状态占据概率（包括作为其泛函的期望停留时间ELOS）。
核心工具/方法：在CAR假设下，推导了目标参数的有效影响函数，并基于此构造了五种估计量（IPW、两种AIPW、两种modified AIPW），其中\(\hat{\psi}_n^\mu\)（一步估计量）具有双重稳健性。
主要结论：理论推导表明，\(\hat{\psi}_n^\mu\)在\(\pi\)或\(Q\)正确且\(G\)或\(\eta\)正确的条件下一致；模拟实验验证了其有限样本下的稳健性和效率优势。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 数据生成：完整数据\(\bar{\mathbf{X}} = (\bar{X}^0, \bar{X}^1)\)，其中\(\bar{X}^a\)包含状态过程\(Z^a\)、时变协变量\(L^a\)和吸收指示。粗化变量\((C^A, A)\)将完整数据粗化为观测数据\(O\)。 - 假设： 1. 一致性：观测数据是完整反事实数据的"一致粗化"——当\(A=a\)时，观测到的过程等于\(Z^a\)，观测到的删失等于\(C^a\)。 2. 正性：\(P(A=a|W) > 0\)且\(P(C^a > t|\bar{X}^a) > 0\)，\(P\)-a.s.。这意味着每个治疗组都有非零概率，且在任何历史下都有非零概率不被删失到时间\(t\)。 3. 可交换性（CAR）：三个条件——(3) \(\bar{X}^a, C^a \perp\!\!\!\perp A | W\)（治疗分配独立于反事实过程和删失，给定基线）；(4) 给定\(\bar{X}^a\)，\((A, C^a)\)的条件分布只依赖于\(\bar{X}^a\)（而非\(\bar{X}^{1-a}\)）；(5) 给定\(\bar{X}^a\)，\((A, C^a)\)的条件分布只依赖于\(\bar{X}^a(t)\)（而非未来历史）。条件(5)意味着删失风险在时刻\(t\)只依赖于到\(t\)为止的历史。

相比已有文献的放宽/强化： - 放宽：不要求马尔可夫性质（vs. Munch et al. 2023 的illness-death模型虽非参数但依赖特定结构）；允许时变混杂（vs. Ozenne et al. 2020 只考虑基线协变量）。 - 强化：CAR假设比条件独立删失更强——它隐含了跨世界假设（Baer et al., 2023 指出这一点）。此外，正性假设(2)要求\(P(C^a > t|\bar{X}^a) > 0\)，这在过程历史复杂时很难满足。

主要结果¶

定理1（识别）：在假设1-3下，反事实状态占据概率由IPW估计量识别：

\[\psi_{t_0, j}^{\bar{\mathbf{X}}}(F) = E_{F,G,\pi}\left[ \frac{1\{A=a\} \Delta_{t_0} 1\{Z(\tilde{\tau} \wedge t_0) = j\}}{\pi(a|W) G(\tilde{\tau} \wedge t_0 | \bar{X}(C), A)} \right]\]

证明思路：通过迭代期望，条件于\(\bar{X}^a\)，利用一致性、正性和CAR。

定理2（有效影响函数）：在CAR下，目标参数\(\psi\)的有效影响函数为：

\[IF_{\psi} = IF_0 - IF_\pi - IF_G\]

其中\(IF_0\)是IPW得分，\(IF_\pi\)和\(IF_G\)分别是投影到\(\pi\)和\(G\)的得分空间的部分，具体形式见公式(12)-(13)。证明路线：三步法——(1) 推导完整数据有效得分；(2) 通过IPW映射到观测数据得分空间；(3) 减去投影到粗化机制得分空间的部分。投影公式借鉴Hubbard et al. (2000)。

定理3（双重稳健性）：\(\hat{\psi}_n^\mu\)在以下条件下一致：(\(\hat{\pi}\)一致或\(\hat{Q}\)一致) 且 (\(\hat{G}\)一致或\(\hat{\eta}\)一致)。证明见附录C，通过验证\(E_{\theta_0}[\mu(O, \gamma_1)] = E_{\theta_0}[\mu(O, \gamma_0)]\)在给定条件下成立。

定理4（收敛率）：在正性假设、率条件(27)-(28)和经验过程假设下，\(\hat{\psi}_n^\mu\)是渐近线性的，影响函数为\(IF_{\psi}\)，因此\(\sqrt{n}\)收敛。率条件(27)要求\(\sqrt{n}(1/(r_n^{\hat{\pi}} r_n^{\hat{G}}) + 1/(r_n^{\hat{\pi}} r_n^{\hat{Q}})) = o(1)\)，即倾向性得分和删失/结果回归的收敛率乘积必须快于\(1/\sqrt{n}\)。条件(28)要求积分项为\(o_p(1/\sqrt{n})\)，但作者承认这是一个"开放问题"——如何选择适当的范数来建立类似(27)的乘积率条件并不显然。

证明路线与技术技巧¶

整体路线（以\(\hat{\psi}_n^\mu\)的渐近线性性证明为例）： 1. 分解：将\(\hat{\psi}_n^\mu - \psi_0\)分解为\(P_n f_0 - P_0 f_0\)（经验过程项）+ \(P_0(\hat{f} - f_0)\)（余项），其中\(f = \mu\)。 2. 控制经验过程项：假设\(\hat{\mu}\)属于Donsker类且\(\|\hat{\mu} - \mu_0\| = o_p(1)\)，则\((P_n - P_0)(\hat{f} - f_0) = o_p(1/\sqrt{n})\)。 3. 控制余项：将\(P_0(\hat{\mu} - \mu_0)\)表示为三个项的乘积和积分，见公式(26)。利用Cauchy-Schwarz和正性假设，将余项界为\(\|\pi_0 - \hat{\pi}\| \cdot \|Q_0(G_0) - \hat{Q}(\hat{G})\|\)加上积分项。 4. 应用率条件：由率条件(27)和(28)，余项为\(o_p(1/\sqrt{n})\)。 5. 结论：\(\hat{\psi}_n^\mu - \psi_0 = P_n(IF_{\psi}) + o_p(1/\sqrt{n})\)，即渐近线性。

关键跳跃点： - 余项中的积分项（公式26第三行）：\(\int (\hat{\eta}(\hat{G}) - \eta_0(G_0)) / \hat{G} \, d(\Lambda_{G_0} - \hat{\Lambda}_G)\)。这是最吃功夫的部分。作者承认，即使是最简单的情形，如何选择适当的范数来建立乘积率条件也是"开放问题"（Munch, 2023 p.24）。本文没有解决这个问题，而是直接假设(28)成立。 - \(\hat{Q}(G_0)\)与\(\hat{Q}(\hat{G})\)的差异：作者通过线性平滑器的Stone定理论证\(\|\hat{Q}(G_0) - \hat{Q}(\hat{G})\| = O_p(1/r_n^{\hat{G}})\)，但这一论证依赖于\(\hat{Q}\)是线性平滑器（如局部多项式回归）的假设。

技术技巧点名： - 影响函数投影：利用Hubbard et al. (2000)的投影公式，将IPW得分投影到粗化机制得分空间。这是半参数效率理论的标准技巧。 - 鞅表示：将删失过程表示为计数过程的鞅，利用鞅的随机积分性质推导\(IF_G\)。这是生存分析的标准技巧。 - 伪结果回归（pseudo-outcome regression）：估计\(\eta\)和\(Q\)时，将加权观测值作为伪结果，回归到历史摘要上。这一技巧来自Fan & Gijbels (1994)和Robins & Rotnitzky (1992)。 - Breslow估计量：用于估计累积删失风险，其渐近线性表示来自Lopuhaä & Nane (2013)。 - modified AIPW：通过OLS回归估计投影系数，以在nuisance估计有偏时恢复正交性。这一技巧来自van der Laan & Robins (2003)。

真实例子与应用¶

本文为纯理论+模拟研究，无真实数据例子。模拟实验设计如下： - 数据生成：三状态illness-death模型（健康→疾病→死亡），允许复发（疾病→健康）。基线协变量包括性别、年龄（经sigmoid变换）、BMI（经分段sigmoid变换）。治疗分配由logistic模型生成，依赖于基线协变量。删失时间由Cox模型生成，依赖于治疗、基线协变量和过程历史（当前状态是否为疾病、首次进入疾病的时间）。 - 方法应用：五种估计量（IPW、\(\nu\)、\(\mu\)、\(\nu^{mod}\)、\(\mu^{mod}\)）被应用于模拟数据。nuisance参数估计：\(\pi\)用logistic回归，\(G\)用Cox回归+Breslow估计量，\(\eta\)和\(Q\)用二阶多项式回归（加权伪结果）。 - 结果：当所有nuisance估计一致时，所有估计量无偏，\(\mu\)估计量的RMSE最低（效率最高）。当\(\pi\)被误指定时，IPW严重有偏，而AIPW估计量稳健。当\(G\)被误指定时，IPW和\(\nu\)有偏，\(\mu\)稳健（但\(\mu\)的稳健性不完全，因为\(\eta\)的估计依赖于\(\hat{G}\)）。当\(\eta\)或\(Q\)被误指定时，所有估计量无偏但效率降低，modified AIPW略有改善。 - 这个例子想说明：验证理论预测——\(\mu\)估计量的双重稳健性和效率优势；展示modified AIPW的诊断价值（回归系数\(\beta_\pi^*\)和\(\beta_G^*\)接近1表明nuisance估计一致）。

🔎 结论是否比证明窄¶

双重稳健性的证明（附录C）依赖于\(\eta\)和\(Q\)的"正确"定义——即\(\eta_0(u, \bar{X}(u), a) = E[H|\bar{X}(u), \tilde{\tau} \geq u, A=a]\)，\(Q_0(a, W) = E[H|A=a, W]\)。但在实践中，\(\eta\)和\(Q\)是通过回归估计的，其一致性依赖于回归模型的正确指定。作者在模拟中使用的是二阶多项式回归，这显然是对真实函数形式的近似，而非正确指定。因此，模拟中观察到的"双重稳健性"可能部分归因于近似误差较小，而非理论上的完全稳健。
收敛率定理（Section 3.3）依赖于条件(28)（积分项为\(o_p(1/\sqrt{n})\)），但作者明确承认这是一个"开放问题"（"It is not obvious, even in the simplest cases, how to select appropriate norms on the integrand and the integrator such that product rate condition similar to (27) can be established to ensure (28). This is an open problem, which we do not address in this paper."）。这意味着本文并没有严格证明\(\hat{\psi}_n^\mu\)的\(\sqrt{n}\)收敛性——它是在一个未验证的条件(28)下声称的。
效率最优性：作者声称\(\hat{\psi}_n^\mu\)是"半参数有效的"，但这一结论依赖于(1) CAR假设下得分空间是最大的（即模型是非参数的），以及(2) 影响函数\(IF_{\psi}\)确实是有效影响函数。条件(1)在CAR下成立（Gill et al., 1997），条件(2)通过三步法推导。但有效影响函数的推导依赖于投影公式的正确性，而投影公式的严格证明在附录B中给出，其正确性依赖于CAR假设的细节。如果CAR假设不成立，则\(IF_{\psi}\)可能不是有效的。

四、开放问题¶

积分项收敛率的严格刻画（扎根于Section 3.3条件(28)及作者自承的开放问题）：如何选择适当的范数，使得\(\int (\hat{\eta}(\hat{G}) - \eta_0(G_0)) / \hat{G} \, d(\Lambda_{G_0} - \hat{\Lambda}_G) = o_p(1/\sqrt{n})\)？这是证明\(\hat{\psi}_n^\mu\)的\(\sqrt{n}\)收敛性的关键缺口。可能的路径：利用经验过程理论或高阶展开，将积分项表示为乘积项的和，再应用乘积率条件。
CAR假设的合理性检验（扎根于Section 5.2作者对CAR的讨论及Baer et al., 2023的批评）：CAR隐含跨世界假设——\(C^a\)的条件分布给定\(\bar{X}^a\)不依赖于\(\bar{X}^{1-a}\)。在观测研究中，这一假设是否比序贯可交换性更合理？能否发展出类似于倾向性得分匹配的检验方法？或者，能否在更弱的假设（如部分可交换性）下识别目标参数？
高维/非参数nuisance估计的理论保证（扎根于Section 3.3的率条件(27)和模拟中使用的参数化nuisance模型）：当\(\pi\)、\(G\)、\(\eta\)、\(Q\)用机器学习方法（如随机森林、神经网络）估计时，率条件(27)是否仍然成立？特别是，\(\|\hat{Q}(G_0) - \hat{Q}(\hat{G})\| = O_p(1/r_n^{\hat{G}})\)的论证依赖于\(\hat{Q}\)是线性平滑器——对于非线性方法，这一条件是否仍然成立？交叉拟合（cross-fitting）能否放松Donsker类条件？
modified AIPW的理论性质（扎根于Section 3.1和模拟结果）：当nuisance估计有偏时，modified AIPW通过OLS回归调整投影系数。这一调整的渐近性质是什么？在什么条件下，modified AIPW比未modified版本有更小的渐近方差？模拟中观察到的改进有限——这是否意味着在大多数实际设定中，modified AIPW的增益可以忽略？

Maintained by 陈星宇 · Homepage · Source on GitHub