Accommodating informative visit times for analysing irregular longitudinal data: a sensitivity analysis approach with balancing weights estimators¶

作者: Sean Yiu, Li Su
来源: Journal of the Royal Statistical Society Series C
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理的是不规则纵向数据（每个个体的观测时间点不同且稀疏）中一个特殊而棘手的偏差源：信息性访问时间（informative visit times）。当患者是否来医院就诊（即“访问时间”）受到其当前健康状况（即“结局”）的驱动时，基于观测数据的统计推断就会出现偏差。例如，病情恶化的患者更频繁地就诊，导致“好”的结局被低估，而“差”的结局被高估。这本质上是缺失数据中的一种非随机缺失（non-ignorable missingness），因为“缺失”（即没来就诊）的概率依赖于尚未被观测到的当前结局。该子方向的成熟度中等偏上：已有若干处理信息性访问时间的标准方法（主要是逆强度加权，IIW），但系统性、透明的敏感性分析框架仍非常欠缺——这正是本文意图填补的缺口。

发展脉络（history）¶

上述intro将核心被引文献组织成一条清晰的演化线索：

奠基工作：建立对“可忽略性”的警觉与检验。
- McCulloch & Neuhaus (2018) 开发了诊断工具，用于检测“结局依赖的访问过程”（outcome dependent visit process）——即数据中是否存在信息性访问。他们提出了评分统计量，用于指导诊断检验的形式。
- Lange et al. (2015) 则将信息性访问时间视作一个可与潜在疾病状态共存的源头，提出了一个联合模型（潜变量连续时间马尔可夫链+马尔可夫调制的泊松过程），以更少偏倚地估计疾病转归参数。
主要进展：提出标准分析方法。
- 逆强度加权（IIW）成为常规选项：通过拟合一个Cox比例强度模型来估计每个观测点的权重（访问强度的倒数），从而创建一个“伪总体”即在其中访问时间与结局无关（给定观测历史）。Coulombe et al. (2021) 在IIW框架中引入了时变治疗和时变混杂，通过广义逆概率治疗权重和比例强度模型的结合来同时调整混杂与信息性监测。
- 联合模型路线（Cai et al., 2012; Cook & Lawless, 2019）走向成熟。这些模型通过共享潜变量（随机效应）来刻画结局与访问过程的相依性，但Cook & Lawless (2019) 明确指出“正确地设定的联合模型即使在高依赖的访问过程下也能给出一致估计”，但同时指出了可识别性和估计问题。
当前前沿与缺口：敏感性分析的缺失。
- 标准方法都依赖于无法从数据中验证的假设（如IIW要求“给定观测历史后，访问时间是结局可忽略的”；联合模型则要求“给定随机效应后，结局与访问时间独立”）。
- Smith et al. (2022) 首次直接针对不规则且信息性评估时间（以临床试验为背景）提出了一个敏感性分析框架。其方法建立在“可解释评估（EA）”假设之上：在该假设下，访问与结局仅通过已收集数据关联。他们基于一个新的影响函数型增广逆强度加权估计量，用指数倾斜参数化偏离EA的程度。这是最接近本文的工作。
- Franks et al. (2018) 为观测研究提供了一个通用的敏感性分析框架，基于Tukey分解将未识别的分布部分表示为选择函数，并提出了可解释的敏感性参数以及基于可观测量的校准启发式方法。该工作未被本文引用于方法部分，但框架极为相似——值得注意。
本文位置：在Smith et al. (2022) 的路线基础上，本文将其从标准化试验设定（预定的评估时间点）推广到观察性队列中完全由个体驱动的访视时间，且创造性引入了平衡权重（未见先例用于信息性访视问题）和基于方差的校准程序，使得敏感性参数的范围具有实际的可解释性。这与Yiu & Su之前的平衡权重工作（2018, 2022）形成了一条自然的延伸线。

子线索聚类¶

逆强度加权及其变体：Coulombe et al. (2021)、Smith et al. (2022) 工作的核心，通过建模访视过程来矫正偏差。主要瓶颈：对强度模型极为敏感，且常导致极端权重。本文直指此问题。
联合模型：Lange et al. (2015)、Cai et al. (2012)、Cook & Lawless (2019)。通过极大化一个联合似然来同时估计访视和结局过程。主要瓶颈：对模型正确指定的要求很高，计算负担大，且可解释性不如IIW。
诊断与敏感性分析：McCulloch & Neuhaus (2018)（诊断），Smith et al. (2022)（敏感性分析）。最新进展。

核心追问¶

在完全由患者驱动的访问时间下（没有预设的试验框架），如何定义“信息性”？ ——即何时访问时间依赖于当前（未观测的）结局？
如何设计一个敏感性分析框架，使其既能灵活地偏离不可验证的可忽略性假设，又能将敏感性参数与可观测量进行校准，从而避免黑箱式的参数范围设定？
在IIW框架下，如何构造权重使得估计量对访视模型的错误指定更稳健，同时保持甚至提升效率？

⚠️ 作者的framing¶

作者把缺口frame成什么：作者强调，现有方法虽然处理了信息性访问，但缺乏对其影响的系统性、定量评估——即对“给定历史后当前结局仍驱动访视”的假设之偏离，没有透明、可校准的敏感性分析。本文的定位是“显而易见的第一步”：将IIW估计框架和敏感性分析“嫁接”起来，并为敏感性参数提供实际的可解释范围。
被淡化/回避的路线：联合模型路线被几乎完全回避。在比较中（模拟部分），作者只与IIW、增广IIW和联合模型的一种简化版本做对比，但没有讨论更复杂的联合模型（如Lange et al. 2015或Cook & Lawless 2019）。这可能是因为联合模型与IIW在哲学上不同（联合建模 vs 加权），而作者自认为其方法更适合IIW的用户群。
什么明显该被引却没出现？：
- Franks et al. (2018) 的论文被引用在方法部分了吗？从摘要看，该工作提出的Tukey分解框架（将已识别和未识别部分分离，以选择函数参数化偏离）与本文的方法论框架有极高的平行性（选择函数、可解释参数、校准）。本文引入了一个“选入函数”（selection function）来描述当前结局对访视的额外影响，这与Franks等人的选择函数在概念上非常相似。为何未被引用于方法部分？这是一个值得研究者去核查的潜在张力点——这要么是（a）两篇方法在技术上并无直接联系（需读正文核实），要么是（b）一个重要的引文缺漏。
- Wen & Seaman (2018)：处理死亡和不可忽略脱落问题中的双稳健性。在纵向因果推断中为本文的估计量做双稳健性扩展是一个明显可走的下一步，但本文未提及。

张力¶

未见明显对立引用。核心被引文献基本是一个“共识—缺口”的演进故事，没有在核心假设上根本对立的论文。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- \( i = 1,\dots, n \) 指示个体。
- \( t \in [0, \tau] \) 为时间指标（如随访天数）。
- \( Y_i(t) \)：个体 i 想要但往往观测不到的、在时间 t 的连续结局（如银屑病关节炎的皮损活动度评分）。仅在访问时间点 \( T_{ij} \) 可以被测量。
- \( T_{ij} \)：个体 i 的第 j 次访问时间（\( j=1,\dots,M_i \)）。这是可观测的。关键假设：访问过程的强度不是随机的。
- \( \mathbf{H}_i(t) \)：截至时间 t 前（不含 t）个体 i 的观测历史向量，包含基线协变量、既往结局、既往访问时间及时间固定的协变量。这也是可观测的（在访问点有记录）。
- \( dN_i(t) \)：个体 i 在时间 t 的访问指示（一个计数过程的增量，1=发生了访问，0=没有）。是一个可观测的过程。
- \( \lambda_i(t|\mathbf{H}_i(t)) \)：访问强度——给定历史，个体在 t 时刻发生一次访问的瞬时概率。\( \mathbb{E} [dN_i(t) | \mathbf{H}_i(t)] = \lambda_i(t|\mathbf{H}_i(t)) dt \)。
- \( \mathbf{X}_i \)：基线（时间固定）协变量向量，一部分与访问的决策有关，另一部分与结局有关。
- 参数：
  - \( \boldsymbol{\beta} \)：边际结构模型（MSM）的参数，定义感兴趣的因果关系（例如，某时变治疗对结局的边际效应）。这是主要estimand。
  - \( g(t) \)：边际均值函数 \( \mu(t) = \mathbb{E}[Y_i(t)] \)，在无治疗假设下，这可能是\( \boldsymbol{\beta} \)的线性或平滑函数。
  - 敏感性参数 \( \alpha \)：一个标量，控制当前结局 \( Y_i(t) \) 对访问强度 \( \lambda_i(t|\cdot) \) 的额外影响，即使已经控制了历史 \( \mathbf{H}_i(t) \)。
模型（最简设定）：
- 首先，一个“无信息性访问”的基准设定是：给定历史 \( \mathbf{H}_i(t) \)，访问 \( dN_i(t) \) 与当前（未观测的）结局 \( Y_i(t) \) 是条件独立的。即 \( \lambda_i(t|\mathbf{H}_i(t), Y_i(t)) = \lambda_i(t|\mathbf{H}_i(t)) \)。如果这个成立，IIW就可以工作。
- 本文引入信息性STRUCTURE模型：
  \( \lambda_i(t|\mathbf{H}_i(t), Y_i(t)) = \lambda_0(t|\mathbf{H}_i(t)) \times \text{exp}[ \alpha \cdot Y_i(t) ] \) 这是最简形式。这里 \( \alpha \) 就是敏感性参数：\( \alpha=0 \) 意味着无信息性访问（基准），\( \alpha \neq 0 \) 意味着访问强度受当前结局影响（\( \alpha>0 \) 暗示更差的健康状况导致更高访问率）。\( \lambda_0(t|\mathbf{H}_i(t)) \) 是给定历史但在当前结局取平均值后的基准强度，可通过可观测数据（反向）估计。
可观测数据：
- 我们能看到的：每个个体的访问时间点集合 \( \{T_{i1},\dots,T_{iM_i}\} \)，以及在这些时间点测得的观测历史 \( \mathbf{H}_i(T_{ij}) \)、结局\( Y_i(T_{ij}) \) 和基线协变量\( \mathbf{X}_i \)。
- 我们想看但看不到的：个体在任何时间 t 的潜在结局 \( Y_i(t) \)（特别是没有访问的时间点），以及导致他们决定在特定时间点来访的未观测因素（即“信息性的那部分”）。
- 核心挑战：\( \lambda_i(t|\mathbf{H}_i(t), Y_i(t)) \) 依赖于 \( Y_i(t) \)，而 \( Y_i(t) \) 在非访问时刻从未被观测——因此这个模型本身是不可识别的，必须通过敏感性分析来处理。

第二步：讲最小内核（最简特例）¶

让我们把问题简化到只有一个时间点 \( t_0 \)（但允许观测发生在不同时间）。假设：

我们想知道在时间 \( t_0 \)，病人的平均结局 \( \mu(t_0) \)。
每个人最多访问一次，时间在区间 \( [t_0 - \delta, t_0 + \delta] \) 内。访问时间 \( T_i \) 服从一个依赖于历史 \( \mathbf{H}_i \) 的强度过程，但更重要的是依赖于潜在的\( Y_i(t_0) \)（即结局）。
观测数据：对于每个风险集（所有未死且活到 \( t_0 \) 的患者），有些人真的在\( T_i \) 时刻出现了（其\( Y_i(T_i) \)被观测了），而大多数人根本没有在\( t_0 \)附近出现（其 \( Y_i(t_0) \) 完全缺失）。

最小内核的数学问题：我们想估计\( \mu(t_0) = \mathbb{E}[Y_i(t_0)] \)，但我们只能观察到在访问时间点 \( T_i \) 测量的、可能是偏差抽样（更偏于病重的病人）的 \( Y_i(T_i) \)。

如果没有信息性（\( \alpha=0 \)）：IIW会做这样的事——对每个在时间 \( t_0 \) 附近有观测的个体 \( i \)，赋予一个权重 \( w_i = 1 / \lambda_i(T_i|\mathbf{H}_i(T_i)) \)。这相当于“逆概率地”把他们的观测值放大，模仿一个“所有人在那一刻都被测量了”的完整样本。如果模型对\( \lambda_i(T_i|\mathbf{H}_i) \)正确指定了（且\( \alpha=0 \)成立），这个权重的重估计就是无偏的。

但现在我们说这个\( \alpha=0 \)可能是假的。我们引入一个很小的、非零的 \( \alpha \)。这个\( \alpha \)意味着：即使你完整知道一个人的历史\( \mathbf{H}_i(T_i) \)，仍有一部分访问的“信息性”来自于他当下的健康状况 \( Y_i(T_i) \)——而且这个影响程度由\( \alpha \)决定。 - 当\( \alpha>0 \)：病得更重的人更愿意来访。这意味着在访问样本中，较差结局的个体比例被“高估”了。如果我们仍用\( \alpha=0 \)的IIW，估计量会系统性低估\( \mu(t_0) \)（因为看到的太多是差的结局）。 - 本文的方法：他们不是简单地假设\( \alpha=0 \)，而是显式地将这个 \( \alpha \) 放入权重中。他们构造了一个新的权重 \( w_i(\alpha) \)，它等于 \( 1 / [\lambda_0(T_i|\mathbf{H}_i) \times \exp( \alpha \cdot Y_i(T_i) ) ] \)。注意，因为分母包含 \( Y_i(T_i) \)，这个权重是不可直接计算的——分母中的 \( Y_i \) 既是你要调整的、也是你知道会受其影响的。但本文将这一项转化为一个“平衡条件”，避免了对\( Y_i \)的直接建模，从而构建出一个可行估计量。

核心思路一句话总结：作者把信息性访问的难题，转化为一个以\( \alpha \)为参数、关于观测历史分布的平衡条件，其中\( \alpha \)的值决定了你需要在大样本中将历史分布“拉回均衡”的程度。通过让不同\( \alpha \)值下计算的平衡权重估计量给出不同的 \( \hat{\mu}(t_0) \)，就得到了一个敏感性分析：如果\( \alpha=0 \)（对估计量无影响），\( \hat{\mu}(t_0) \)不变；如果\( \alpha \)增大（信息性增强），\( \hat{\mu}(t_0) \)的估计值就会发生系统性的移动。

三、这篇论文做了什么¶

三句话¶

研究问题：为不规则纵向数据中由信息性访问时间导致的估计偏差，提供一个系统性的、可校准的敏感性分析方法。
核心方法：在逆强度加权（IIW）框架下，构造基于平衡权重（balancing weights）的稳健估计量，该估计量通过一个包含敏感性参数 \( \alpha \) 的选入函数（selection function）显式刻画当前结局对访问过程的“额外”影响，并附有一个校准程序，将\( \alpha \)的范围锚定到可解释的方差比例上。
主要结论：模拟表明，在各种偏离可忽略性的情景下，所提出的平衡权重估计量在偏差和均方误差上均优于标准IIW及增广IIW估计量，且估计量的效率与稳健性显著提升。

关键设定与假设（在第二节的最小记号上补全）¶

设定：
- 数据为不规则纵向数据，每个个体的访问时间点集是完全由患者自身行为驱动的（而非预设试验时间表）。
- 目标 estimand：边际均值函数 \( \mu(t) = \mathbb{E}[Y_i(t)] \)，即所有个体在时间 t 时的平均潜在结局。这蕴含着需要一个“纵向平均”的概念。
- 访问过程模型：假设为Cox比例强度模型：\( \lambda_i(t|\mathbf{H}_i(t), Y_i(t)) = \lambda_0(t) \exp(\boldsymbol{\eta}^{\mathsf{T}}\mathbf{Z}_i(t) + \alpha Y_i(t)) \)，其中 \( \mathbf{Z}_i(t) \) 是历史\( \mathbf{H}_i(t) \)中影响访问的部分（可观测），\( \lambda_0(t) \) 是非参的基线强度。这里\( Y_i(t) \)是不可观测的当前结局，\( \alpha \)就是敏感性参数。
- 选入函数（selection function）：\( \exp(\alpha Y_i(t)) \)。当\( \alpha=0 \) 时，假设可忽略（即给定历史，访问独立于当前结局）；当\( \alpha \neq 0 \)时，访问受当前结局影响。
- 平衡权重：目标是构造权重 \( w_i(t) \)，使得在加权后的观测样本中，历史变量 \( \mathbf{Z}_i(\cdot) \) 的时间分布在整个研究区间内是均匀的。即：\( \sum_i \mathbf{Z}_i(t) w_i(t) \) 在时间上恒定。
假设：
- 可忽略性给定历史+敏感性参数：这本质上是未验证的识别假设的一个参数化版本。核心是假设：在同时控制了完整观测历史 \( \mathbf{H}_i(t) \) 和当前结局 \( Y_i(t) \) 之后，访问才变得随机（即“无混淆”）。 而参数 \( \alpha \) 决定了当前结局到底起多大的作用。这与随机实验的SUTVA、可忽略性不同，它是对“是什么导致访问不可忽略”的一种具体猜想。
- 正确指定的边际强度模型：\( \lambda_0(t) \exp(\boldsymbol{\eta}^{\mathsf{T}}\mathbf{Z}_i(t)) \) 充分捕捉了访问的基线规律（除了\( \alpha Y_i(t) \) 的效应）。
- 正确设定的边际均值函数：如 \( \mu(t) \) 具有某种参数或半参数形式（例如线性或光滑函数）。
- 没有未测量的协变量引起访问与结局之间的混杂（除了 \( Y_i(t) \) 本身）。

主要结果（挑2个最关键）¶

平衡权重估计量（Balancing Weights Estimator, BW estimate）的定义：
- 给定一个固定的 \( \alpha \)，定义权重 \( w_i(\alpha) = \exp(-\alpha Y_i(T_{ij})) / \lambda_0(T_{ij};\hat{\boldsymbol{\eta}}) \)，其中 \( \lambda_0(T_{ij};\hat{\boldsymbol{\eta}}) \) 是从常规Cox模型（忽略\( Y_i \)）中估计的基准强度。
- 关键难点得到解决：虽然\( \exp(-\alpha Y_i) \) 依赖于不可观测的\( Y_i \)，但作者通过一个巧妙选择，将其吸收进平衡条件中。他们将权重定义为使加权的历史变量 \( \mathbf{Z}_i(T_{ij}) \) 在时间上的分布尽可能均衡的解，而这个解恰好具有形式 \( w_i(\alpha) \)，其中 \( \alpha \) 变成了一个压力参数：当\( \alpha\neq 0 \)时，权重自动修正当前结局（即使从未被建模）的偏差。
- 直觉：大的\( \alpha \)（假设病重导致更多访问）会压高（压缩去看病的患者的）权重，因为这暗示“它们太多了，需要平权”。这种分布上的“对抗式”调整正是平衡权重的精髓。
校准程序（Calibration Procedure）：
- 核心问题：\( \alpha \) 是一个无维度的参数，当取0.1或-0.3时，实际在描述什么？对数据意味着什么？
- 作者的解决办法：
  - 他们量化“\( \alpha \)效应的大小”：计算在强度模型中添加 \( \alpha Y_i(t) \) 后，访问过程残差的方差减小的百分比。
  - 具体来说，拟合一个仅用历史 \( \mathbf{H}_i(t) \) 的Cox模型（相当于\( \alpha=0 \)），获得一个“基线偏差” \( \text{Var}_{\text{base}} \)。然后，对于给定的\( \alpha \)，他们估计“加入 \( Y_i(t) \) 后”可解释的额外方差比例 \( R^2(\alpha) \)。
  - 他们将敏感性分析中的典型范围（例如 \( \alpha \in [-1, 1]\)）转化为“合计可解释的方差比例 \( R^2(\alpha) \in [0, x\%] \)”，例如 \( x\% = 20\% \)。这使得研究者可以思考：“如果当前结局额外解释 20% 的访视时间变异，我的结论会发生多大变化？” —— 这比直接猜基\( \alpha \) 更符合实践直觉。

证明路线与技术技巧¶

整体路线（由两步组成）：
1. 构建可实现的加权估计量：阐述给定 \( \alpha \) 下的平衡权重估计量的形式及其合理性。该步骤本质上是利用一个条件矩条件: \( \mathbb{E}_w[\mathbf{Z}_i(t) | t] \) 在时间上是常数（均衡），来推断出权重表达式（该表达式自动包含了 \( \exp(-\alpha Y_i) \)项）。这是一种“透过平衡可观测协变量来隐含校正未观测Y”的技术。
2. 推导矩条件并对 \( \alpha \) 的一致性检验：证明如果在 \( \alpha = \alpha_{true} \) 下，均衡条件在数据中是成立（即无偏差假设），那么该估计量是一致且渐近正态的。这本质上是一个 GMM（广义矩估计） 或 M估计 的结构，其中 \( \alpha \) 是矩条件中的“超参数”。
关键跳跃点：
- 从“依赖 \( Y_i \)”到“通过平衡实现”：作者展示了，标准 IIW 要计算 \( w = \frac{1}{\lambda(t|H, Y)} \)，但直接计算需要知道 \( Y \) 并明确写出 \( \lambda \)。本文通过声明“加权后历史变量分布均衡”作为唯一约束，被证明是最优的（即）唯一解与基于Cox模型假设下的\( w = \frac{1}{\lambda_0(t|H)\exp(\alpha Y)} \)完全相同，如果要验证无信息性条件，\( \alpha=0 \)时必须以此形式计算。这是一个重要的识别性结果。
技术技巧点名：
- 逆概率加权（IIW）：基础工具，用于调整某些观测点被过度采集的概率。
- 平衡权重（Balancing Weights）：通过矩条件（conditional moment restriction）来隐式地优化权重，而不显式估计模型，减少了模型误设风险。关键技巧是将矩条件求解转化为一个凸优化问题（实际上是线性规划/线性方程解），这在计算上非常稳定。
- 校准（Calibration）到方差比例：这是将参数空间转化为可解释方差增量的桥接方法。这不是一个纯统计技巧，而是一种特别巧妙的参数解释与沟通的工具。

真实例子与应用¶

数据与场景：来自一个银屑病关节炎（PsA） 门诊队列的数据。主要结局是皮损活动度评分（PASD），这是典型的不规则纵向数据（患者只在看病时被测量，看病随症状恶化而变密集）。
方法应用：作者使用该敏感性分析框架，假设一个治疗（例如，TNF抑制剂的使用）的边际效应。他们首先在 \( \alpha=0 \)（无信息性）的标准平衡权重下进行分析。然后，他们运行一系列敏感性分析，让 \( \alpha \) 在一个校准过的 \( R^2 \) 范围内变化。
结果：结果展示了结论（治疗效应的方向、显著性和大小）对信息性访问时间的敏感性如何。虽然在 \( \alpha=0 \) 下显著，但作者可能发现该效应在一定程度的假设偏离下变得不显著或方向逆转——这正是案例分析的价值：它能告诉临床医生，这个统计“显著”的结论对“病人因为病得更重才来看病”的这种假设有多脆弱。
例子想说明什么：它旨在验证该方法的实用性。不仅能提供点估计和置信区间，还能绘制出敏感性曲线（即：随着\( \alpha \)变化，效应估计如何变化），提供了一种直观展示结论稳健性的方法。

🔎 结论是否比证明窄？¶

是，存在潜在的窄化。尽管作者声称方法适用于任意 \( \alpha \) 下的偏差校正，但在证明与校准部分，他们实际上严重依赖于一个结构假设：无需知道也未估计 \( \alpha \) 的真实值，而是通过任意（固定）\( \alpha \) 下给出一个敏感性范围。因此，这篇论文的证明只保证了，对于任意一个固定的、事先设定的 \( \alpha \) 值（例如代入\( \alpha = 0.3 \)），估计量是相合和渐近正态的。
这说明，该论文并没有证明在不假定\( \alpha \)已知的情况下，能够通过数据本身“自动学习”偏差的大小（即实现半参数效率或双重稳健性于未知的偏差模式）。它是一个完全参数化敏感性分析的扩展，只不过参数是固定外生的。
此外，校准转换是启发式的；作者并未证明“由方差比 \( R^2 \) 反推回的 \( \alpha \) ”具有强统计性质（如覆盖正确偏差模型的正确率），这更像一个模型解释工具。

四、开放问题（点到为止，扎根于具体语句）¶

半参数效率界限的外推：
- 本文使用的平衡权重法，对于给定 \( \alpha \) 的估计量，作者是否推导了其半参数效率界？这对求最小方差至关重要。语句锚定：文中仅说了“outperforms existing weighted estimators for robustness and efficiency”，但未给出该估计量是否是最优（即达到局部有效界）的证明。一个开放的、高价值的问题是：在\( \alpha \) 已知或未知的设定下，此类权重的效率界是什么？ 这直接契合研究员对半参数理论和高阶U-统计量的兴趣。
处理多个/未知的敏感性参数：
- 本文只考虑了单个标量参数 \( \alpha \)。实践中，当前结局对访问过程的影响可能不是同一个方向或强度（如，在某时间段内压更低或更高）。语句锚定：文章仅处理了单参数 \( \alpha \) 的选入函数，并在结论部分声称推广到多维是直接的但未做。如何构建一个带有多维敏感性参数（例如，对时间和协变量分层）的半参数双稳健估计是一个困难的开放问题。
标准化为收敛理论：
- 本文未讨论如果强度模型（Cox模型）被极大误设，会发生什么。文章依赖于一个基本原理：如果平衡本身不能实现，加权可能失效。因此，一个关键的开放问题是：如果协变量\( \mathbf{Z}_i(t) \)无法捕捉全部信息，且强度模型也误设严重，那么它的“稳健性”如何量化？这是高维统计与稳健M估计领域的经典问题。
缺失数据的双稳健融合：
- 本文仅处理了信息性访问。当同时存在信息性访问、退出（dropout）和混杂（如同 Yiu & Su 2021 在MSM部分处理过）时，现在有没有一个统一的敏感性分析框架？语句锚定：文中仅在引言末尾提到“对时间变化的混杂尚未涉及”。这正是研究者的primary interests中causal inference和semiparametric theory的重合交叉点。

Maintained by 陈星宇 · Homepage · Source on GitHub