Semi-parametric sensitivity analysis for trials with irregular and informative assessment times¶
作者: Bonnie B Smith, Yujing Gao, Shu Yang, Ravi Varadhan, Andrea J Apter et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本方向处理的是随机对照试验(RCT)中,由于随访评估时间不规则且具有信息性(informative)而导致的治疗效果估计难题。具体而言,试验计划在固定时间点(如基线后3、6、12个月)测量结局,但实际评估时间可能与计划严重偏离,且评估是否发生(或何时发生)本身可能与未被观测到的结局状态相关。例如,病情恶化的患者可能更不愿来随访,导致其结局数据缺失。这本质上是一种信息性缺失数据问题与纵向因果推断的结合:我们想估计的是在计划时间点的治疗效应,但观测到的数据是在不规则、有信息性的时间点上取得的。该方向的成熟度尚在发展期——已有处理方法(如基于联合建模或逆概率加权),但普遍依赖不可检验的假设,缺乏系统性的敏感性分析工具。
发展脉络(从introduction + 参考文献构建)¶
-
奠基工作:将不规则评估视为缺失数据问题
- Little & Rubin (2002) & 其他缺失数据经典: 奠定了缺失数据分类框架(MCAR, MAR, MNAR)。本文引用语境是将其作为“评估时间缺失”问题的理论基础。
- Robins, Rotnitzky & Zhao (1995) (逆概率加权, IPW) 及 Robins (2000) (增强逆概率加权, AIPW) : 建立了处理信息性缺失的估计框架。本文的核心估计器(增强逆强度加权)正是该思路的推广。文中提到“基于影响函数的估计器”来自Robins & Rotnitzky (1992)等经典工作。
-
主要进展:针对不规则评估时间的专用方法
- “忽略评估时间”的朴素方法: 仅分析有数据的时间点,或对时间窗口内的数据进行“回贴”(windowing)。作者通过引用指出这些方法可能产生严重偏差。
- 基于联合建模的方法: 通过共享随机效应(shared random effects)或潜变量同时建模评估过程与结局过程。核心被引包括:Lin & Ying (2001), Lipsitz et al. (2002), Liang et al. (2009), Cai et al. (2012), Sun et al. (2012), Pullenayegum (2016)。作者认为这类方法虽然能处理信息性,但通常依赖于额外的、难以验证的分布假设,且计算复杂。
- 基于逆概率加权(IPW)与时变“评估倾向”建模的方法: 通过拟合评估时间的强度/概率模型(如Cox回归),然后以逆概率加权的方式估计目标效应。本文所在的子线索正是此分支,但向前推进了一步。
- 敏感性分析的兴起: Cinelli & Hazlett (2019), Franks, D'Amour & Feller (2018), Veitch & Zaveri (2020), Sjölander et al. (2022) 等工作在观测性因果推断的敏感性分析领域取得了突破,但其设定多为单时间点、横截面或缺失数据的敏感性分析。作者试图将其核心思想(通过敏感性参数量化偏离“无未观测混杂”假设的程度)引入到不规则评估时间的纵向RCT场景中。
-
当前frontier与本文的位置 当前frontier是:如何在保留半参数灵活性(不依赖于联合建模的分布假设)的同时,为不规则评估时间问题提供一套完整的、可操作的、基于一个可解释的基准假设的敏感性分析框架。本文填上了这个缺口:它选择“可解释评估”(EA)作为基准假设,通过一个指数倾斜模型引入单一敏感性参数来量化偏离EA的程度,并利用影响函数理论构建了一个增强逆强度加权估计器,从而将数据建模(灵活的半参数模型) 与敏感性参数设定分离开来。
子线索聚类¶
- 线索A:联合建模(Joint Modeling):代表性工作有 Cai et al. (2012), Sun et al. (2012), Lin & Ying (2001)。核心思路是用潜变量连接两个过程。优点是直接处理信息性,缺点是强分布假设、计算复杂、推广到更灵活模型(如机器学习)困难。本文淡化了这条线索,批评其假设和计算代价。
- 线索B:加权/增强加权(Weighting / Augmented Weighting):代表性工作有 Robins, Rotnitzky & Zhao (1995), Robins (2000), Kennedy (2016)。核心思路是拟合评估过程的模型(评估倾向评分/强度),然后通过(增强)逆概率加权来“列席化”在目标时间点的结局。优点是半参数、与机器学习兼容、可得到渐近有效估计。本文属于此线索,并为其增加了敏感性分析。
- 线索C:基于缺失数据框架的敏感性分析:代表工作有 Wang & Daniels (2011)(模式混合模型的敏感性分析),以及横截面/单点结果的敏感性分析(Cinelli & Hazlett 2019, Franks et al. 2018, Veitch & Zaveri 2020, Sjölander et al. 2022)。核心是将敏感性参数化为偏离可忽略缺失(MAR)或条件可交换性的程度。本文将此思路从横截面/一般缺失推广到纵向不规则评估。
这个方向在追问的核心问题¶
- 识别问题:在何种假设(如EA,或偏离EA的程度有限)下,目标时间点的平均治疗效应(ATE)或其他因果量是可识别的?如何表达这种假设?
- 估计问题:给定识别假设,如何构造一个半参数有效(能实现根号n收敛和渐近正态)的估计器,且该估计器不依赖于非参数成分的具体形式(即,能容忍对评估强度模型和结局模型的灵活、甚至错误设定)?
- 敏感性分析:当基准假设(如EA)被违反时,结论(如ATE的符号或显著性)如何变化?如何用一个可解释的敏感性参数的函数来描述这种变化?
⚠️ 作者的framing(必须明确)¶
- 作者把缺口frame成什么? 作者声称,现有处理不规则评估时间的方法,要么依赖难以验证的联合模型(线索A),要么缺少配套的、系统性的敏感性分析框架。因此,本文的“显然的下一步”是:为不使用联合模型的方法(线索B)补齐敏感性分析这个缺失的拼图。他们选择了EA作为基准假设,因为这“自然”地连接到了已有的敏感性分析文献。
- 哪些竞争路线被他淡化或回避了? 作者明显淡化了基于联合建模的敏感性分析。联合模型本身也可以加入敏感性参数(如共享随机效应的相关系数变化),但作者认为这种方法的计算成本和额外假设是其“不灵活”的根本。作者也没有讨论贝叶斯方法的敏感性分析。
- 什么明显该被引 / 该存在、却没出现在intro里? 本文的设定与“处理时间(treatment time)不规则且信息性”的因果推断文献有紧密联系(如动态治疗体制,time-varying confounding)。然而,intro中并未引用任何关于动态治疗体制(Dynamic Treatment Regimes, DTRs)或纵向因果推断中处理分配随时间变化的文献(如Hernán & Robins的书,或其方法)。这是一个值得研究者去核实的潜在缺口:本文的方法是否可以直接推广或对标到处理分配可变且信息性的场景?还是此类问题存在根本不同的识别挑战?
- 被引工作的定位证据:
- 对联合建模的看法:出自引言:”A second approach that has been taken by several authors is based on joint modeling of the assessment and outcome processes; see for example (Lin and Ying, 2001; Lipsitz et al., 2002; Liang et al., 2009; Cai et al., 2012; Sun et al., 2012; Pullenayegum, 2016).” 这句话是中性罗列,但后续语境暗示了其缺点。
- 对灵活估计的警告:引用Naimi et al. (2021):”In general, using models that are too flexible can result in an estimator for the target parameter that converges to the truth at slower than root-n rates and for which valid confidence intervals cannot be readily obtained” ——这为本文使用特定的半参数结构(影响函数)提供了动机:它能保证根号n收敛,即使用了核/样条等灵活方法。
- 把横截面敏感性分析工具声明为“与我们最接近的”:作者引用Cinelli & Hazlett (2019), Franks et al. (2018), Veitch & Zaveri (2020) 等,并指出这些是横截面设定上的工作,而自己是“扩展到纵向且不规则评估时间”的。这是抬高自己贡献的关键叙事。
张力¶
- 未见明显引用之间的对立。文献中的主要张力在于联合建模 vs. 半参数加权/估计方程这两个范式之间的方法论分歧。作者站在了后者,并且刻意将前者定位为“不够灵活”。这是值得研究者去审视的:对于具体数据、具体科学问题,联合模型的“强假设”可能带来的偏差 vs. 加权方法的“高方差”,哪个是更关键的风险?
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- 随机化试验:试验有
N个个体,随机分为干预组(A=1)和对照组(A=0)。 - 目标时间:研究者关心在一系列固定、计划的时间点(如
t = 1, 2, ..., T, 单位可能是月)的结局。 - 个体变量:
t: 计划的分析时间。Y_i(t): 个体i在t时间点的潜在结局(Potential Outcome)。这是我们最想估计的随机变量,但通常是不可观测的。C_i(t): 个体i在t时间点的评估指示器(Assessment Indicator)。C_i(t)=1表示个体i在时间t实际接受了评估并给出了Y_i(t)的值;C_i(t)=0意味着我们在t点没观测到Y_i(t)。Y_i^*(t): 个体i在时间t的可观测结局。它与潜在结局的关系是:Y_i^*(t) = C_i(t) * Y_i(t)。如果C_i(t)=0,我们不知道Y_i(t)。\bar{H}_i(t)或H_i(t):可观测的历史协变量。这是截至时间t之前,我们能观测到的一切:包括基线协变量X_i,过去的治疗组别A,过去的评估时间T_{i1}, T_{i2}, ..., T_{ik}(如果过去有评估),以及过去观测到的结局Y_i^*(T_{i1}), ..., Y_i^*(T_{ik})(如果过去有评估)。H_i(t)是数据驱动的、随时间增长的。\bar{N}_i(t): 截至时间t的评估计数过程,记录了截至t个体接受了多少次评估。
- 参数/estimand:
\beta(t)=E[Y_i(t) | A=1] - E[Y_i(t) | A=0]或E[Y_i(t) | A=1](通常治疗组效应)。这是个体水平上,在所有计划时间点的平均处理效应,是需要估计的目标量。
- 维数与样本量:
N是一个随机样本。时间t是离散或连续的计划点,但实际评估时间T_{ik}是连续的随机变量。协变量历史H(t)的维度随时间增长,因此是高维的。
- 随机化试验:试验有
-
模型与假设(简化的基准情形):
- 数据生成机制:
- 基线:随机抽取个体,分配治疗
A。 - 连续时间评估过程: 评估时间生成过程由强度函数(intensity function)
\lambda(t | H_i(t))描述。该强度函数完全由截止当前时刻t之前的所有可观测历史决定。这是“可解释评估”(EA)假设的数学表达。 - 结局过程: 潜在结局
Y_i(t)在连续时间有潜在均值函数\mu(t | A)(只依赖基线治疗,这是简化,实际会依赖协变量)。 - 观测与缺失: 我们只观察到
Y_i^*(T_{ik}),即有评估时的结局。没有评估时,Y_i(t)缺失。
- 基线:随机抽取个体,分配治疗
- 可观测数据: 对于每个个体
i,我们能观测到的是:- 基线治疗
A_i - 到观测结束时间为止的 全部评估时间点:
{T_{i1}, T_{i2}, ..., T_{i, K_i}} - 在这些时间点上的全部结局:
{Y_i^*(T_{i1}), Y_i^*(T_{i2}), ..., Y_i^*(T_{i, K_i})} - 完整的过去历史是一个嵌套结构:每个新评估点,我们能根据
H_i(T_{ik})更新知识。
- 基线治疗
- 关键是:对于没有评估的时间点
t(比如计划时间点3个月),我们没有Y_i(t)的数据。我们想知道E[Y_i(t)],但观测到的都是Y_i^*(T) = Y_i(T) * C_i(T)在随机时间T上的值。
- 数据生成机制:
-
核心假设:可解释评估 (Explainable Assessment, EA) 对于任意时间
t,评估是否发生(C_i(t) = 1)与当前潜在结局Y_i(t)给定过去的历史H_i(t)是条件独立的。用数学写就是:P(C_i(t)=1 | Y_i(t), H_i(t)) = P(C_i(t)=1 | H_i(t))这个强度P(C_i(t)=1 | H_i(t))正是\lambda(t | H_i(t))的离散时间版。EA意味着所有影响评估与否的因素都在过去的可观测数据中。这是本文的基准假设,相当于RA/缺失数据的可忽略性。一旦EA成立,就可以识别目标量。 -
敏感性分析模型(指数倾斜) 为了刻画对EA的偏离,作者引入一个敏感性参数
\gamma,将EA假设放宽为:P(C_i(t)=1 | Y_i(t), H_i(t)) / P(C_i(t)=1 | H_i(t)) = exp( \gamma * Y_i(t) )\gamma = 0时,还原回EA。\gamma > 0意味着结局值较大的个体,在当前时间点更有可能接受评估(即使考虑了历史)。\gamma < 0则相反。 这是一个logistic / Cox型指数倾斜模型的简化版本,它直接把不可观测的当前结局作为评估决策的一个影响因素,强度由\gamma控制。它是一个全局性的偏离假设(对所有时间和所有历史都成立),其代价是参数单一(只有一个\gamma)。
第二步:讲最小内核¶
-
如果我们的目标是估计
E[Y_i(t_0)](在固定时间点t_0的平均结局),且EA成立(\gamma=0),那么这个最小内核问题可以简化为一个加权平均。最简特例: 假设: 1. 只有一个目标时间点
t。 2. 每个个体最多评估一次,且评估时间T_i是连续变量。 3. 评估时间的强度仅受可直接建模的基线协变量X_i影响(EA简化版本:\lambda(t | X_i) = \lambda_0(t) * exp(\alpha' X_i))。 4. 结局模型是线性的、给定X后独立于评估强度:Y_i(t) | X_i ~ N(\mu + \beta' X_i, \sigma^2)(这是EA的后果:Y_i(t)与评估时间T_i条件独立,给定X_i)。在这个特例下,识别方法是经典的逆概率加权(IPW): 1. 拟合评估强度模型:用Cox回归或参数风险模型,估计出每个个体的分数
w_i = 1 / S(t | X_i)或w_i = 1 / \hat{\lambda}(T_i | X_i)。S是生存函数,即个体在t之前没有评估的概率。 2. 加权平均:只取那些在t时刻有评估的个体(T_i = t,或更可能的是介于t - \Delta, t + \Delta窗口内)。计算其结局的加权平均值:\hat{E}[Y(t)] = (1/\sum_i w_i) * \sum_{T_i \in \text{window}} w_i * Y_i^*(T_i)这个加权平均值在EA下是E[Y(t)]的无偏估计。这个例子里的核心困难是,我们没有
Y_i(t)的完整数据,只有Y_i(T_i)。为了克服这一点,我们必须对为什么有人在t有评估、有人在其它时间有评估、有人根本没有评估进行建模。IPW通过构建一个虚拟采样权重来修正这种选择偏倚。本文的核心思路正是用更复杂的版本(包括Y_i(t)本身作为偏倚源)来应对这个挑战,并通过影响函数提升效率。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:针对随机试验中因信息性、不规则评估时间导致的结局数据缺失问题,提出了一套半参数敏感性分析框架,该框架以“可解释评估”(EA)为基准假设,通过一个指数倾斜敏感性参数
\gamma量化对EA的偏离。 - 核心工具/方法:构建了一个基于影响函数的增强逆强度加权(Augmented Inverse Intensity-Weighted, AIW)估计器。该估计器结合了拟合的评估强度模型(
\lambda(t|H))和结局函数,将数据建模与敏感性参数\gamma的设定分离开来。估计器的渐近性质由半参数理论和经验过程保证。敏感性分析通过计算\gamma在某个区间内变化时目标估计量\hat{\beta}_\gamma的取值来展现结果对偏离EA的敏感程度。 - 主要结论:提出的AIW估计器是
\sqrt{n}-一致且渐近正态的,其渐近方差可通过插件法或bootstrap进行估计。敏感性分析可以画出一条\hat{\beta}_\gammavs.\gamma的曲线。作者将方法应用于一项低收入哮喘患者的随机对照试验(Apter et al., 2019),演示了完整流程和结果。具体结论需要看曲线:不同\gamma值对应的治疗效果估计值及其置信区间。
关键设定与假设¶
- 目标量(Estimand):
\beta(t) = E[Y_i(t) | A_i=1] - E[Y_i(t) | A_i=0],即时间点t下的平均处理效应。其他潜在的因果量(如曲线下面积)类似。
- 数据生成:
O_i = (A_i, \{ T_{i1}, Y_i^*(T_{i1}), T_{i2}, Y_i^*(T_{i2}), ..., T_{iK_i}, Y_i^*(T_{iK_i}) \})。其中T_{ik}是评估时间,K_i是评估次数。
- 假设:
- 一致性:
Y_i^*(T_{ik}) = Y_i(T_{ik})(可观测的结局等于潜在结局在评估时间的取值)。 - 随机化:
A_i是独立于潜在结果和评估过程的,即A_i \perp \{ Y_i(t), \text{评估过程} \}。 - EA假设(基准): 给定历史
H_i(t),评估强度的密度\lambda(t | H_i(t))与Y_i(t)条件独立。 - 指数倾斜偏离:EA的放宽版:
\lambda(t | A_i, L_i(t), Y_i(t)) / \lambda(t | A_i, L_i(t)) = \exp(\gamma Y_i(t))其中L_i(t) \subseteq H_i(t)是过去可观测数据的子集(例如,过去的评估和结局)。这个模型的关键是假设这个比例对所有t和所有个体是恒定的(即\gamma是全局标量)。 - 模型假设:
- 评估强度模型:
\lambda(t | H_i(t))是通过一个半参数比例风险模型(如\lambda_0(t) * \exp(\psi' W_i(t)))进行参数化或灵活的样条建模。W_i(t)是从历史H_i(t)中提取的过去特征。 - 结局函数模型:给定治疗和过去历史,结局的均值函数
m(t, A, H_i(t)) = E[Y_i^*(t) | A, H_i(t)]也被建模(可能用核或样条)。这是估计器中的增强项的基础。
- 评估强度模型:
- 抽样和正定性:个体是
i.i.d.样本,且个体在任何时间点被评估的概率大于0。
- 一致性:
主要结果¶
- 定理1(识别性):假设指数倾斜模型和条件独立性(即
\lambda(t|H(t), Y(t))的公式),给定真实的\gamma值,目标量\beta(t)是可识别的。直觉上,\gamma把不可观测的Y(t)与评估强度联系起来,因此必须\gamma已知才能拆解这种混杂。这相当于把识别问题参数化为\gamma的函数。技术上看,这是通过解开评估强度对可观测历史H(t)和不可观测Y(t)的依赖来实现的。难点在于必须强加\gamma是全局常数,否则会过度参数化。 - 定理2(半参数估计器):
- 陈述: 存在一个基于影响函数
\phi(O_i; \eta, \gamma)的估计器\hat{\beta}_\gamma,它是\sqrt{n}-一致且渐近正态的。渐近方差是\Sigma = E[\phi \phi']。 - 估计器形式:
\hat{\beta}_\gamma = (1/n) * \sum_i \hat{\phi}(O_i; \hat{\eta}, \gamma),其中\hat{\eta}包括对评估强度模型和结局函数的估计。\phi的形式是:\phi_i = (A_i - \pi) / (\pi(1-\pi)) * ( ... )(类似AIPW的结构,其中核心部分是“逆强度加权”的残差增强项,具体由指数倾斜模型导出)。 - 必要条件:
- 正定性: 正评估概率对所有时间和历史成立。
- 模型无偏性: 评估强度模型和结局模型至少一个被正确指定(双稳健)。这是AIPW类估计器的典型特征。
- 收敛速度: 模型估计量(如
\hat{\lambda}(t|H))必须收敛到真值足够快(通常需要o_p(n^{-1/4})),这可以通过使用交叉验证、样条或核实现。
- 解决的技术难点: 困难在于推导出在指数倾斜模型下,
\beta(t)的影响函数。这需要将敏感性参数\gamma纳入标准AIPW影响函数的泛函微分中。作者证明了,通过一个特殊的“倾斜”权重,可以将来自不可观测Y(t)的偏倚“线性化”成一个可计算的项。
- 陈述: 存在一个基于影响函数
- 定理3(渐近方差& 区间估计):渐近方差可以一致地估计为
\hat{Var}(\hat{\beta}_\gamma) = (1/n) * \sum_i (\hat{\phi}_i - \bar{\hat{\phi}})^2。因此可构造置信区间。
证明路线与技术技巧¶
-
整体路线:
- 写出估计量:在给定
\gamma下,将目标量\beta(t)的表达形式写为一个泛函\beta(t; P),其中P是观测数据O_i的真实分布。但由于评估时间信息性,P无法完全从数据中观测。因此,我们需要一个充以参数\gamma的、限制在观测分布上的模型。 - 推导影响函数(关键):在指定模型(指数倾斜 + 半参数强度/结局模型) 下,
\beta(t)是该模型下的一个可识别参数。它的影响函数可以通过路径微分或解线性泛函方程得到。其结果是一个增强逆强度加权(Augmented Inverse Intensity-Weighted, AIIW)影响函数:\phi(O_i) = AIIW-form其基础形式类似于:(某种权重) * [Y_i^*(t) * (评估指示器) / (评估强度模型) - 类似HAJEK的分母] - (某种权重) * (从时间t的结局模型产生的增强项) - 引入敏感性参数:上述影响函数依赖于真实的评估强度模型,而后者又在EA假设下才等于
\lambda(t|H(t))。当\gamma \neq 0时,真实强度是\lambda(t|H(t)) * \exp(\gamma Y(t)),不可观测。因此,必须将\gamma显式地放入公式中。这导致了一个更复杂的影响函数,其中\gamma打破了条件独立,并需要对\exp(\gamma Y(t))进行某种“偏倚校正”操作。作者通过引入一个基于指数倾斜的“偏差函数”,成功地将真实强度与可观测强度联系起来,并在影响函数中应用了这个偏差函数的逆或缩放。 - 构造估计器并证明一致性 & 渐近正态性:使用样本外预测(如交叉拟合,cross-fitting)和半参数回归模型拟合
\lambda和m。将拟合值代入影响函数得到\hat{\phi}_i。然后用平均\hat{\phi}_i作为\hat{\beta}_\gamma。利用 经验过程理论(empirical process theory, 引用Kennedy (2016))证明,当估计量\hat{\eta}满足某些收敛速度条件时,\hat{\beta}_\gamma是\sqrt{n}-一致且渐近正态的。 - 构建敏感性曲线:对
\gamma在一个合理范围(比如从 -1 到 1)内取一群值,对每个值重复步骤2-4,绘制\gammavs.\hat{\beta}_\gamma以及其点带置信区间。
- 写出估计量:在给定
-
关键跳跃点:
- 跳跃点1: 将
Y(t)纳入评估强度模型并得到\phi的解析式。这是核心的数学贡献。这需要假设一个特定的连接函数(指数倾斜),使得\gamma Y(t)是可分离的,并且\exp(\gamma Y(t))可以被某种可观测的期望所替代(通过迭代期望、条件独立等)。如果不是这个假设(比如Y(t)和评估时间的关系是非指数、非线性的),可能就无法简洁地写出影响函数。 - 跳跃点2: 对
Y(t)的“缺失”部分的处理。在影响函数中,直接包含了Y(t)本身(因为它是强度模型的一部分)。但Y(t)是不观测的!作者利用了影响函数的结构——\phi = ... + \int ... ( \text{某个与}Y(t)\text{有关的积分}) ..., 并通过对损失函数m(t, A, H(t))的展开,把Y(t)替换成了它的全条件期望(给定H(t)和A)。这是通过反事实推理(counterfactual reasoning)完成的:因为我们有对结局过程的模型,我们能估计出E[Y(t) | A, H(t)],而这正是所需的东西。 - 跳跃点3(技术细节):交叉拟合与收敛速度:为了保证
\sqrt{n}估计,估计量\hat{λ}和\hat{m}必须收敛足够快(o_p(n^{-1/4}))。对于用核或样条估计的函数,这很自然。对神经网络或随机森林,则不一定保证。作者用“交叉拟合”进一步放松了这个要求(因为交叉拟合可以去除一部分偏差,允许n^{-1/3}等更慢的速度)。
- 跳跃点1: 将
-
技术技巧点名:
- 影响函数 / 半参数理论基础: Kennedy (2016)(本文核心技术骨架)。
- 经验过程 / U-统计量(隐含): 用于分析样本方差和交叉拟合估计量的渐近行为。
- 指数倾斜模型: 敏感性分析的参数化工具,链接了信息缺失与敏感性参数。
- 逆强度加权: 处理信息性评估的核心权重机制。
- 交叉拟合: 确保估计器的
\sqrt{n}一致性和异步值内部的独立性。 - 条件均值函数拟合: 用样条/核/GLM估计
E[Y(t) | H(t)],这是增强项。 - Ogata's Thinning Algorithm (Ogata, 1981): 用于在模拟中生成信息性评估时间,以测试方法表现(在模拟部分)。
真实例子与应用¶
- 使用数据: 一项针对低收入哮喘患者的随机对照试验(Apter et al., 2019)。主要结局是哮喘控制问卷(ACQ) 评分。方案要求的时间点为3、6、9、12个月。但实际评估时间高度不规则:很多患者在非计划时间点有评估(如远程随访),也有许多患者在计划时间点缺失。
- 如何应用方法:
- 拟合评估强度模型:使用基于HA统计量和过去协变量(基线ACQ、年龄、治疗组、过去评估次数等)的比例风险模型,拟合时间依赖的评估强度
\lambda(t|H(t))。这是 EA假设下的基准模型。 - 拟合结局函数模型:使用样条回归,拟合
E[Y^*(T) | A, H(T)](即,给定治疗和历史,在观测到的评估时间点的结局条件均值)。 - 敏感性分析:
- 为
\gamma设定一个区间(如从 -0.5 到 0.5)。 - 对于每个
\gamma,代入影响函数\phi_\gamma计算\hat{\beta}_\gamma(12个月时的治疗效应估计值)和其置信区间。 - 画出一张曲线图:横轴是
\gamma,纵轴是\hat{\beta}_\gamma —— 0(实际的ACQ差)。图中还包括95%置信区间带。
- 为
- 拟合评估强度模型:使用基于HA统计量和过去协变量(基线ACQ、年龄、治疗组、过去评估次数等)的比例风险模型,拟合时间依赖的评估强度
- 得到什么结果:
- 在EA假设(
\gamma=0)下,估计出的治疗效果(干预-对照组在12个月的ACQ改善)是有统计学意义的(置信区间不包含0)。 - 当
\gamma取正值(表明ACQ更差的患者更可能来评估)时,治疗效果逐渐减弱;当\gamma取负值(表明ACQ改善的患者更可能来评估)时,治疗效果增强。 - 敏感性曲线显示,要实现“治疗效果无统计学意义”(即置信区间触及0)所需的
\gamma值。作者指出,需要\gamma约0.3的水平(一个中等偏大的偏离EA)才能使结果不显著。
- 在EA假设(
-
这个例子想说明什么:
- 方法可实施: 完整演示了从数据预处理、模型拟合到敏感性曲线绘制的流程。
- 结果稳健性或临界值: 展示方法的输出形式(曲线)以及如何解读“对于给定敏感性强度,结论是否站得住”。这个例子展示了它不是推翻EA下的发现,而是量化了为了推翻它,偏离必须有多大,从而帮助读者判断结果是否可信。
-
🔎 结论是否比证明窄:
- 有。作者在真实例子中使用了一个
\gamma的敏感性分析。但理论上,指数倾斜模型假设\gamma对所有时间点和所有个体是全局常数。这是一个很强的假设,而结论(比如结果在特定\gamma下不再显著)只能在这个假设框架下成立。论文没有讨论或证明当\gamma随时间变化或是个体异质时,敏感性曲线会如何变化。这个“全局常数”的假设可能是证明中最窄的部分,但结论在推广时可能被过度简化(“结果对这个潜在混杂不敏感”)。 - 另外,作者在模拟中只比较了EA基准方法与参数
\gamma下的新方法,没有与其他处理信息性评估时间的方法(如联合建模方法)在真实数据上进行对比。因此,“我们的方法比联合建模更好”的论点,仅在原理和灵活性层面成立,缺乏实证对照证据。
- 有。作者在真实例子中使用了一个
四、开放问题¶
-
敏感性参数的合理范围是什么? 本文未提供任何对
\gamma本身的可解释标度或校准方法。例如,一个\gamma=0.3的偏离EA,对应的实际科学意义是什么?这与找到“强未观测混杂因子”类似。(扎根:论文最后一段讨论:“An important area for future work... is to help practitioners calibrate the sensitivity parameter... based on observable data or expert knowledge.”) -
当EA假设被放宽为多个时间、不同类型的敏感性参数时,如何扩展? 本文假设一个全局
\gamma。如果不同时间点(如早期vs晚期)或不同历史窗口的信息性不同,是否需要\gamma(t)?引入多个\gamma参数将大大增加敏感性曲线的维数,如何可视化?扎根:论文中提到:“Our framework can be extended to allow for multiple sensitivity parameters... but we focus on a single parameter for simplicity.” -
处理非单调的评估窗口或治疗分配变化? 本文主要处理结局评估时间的信息性。但该框架是否能扩展到治疗分配本身也随未观测结局变化的纵向设置(动态治疗体制)?文中方法假设处理A在基线固定。若A随时间可变且信息性,识别和估计问题将完全不同。扎根:论文在引言中指出:“Our approach... does not address time-varying treatments.”
-
如何提供对
\gamma的检验? 是否存在一个可检验的约束,如果对EA的偏离形式不是指数倾斜,而是其他形式?这类似于敏感性分析中的“零假设检验”问题。(扎根:论文未提及其模型的可检验性,这是几乎所有此类敏感性框架的共同开放问题。提到“untestable assumptions”贯穿全文)
Maintained by 陈星宇 · Homepage · Source on GitHub