Revisiting the sequence symmetry analysis design¶

作者: Jeppe Ekstrand Halkjær Madsen
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 6/10
机构绿灯: University of Copenhagen（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12759

一、领域脉络与小综述¶

这个方向是什么¶

序列对称分析（Sequence Symmetry Analysis, SSA）是药物流行病学中一种经典的自我对照设计，用于检测药物不良反应（ADR）。其基本思路是：在人群处方数据库中，观察某个“目标药物”和“结局药物”（例如疑似导致不良反应的药物和用于治疗该不良反应的药物）的先后处方顺序——如果在目标药物开始后，结局药物的处方出现频率显著高于反向顺序（结局药先于目标药），则提示目标药可能引起该结局。该方法最初由 Hallas (1996) 提出，后被广泛用于药物安全性监测，其优点是仅需处方数据即可实现，无需收集混杂变量，且可隐式调整时间不变的未测量混杂。然而，该设计的数学性质长期未被严格推导，导致实践中对调整序列比等衍生指标的理解存在混乱。本文正是在这一背景下，重新梳理SSA的数学框架，明确各统计量的识别含义。

发展脉络（基于公开文献与本文abstract）¶

奠基工作: Hallas (1996) 提出SSA的基本定义：计算 crude sequence ratio (SR) = (目标药→结局药的处方对数量) / (结局药→目标药的处方对数量)。该指标被直观解释为“暴露增加风险”的倍数，但缺乏严谨的统计模型支持。
主要进展: 后续研究者引入了“调整序列比”（adjusted SR），试图通过减去“零效应序列比”（null-effects SR）来校正处方时间趋势。零效应序列比通过假设治疗与结局独立而计算，通常使用置换或边缘化方法（如时间趋势模型）。Tsiropoulos et al. (2009) 等实践工作推广了该方法。
当前困境: 这些调整方法并未基于严格的因果模型。本文abstract指出：“The crude SR implicitly adjusts for unmeasured time-invariant confounding, whereas the null-effects SR, and thereby the adjusted SR, make little sense unless treatment and outcome are strictly independent.” 这意味着调整序列比在大多数实际场景下无意义，应该被放弃——这是一个强烈的修正性结论。
本文位置: 作者明确将自身定位为对SSA设计的“重新审视”（re-examining），用数学框架澄清其性质，并给出更优的估计路径（使用logistic回归灵活估计随时间变化的HR）。

子线索聚类¶

自我对照设计：病例交叉研究、自身病例对照研究等，核心是使用同一对象在不同时间点的暴露对比消除时不变混杂。SSA属于这类设计的一种离散时间变体。相关文献强调时间窗口选择和暴露模式。但本文未重点与其他自我对照设计比较（可能因为intro未提供）。
药物流行病学中的时间偏差：处方时间趋势（prescription time trends）是主要偏差来源，例如某种药物使用率随时间增加可能导致虚假关联。SSA社区通常用调整SR来校正，但本文认为该校正不成立。
风险比（HR）的识别与估计：作者将crude SR解释为时间间隔趋于0时的HR，从而将其与Cox模型连接。这属于将SSA纳入因果推断框架（使用计数过程与强度比）。

这个方向在追问的核心问题¶

核心问题: 如何从处方顺序数据中识别目标药物对结局的因果效应？SSA设计需要哪些假设？
已知瓶颈: 处方时间趋势与未测量时不变混杂的处理。传统调整方法（减去null-effects SR）被广泛使用，但本文认为其理论基础薄弱。
当前主流方法: 仍在使用调整SR，或使用Cox回归直接估计HR（需要更多数据）。本文主张放弃调整SR，直接用logistic回归估计crude SR对应的HR。

⚠️ 作者的 framing¶

由于没有原文intro，只能从abstract推断。作者的framing是：“先前对SSA的数学性质理解不足，导致调整SR被错误使用。本文通过严格的数学推导，证明crude SR实际是HR的估计量，且能隐式调整未测量时不变混杂，而调整SR应被放弃。” 作者淡化或回避的可能方向包括： - 与其他自我对照设计的比较（如病例交叉），文中未提及； - 当治疗与结局的时间间隔较大时，crude SR可能受信息删失或竞争风险影响，作者只说“应该使用其他设计”； - 未讨论多水平数据（如多次处方）的情况。

值得研究者去查的问题: 在SSA文献中，是否有其他作者对调整SR提出过类似的批评或修正？例如，Tsiropoulos et al. (2009) 是否回应过？以及，Hallas (1996) 原文是否就已经给出了crude SR的因果解释？这些可通过检索确认。

张力¶

未见明显对立引用（因无原文）。但假设成立时，本文与当前主流使用调整SR的实践存在张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号:
\(T\): 目标药物（treatment）开始使用的时间点。这是暴露变量。
\(O\): 结局药物（outcome drug）开始使用的时间点。这是结局事件。
每个个体最多贡献一条“治疗-结局对”（即一对处方记录）。注意SSA设计是基于人群的所有处方对，而非个体独立事件。
一个“处方对”定义为同一患者在不同时间点接受了目标药和结局药，且两次用药时间间隔小于某个预设窗口 \(W\)。窗口常设为固定天数（如90天）。
Crude sequence ratio (SR): \( \text{SR}_c = \frac{N_{T \to O}}{N_{O \to T}} \)，其中 \(N_{T \to O}\) 是目标药在前、结局药在后的处方对数，反之亦然。
零效应序列比 (null-effects SR, SR₀): 假设治疗与结局独立时计算出的期望SR。调整SR定义为 \( \text{SR}_{\text{adj}} = \text{SR}_c / \text{SR}_0 \)（或类似）。
风险比 (HR): 目标药物对结局发生强度的影响，即条件强度比 \(\lambda_O(t|T=t_0)/\lambda_O(t|T\text{未发生})\)，但此处需要仔细定义。
模型:
本质上是一个计数过程模型。每个个体按时间顺序经历事件（处方）。可观测的是一系列事件时间 \(t_1, t_2, \dots\) 及对应药物类型（目标药为1，结局药为0）。SSA设计只关心每个个体中目标药与结局药的出现顺序，但忽略多次用药或重复事件（通常只考虑第一次处方）。
本文假设：目标药的使用不影响结局药的使用强度除却通过因果路径，且不考虑非致死性事件的竞争风险。严格假设在推导部分详述：无未测量时变混杂，时间趋势可通过速率函数建模。
可观测数据:
可观测: 每个有至少一次目标药和一次结局药处方的个体，有两个时间戳（\(T, O\)），以及可能的协变量 \(X\)（年龄、性别等）。这是典型的“配对”数据（但配对在个体内部）。
想要但观测不到: 目标药物对结局的因果效应（HR）。另外，未测量的时不变混杂（如遗传倾向、社会经济地位）虽然不可观测，但被crude SR自动调整（因为比较的是同一患者的两个事件顺序，时不变混杂对两个事件时间的影响一致，见下文最小内核）。然而，时变混杂（如处方时间趋势）仍需要建模。

第二步：讲最小内核——SSA设计的核心等式¶

考虑一个极端简单的情况：人口中只有一个患者，且所有事件时间都是离散时间点，并且我们认为目标药对结局药的影响是即时的（即时间间隔趋于0）。假设在这个患者身上，我们观察到目标药处方发生在时间 \(t_T\)，结局药处方发生在时间 \(t_O\)。如果 \(t_T < t_O\)，则贡献一个“目标→结局”对；反之亦然。现在，我们有大量患者（假设无限多），每个患者贡献一对时间 \((T_i, O_i)\)。

核心思路：crude SR 实际上是目标药对结局药发生强度比的估计量，其中“强度”被定义为在给定目标药处方后极短时间内发生结局药处方的概率。

更具体地，考虑一个关于时间的小间隔 \(\epsilon\)。定义： - \(\lambda_O(t)\): 在时间 \(t\) 发生结局药处方的强度（单位时间概率）。 - \(\lambda_T(t)\): 目标药处方的强度。 - 假设未测量时不变混杂 \(U\) 同时影响 \(\lambda_O\) 和 \(\lambda_T\)。但SSA设计通过对比同一患者内部的顺序来消除 \(U\)。

令 \(S\) 为患者索引。关注所有处方对中，目标药和结局药先后发生的概率。在 \(U\) 不变的条件下，给定目标药处方时间 \(t_T\)，结局药处方时间 \(t_O\) 的分布仅取决于目标药是否增加了 \(t_O\) 的强度比率。当 \(\epsilon \to 0\) 时，顺序的概率之比等于在目标药处方的那一刻，目标药对结局药处方的瞬间强度比（HR）。

为什么crude SR能调整时不变混杂：因为每个患者的时不变混杂 \(U_i\) 同时影响 \(\lambda_T\) 和 \(\lambda_O\) 的基线水平，但在比较“目标药先于结局药”和“结局药先于目标药”时，这两种顺序都来自同一患者，乘数 \(U_i\) 会抵消。这就是自我对照设计的本质。

最小数学表达：令 \(p_{T\to O} = P(T < O)\) 为目标药先于结局药的概率，\(p_{O\to T} = 1-p_{T\to O}\)。假设药物处方时间相互独立且时间间隔极短，那么强度比 \(\text{HR} = \lambda_O^{\text{with T}} / \lambda_O^{\text{without T}}\)。此时，crude SR = \(p_{T\to O} / p_{O\to T} \approx \text{HR}\)（严格证明需用计数过程与鞅）。这个近似在离散窗口中需要仔细处理，但核心直觉是：如果目标药没有因果效果（HR=1），则两种顺序概率相等，SR=1。

因此，这篇论文在数学上干了一件什么事：它证明了crude SR是连续时间风险比的离散无偏近似，且证明了调整SR在非独立情况下无意义。

三、这篇论文做了什么¶

三句话¶

研究问题: 重新审视序列对称分析（SSA）设计，推导粗序列比（crude SR）、零效应序列比和调整序列比在处方时间趋势和未测量时不变混杂下的数学性质。
核心工具: 使用计数过程与强度比理论，将crude SR与风险比（HR）在时间窗口趋于0的极限下建立等价关系，并利用logistic回归对协变量依赖的HR进行灵活估计。
主要结论: crude SR可解释为HR的一致估计量，且隐式调整未测量时不变混杂；零效应序列比和调整序列比仅在治疗与结局独立时有意义，在依赖情况下应放弃使用；建议仅使用crude SR，并用logistic回归建模。

关键设定与假设¶

数据: 处方数据库，每个个体记录的是处方事件的时间戳和药物类型。SSA设计只使用那些同时有过目标药和结局药处方的个体（“病案对”）。假设处方事件遵循计数过程。
核心假设（根据abstract推断，原文应更详细）:
无时变混杂: 所有未测量的混杂变量都是时间不变的（如遗传、恒定社会经济状态）。这个假设对于crude SR的隐式调整至关重要。
处方时间趋势: 允许总体中目标药和结局药的使用率随时间变化，但这种趋势被纳入强度函数的基线。
因果作用假设: 目标药的处方不会直接影响结局药处方的强度，除因果路径外（即排除物质替代等非因果关联）。这是识别问题的关键，但SSA本身无法验证。
窗口选择: 使用一个固定时间窗口 \(W\) 来限定“暴露相关的结局”。原文可能假设 \(W \to 0\) 或 \(W\) 足够小以近似瞬时效应。
与已有文献的差异: 本文明确放弃了调整SR的解释，而先前文献常将其作为主要指标。

主要结果¶

定理1（crude SR的HR解释）: 当允许的时间窗口 \(W \to 0\) 时，crude SR 依概率收敛于目标药起始时刻的瞬时风险比（HR）。证明主要基于计数过程的强度比与顺序概率的关系。
定理2（未测量时不变混杂的调整）: 只要混杂是时间不变的，crude SR 的期望不受该混杂影响。这是因为在自我对照比较中，混杂对两种顺序的效应比例相同。
定理3（调整SR的无意义性）: 零效应序列比 \(SR_0\) 是治疗与结局独立时crude SR的理论值。但若治疗与结局并非独立（即存在因果效应），则 \(SR_0\) 不再反映“无效应”时的基准，导致调整SR \(SR_c/SR_0\) 失去解释能力。具体地，当存在因果效应时，\(SR_0\) 不等于1，且与HR之间的关系受到时间趋势的复杂影响，无法化简。
推论: 建议放弃使用调整SR；可使用logistic回归建模crude SR：以个体为样本，定义事件为“目标药先于结局药”（Y=1）或反之（Y=0），以时间间隔、协变量等为自变量，拟合逻辑模型可估计协变量依赖的HR。

证明路线与技术技巧¶

整体路线:
引入计数过程框架：设\(N_O(t)\)为结局药处方次数，强度\(\lambda_O(t|U, \text{target})\)，其中target表示目标药是否已经处方（时变变量）。
在窗口\(W\)内，目标药处方可视为一个“干预”事件。关注目标药处方后极短时间内结局药的条件概率：\(P(O \text{ in }[t_T, t_T+W] | T=t_T, U)\)。
利用鞅理论证明，当\(W \to 0\)时，crude SR \(\to\) 强度比（即HR）。
对于调整SR，计算治疗与结局独立时的期望顺序概率，发现即使独立，时间趋势也可能使\(SR_0 \neq 1\)。当存在因果效应时，无法分离独立基准与因果效应的贡献，因此调整SR不具稳健解释。
关键跳跃点:
从离散处方对到连续强度的连接，需要假设处方事件稀疏性（无重复事件）及窗口极限。作者可能使用“忽略高阶项”的渐近论证。
未测量时不变混杂的自动抵消：证明当混杂为可乘性（proportional hazard）时，在顺序概率的比例中消去。这依赖于强度比模型的乘法结构。
技术技巧:
计数过程与鞅，用于事件时间顺序概率的渐近性质。
逻辑回归映射：将顺序成功概率建模为logit(HR) = Xβ，从而允许灵活估计。这实际上就是拿个体作为独立伯努利试验，以目标药先于结局药为成功事件，以协变量为解释变量，拟合逻辑回归。注意这里需要假设不同患者之间的顺序独立，但同一患者的两事件时间本身可能相关，不过因为只取顺序，实际上转化成了成对独立。

真实例子与应用¶

模拟研究: 本文包含数值模拟来展示理论结果。具体设定：生成人群处方时间服从已知的强度函数，包含时间不变混杂。分别计算crude SR、调整SR和基于logistic回归估计的HR。结果显示：
crude SR在窗口较小时（如7天）接近真实HR（bias < 0.01）。
调整SR在因果存在时平均偏离1，且估计结果依赖时间趋势程度，无法用于推断。
Logistic回归估计的HR（带协变量）与真实HR一致，且可检验交互作用。这个例子验证了三个定理的核心结论，并展示了logistic回归的实用性。

🔎 结论是否比证明窄¶

Abstract中声称“crude SR implicitly adjusts for unmeasured time-invariant confounding”，但这严格成立需要假设时不变混杂对强度具有乘性（proportional）效应，并且强度比模型正确。若混杂效应为非乘性（如加法模型），则抵消不完全。原文可能在正文中更谨慎地限定了假设条件，但abstract的陈述可能过于宽泛。
“The adjusted SR make little sense unless treatment and outcome are strictly independent.” 该结论基于：当治疗与结局独立时，调整SR退化为1。但“严格独立”需在给定所有协变量下成立，且要求处方时间趋势被正确建模。实际中，治疗与结局可能通过未测量的时变混杂关联，而这些被假设排除。因此，该结论的适用范围可能小于一般药物风险监测场景。
本文未讨论重复处方或多次事件的情况，但真实数据库常有多个处方对。SSA通常只考虑首次处方，这可能是一个限制，但该限制是SSA固有的，并非本文新提出。

四、开放问题（扎根具体语句）¶

当时间窗口不能任意小时怎么办？ 本文指出“Another design should be used if it is infeasible to require treatment and outcome sufficiently close.”（abstract）——但这未给出具体替代方案。一个开放问题是：在有限窗口（如90天）下，如何对crude SR进行偏差校正？能否利用多个窗口的比值做外推？（扎根于abstract末句）
多重药物比较（more than two drugs）的SSA扩展：SSA通常只针对一种目标药和一种结局药。如果同时考虑多种药物之间潜在的并发用药或药物-药物相互作用，如何设计一个统一的系统？这涉及多变量计数过程和因果网络识别。（扎根于SSA应用现状，本文未触及）
与病例交叉设计的正式比较：病例交叉是另一种经典的自我对照设计，但通常需要定义危险期和对照期。SSA的极限（窗口趋于0）实际上类似于风险集抽样。两者在识别假设和效率上的精确关系尚未被严格推导，可能揭示哪种设计在何种场景下更优。本文只关注SSA本身，未做比较。
重复事件与竞争事件的存在：本文假设每个患者最多有一个（目标药，结局药）对。现实中患者可能多次使用目标药或结局药。如何处理多重顺序？目前的标准是只取首次处方。但丢失信息。是否存在一个基于计数过程合并所有事件的更有效统计量？这个问题可直接从实际应用角度提出。

Maintained by 陈星宇 · Homepage · Source on GitHub