Combining Broad and Narrow Case Definitions in Matched Case-Control Studies: Firearms in the Home and Suicide Risk¶

作者: Ting Ye, Kan Chen, Dylan Small
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文在 匹配病例对照研究 的框架下解决一个具体而根本的流行病学因果推断问题：如何结合 宽病例定义（broad case definition，如所有自杀）与 窄病例定义（narrow case definition，如家中自杀）来更稳健地检验处理（家中是否有枪）对宽定义结局（自杀风险）是否有因果效应。核心统计困难在于：窄定义虽然效应量更大、对未测量混杂的敏感性更低，但它本身可能是一个 受处理影响的结局亚型（即处理会影响个体是否变成窄病例），从而引入 选择偏差（selection bias / post-treatment selection bias）。该方向当前在方法上处于“已经有解但可改进”的阶段：已有文献分别处理了匹配设计中的未测量混杂偏差（Rosenbaum系列的灵敏度分析）和一般的post-treatment selection bias，但尚未将它们统一在一个参数化敏感性分析框架中。

发展脉络（history）¶

奠基工作：匹配病例对照研究中的未测量混杂敏感性分析
Rosenbaum (1987, 2002)：在匹配的设计基础上，引入灵敏度参数 Γ——即未测量混杂使得两个处理组匹配对之间的优势比最多可被放大到 e^γ 倍——用于评价结论对未测量混杂的敏感程度。这是几乎所有后续工作（包括本文）的基座。
Small & Rosenbaum (2008)：将灵敏度分析从二值处理推广到多分类，并正式讨论了“宽 vs 窄病例定义”在灵敏度上的权衡——窄定义虽有更大的效应量，但代价是样本量减少；不过他们并未建模窄定义引入的选择偏差。
主要进展：对选择偏差的敏感性分析
Ye, Small等 (2016+) 及本文的作者团队 开始正式将选择偏差纳入匹配设计的敏感度分析框架。关键思路是将“个体是否属于窄病例”视为一个受处理影响的协变量，将选择偏差参数化为处理对 always-cases（即不论处理与否都会是窄病例的个体）的“产生窄病例”的效应。这一参数化直接借用了因果推断中 principal stratification（主分层，Frangakis & Rubin, 2002）的语言。
更早的 Chiba (2013) 以及 Smith & VanderWeele (2019) 在一般（非匹配）设置下对选择偏差进行了E-值或界限分析，但未将参数化聚焦于匹配结构。
当前前沿：统一未测量混杂与选择偏差
本文是第一个同时用两个敏感性参数（一个控制未测量混杂对接受处理的影响，另一个控制处理对 always-cases 产生窄病例的影响）来 检验宽病例定义的因果效应 的方法。作者在intro中强调：“以往的灵敏度分析要么只考虑未测量混杂，要么只考虑选择偏差，但两者同时出现时尚未有正式方法。”
本文的位置：在所有敏感性分析框架中，只有本文提供一个既能在窄定义集合上构建有效随机化检验、又能用 Bonferroni 合并两种定义结果的正式程序——它不是“发明新检验”，而是提出了一个 可行的合并策略 + 选择偏差参数化方法，使窄定义在保持假设检验水平的前提下被利用。

子线索聚类¶

线索1：匹配设计中的未测量混杂灵敏度分析（Rosenbaum, Small, Heller 等系列）——主要关注 Γ 敏感度参数、置信区间与 p-值随 Γ 的变化。本文直接继承了这一条线索的技术（提出：在窄定义匹配集上也可进行随机化检验）。
线索2：Post-treatment selection bias 的因果推断方法（Frangakis & Rubin, 2002; Zhang & Rubin, 2003; Chiba, 2013; Smith & VanderWeele, 2019）——核心思想是使用 principal stratification 区分 always-cases 子群，并关注处理在那个子群上的效应。本文从该线索借用了“always-cases”这一参数化语言，但（1）将其从一般的因果效应估计问题缩小到检验问题，（2）将它匹配到匹配设计中，给出简单的检验。
线索3：多重检验与信息合并的策略（Bonferroni 方法、Fisher 组合检验）——本文在检验层面将两种定义下的 p-值通过 Bonferroni 合并，这是常规统计手段，没有特别的方法贡献，但它的可操作性很强。

这个方向在追问的核心问题¶

处理γ（未测量混杂强度）的保守性与选择偏差参数λ的权衡：当窄定义效应量大但可能引入选择偏差时，两个参数同时存在，如何判断结论仍稳健？本文给出了一个明确的答案（在Γ和Λ之下结论是否被推翻）。
窄定义匹配集的行为：由于窄定义是post-treatment selection，窄定义集合中的匹配对可能不再满足原匹配设计的“条件可交换性”，检验是否需要调整？本文提出 在always-cases子群上 的近似可交换性，保证窄定义匹配集上的Fisher精确检验仍然有效。
如何合并两种定义的结果：宽定义的统计检验力依赖于样本量大但效应量小，窄定义则相反。能否找到一个比Bonferroni更有效的合并策略？本文没有进一步探索（Bonferroni本身保守，但简单且保证水平）。

⚠️ 作者的 framing（必须明确标注）¶

作者的说法：“以往的灵敏度分析要么只考虑未测量混杂，要么只考虑选择偏差，但两者同时出现时尚未有正式方法……本文是第一个在匹配病例对照研究中同时考虑两种偏差并给出有效检验的程序。”
作者淡化的竞争路线：
他们淡化了 同一匹配集下对宽定义检验进行选择偏差调整 的可能性。事实上，如果不对窄定义做条件化，也可以直接把整个匹配集（宽定义）用常规的Rosenbaum灵敏度分析来做——那只需要 Γ 一个参数。本文选择 显式利用窄定义的信息（因为效应量大），并付出引入第二个参数λ的代价。这个权衡（是否值得引入第二个参数）被作者隐含地认为是有益的，但没有与仅靠宽定义+Γ进行比较（比如：两个参数之下在多少(Γ, λ)区域内结论稳健，与仅用宽定义在何种Γ下结论稳健有何区别？）。
未引用 使用E-value进行选择偏差调整（VanderWeele & Ding, 2017；Smith & VanderWeele, 2019），虽然这些工作不直接适用于匹配设计，但它们的哲学（一个统一的灵敏性度量）相似。

张力¶

未见明显对立引用：Rosenbaum 系列与 principal stratification 系列在直觉上一致——分层用于处理post-treatment selection，Rosenbaum方法用于未测量混杂——本文是两者的自然合成。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

模型与设定： - 研究二值处理 \( Z \in \{0, 1\} \)（家中是否有枪）对二值结局 \( Y \in \{0, 1\} \)（是否自杀，宽定义）的因果效应。假设有 \( I \) 个匹配集（stratum/index set），每个匹配集包含 1 名病例（\( Y=1 \)）和至少 1 名活着的对照（\( Y=0 \)），匹配的变量为可观测协变量 \( X \)。 - 用 Fisher精确零假设（sharp null）：对每个个体，若其处理状态改变，结局 \( Y \) 改变与否已固定（即无个体因果效应）。检验“\( H_0 \)：处理对宽定义结局无因果效应”，也就是在每一个匹配集中，病例的结局是固定、不受处理影响的。 - 进一步引入 窄定义结局 \( D \in \{0, 1\} \)：对于自杀病例（\( Y=1 \)），\( D=1 \) 表示自杀发生在家中，\( D=0 \) 表示发生于他处；对于活着的对照（\( Y=0 \)），\( D \) 无定义（或视为缺省）。工作只分析自杀病例的 \( D \)。

符号： - \( j \)：同一个匹配集中的个体索引，通常 \( j=1 \) 为病例，\( j=2, \ldots, J_i \) 为对照（\( J_i \) 是第 i 个匹配集的大小）。病例的处理 \( Z_{i1}=z_{1i} \)（实际观测到的），对 \( m\ge 2 \)，\( Z_{im} \) 是对照的处理状态（观测到的）。 - 每个匹配集 \( i \) 中，病例的窄定义指示 \( D_i \in \{0, 1\} \)（观测到），对照没有 \( D \)。 - 匹配集 \( i \) 中，所有个体（不分病例/对照）都有潜在的处理状态（potential treatment），记作 \( \mathbf{Z}_i = (Z_{i1}, ..., Z_{iJ_i}) \in \{0, 1\}^{J_i} \)。随机分配假设（Rosenbaum 的框架）：给定匹配变量 \( X \) 和未测量混杂 \( u \)，\( \mathbf{Z}_i \) 的分布由逻辑模型控制——但本文不假设具体形式，只用一个敏感性参数控制其差异。

可观测数据： - 研究者能看到的是： - 每一个匹配集 \( i \) 中，病例的处理 \( z_{i1} \)，窄定义指示 \( d_i \)； - 每一名对照的处理 \( z_{im}, m=2, \ldots, J_i \)； - 匹配集大小 \( J_i \)。 - 不可观测：所有个体的潜在 outcome（无处理时的自杀状态 / 有处理时的自杀状态）、潜在窄定义状态、以及未测量混杂 \( u \)。

核心困难：如果我们只看窄定义病例（即那些 \( d_i=1 \) 的匹配集），检验统计量的参照分布不再是简单的条件置换分布，因为窄定义病例集合是 post-treatment 选择的——处理状态 \( Z_{i1} \) 直接影响 \( d_i \)，进而决定哪些匹配集进入“窄定义数据集”。因此，直接对窄定义匹配集进行随机化检验会破坏处理随机性的条件。

第二步：讲最小内核¶

最小特例：二值处理，匹配集病例与对照各一（1:1匹配），宽定义结局。

假设我们有一个1:1匹配的数据集（\( I \) 个匹配集，每组一对：一个病例，一个对照，\( J_i = 2 \)）。在无限一般化之前，整篇论文的核心操作是：

对宽定义匹配集（所有 \( I \) 个匹配集），直接使用 Rosenbaum 的灵敏度检验：
构造符号检验：统计量 \( T_{\text{broad}} = \) 病例有枪而对照没有枪的匹配集个数。
在 Fisher 零假设与随机分配假设下，\( T_{\text{broad}} \sim Binomial(I, p) \)，\( p=1/2 \) 当无未测量混杂（Γ=1）。
给定一个 \(\Gamma\) 值，\( p\) 被限制在区间 \( [1/(1+\Gamma), \Gamma/(1+\Gamma)] \) 之内——这是灵敏度分析的标准做法。
对 窄定义匹配集（仅选 \( d_i=1 \) 的匹配集，设数量为 \( I_n \)），也构造类似的检验：
但问题是：窄定义匹配集的选择依赖于 \( Z_{i1} \)，所以窄定义匹配集内病例的处理概率不一定是对称的 1/2。
解决办法：引入第二个敏感度参数 \(\Lambda\) ——处理对 always-cases（设例：若一个个体无论处理与否都会成为窄病例——总是家中自杀——则处理不会改变其窄病例状态）产生窄病例的效应。
在 fixed principal stratum 下，假设对于 always-cases，处理 \( Z_{i1} \) 与窄定义 \( D_i \) 之间的关联完全由 \(\Lambda\) 控制：例如，在 always-cases 中，处理会将原本应是非窄病例的个体变为窄病例/或者相反，但总体上限定为给定水平。在特定的假设下（比如极端的 \(\Lambda=1\) 表示无效应），窄定义匹配集上的条件置换分布再次变为对称的 1/2，于是可以在窄定义匹配集上构造与宽定义类似的检验，但使用有效集合大小 \( I_n \)。

这就是论文的最小内核： 用“always-cases 中处理对窄定义状态的效应”参数 \(\Lambda\) 弥补窄定义集合的可交换性，然后将窄定义匹配集上的检验与宽定义检验通过 Bonferroni 组合起来。

三、这篇论文做了什么¶

三句话¶

研究问题：在匹配病例对照研究中，如何利用窄病例定义（效应量大但可能因处理影响结局类型而导致选择偏差）与宽病例定义（样本量大但效应量小）结合，检验处理对宽定义结局是否有因果效应。
核心方法：引入两个敏感性参数 \(\Gamma\)（未测量混杂强度）与 \(\Lambda\)（处理对 always-cases 产生窄病例的效应），在窄定义匹配集上构造一个有效的条件随机化检验（基于 principal stratification 参数化的可交换性恢复），然后通过 Bonferroni 将其与宽定义匹配集的检验合并。
主要结论：在枪支家庭与自杀风险的实证数据中，所提方法发现在 \(\Gamma = 1.5\)、\(\Lambda = 1.5\) 时广义结论仍稳健（即宽定义的自杀风险增加仍有统计显著性）；而若忽略选择偏差，窄定义检验会给出过度拒绝、结论易被推翻。

关键设定与假设¶

假设清单（在第二节记号基础上补全）

Fisher 精确零假设：对于宽定义结局，个体无处理效应——即在每个匹配集中，病例的结局（自杀/非自杀）是固定且不受 \( Z \) 影响的。这意味着处理只在匹配集间影响处理的分配，而不改变病例的身份。
随机化偏差模型（Rosenbaum 模型）：在匹配集 \( i \) 中，两个个体的处理状态被观测到的相对优势比为：
\[\frac{P(Z_{i1} = 1 \mid \text{匹配集结构})}{P(Z_{i1} = 0 \mid \dots)} \in \left[\frac{1}{\Gamma}, \Gamma\right]\]
即未测量混杂可以最多使处理概率增加 \(\Gamma\) 倍。这是连接未测量混杂的经典假设。
Principal stratum 假设：对窄定义结局 \( D \)，引入一个潜在变量 \( S_i \)（principal stratum），表示如果病例接受处理/不接受处理时的 \( D \) 状态。具体地，\( S_i \) 有三种可能：always-case（处理与否都是窄病例）、never-case（都不是窄病例）、在两种处理下情形变化（处理效应型）。本文假设，在窄定义检验中，仅关注 always-cases 子群，并假设在该子群中：
\[\frac{P(D_i=1 \mid Z_{i1}=1, \text{always-case})}{P(D_i=1 \mid Z_{i1}=0, \text{always-case})} \in \left[\frac{1}{\Lambda}, \Lambda\right]\]
即处理最多可以使 always-cases 中产生窄病例的概率增加 \(\Lambda\) 倍。
与已有文献的对比：相比 Frangakis & Rubin (2002) 需要依赖单调性或忽略处理效应的 type 来识别，本文的参数 \(\Lambda\) 是一种“边界分析”——即便 Assumptions 无法完全识别 principal stratum 分布，也能通过对 \(\Lambda\) 设置界来导出保守检验。
无交互效应假设（隐含在 always-cases 的定义中）：假设窄定义产生的机制与处理无交互——即 always-cases 的子群大小不依赖于处理——这在实际中不一定成立（例如，处理可能使得某些用户在自杀时不选择家中），但被本文用以简化参数化。这一假设比通常的 principal stratification 更强。

这些假设相对已有框架： - 放宽：将未测量混杂与选择偏差同时考虑，不强迫必有一个完全观测的参数。 - 收紧：假设对 always-cases 的效应具有特定范围 \(\Lambda\)，以及 principal stratum 的 stable 性质（无交互）。

主要结果¶

定理 1（窄定义匹配集上的有效检验）：设 \( I_n \) 为窄定义匹配集数量，在 Fisher 零假设 + 未测量混杂偏差界 \(\Gamma\) + 选择偏差界 \(\Lambda\) 之下，可以构造一个条件双侧随机化检验，其 p-值 \( p_{\Lambda,\Gamma} \) 在零假设下满足：

\[P(p_{\Lambda,\Gamma} \le \alpha) \le \alpha\]

即检验在 normally so 的意义上是水平 \(\alpha\) 有效的。 - 直觉：窄定义选择偏差被 \(\Lambda\) 界住了；在 worst-case 下，窄定义匹配集中的处理分布偏斜至多被 \(\Gamma\) 和 \(\Lambda\) 联合限住，因此可以构造保守的置换检验。 - 必要条件：窄定义匹配集数量 \( I_n \) 必须足够大以使得检验有合理的检验力（否则 Bonferroni 合并后可能退化）。 - 技术难点：需要精细地处理窄定义匹配集内条件分布的非对称性——即 case 的处理概率不等于 1/2 而取决于 \(\Lambda\)。作者用 “在所有 principal stratum 分配上取最不利的配置” 的技巧，找到在给定 \(\Gamma\) 和 \(\Lambda\) 下最极端的不对称性，然后构造保守检验。

定理 2（Bonferroni 合并检验的有效性）：宽定义检验的 p-值 \( p_{\text{broad}}\)（基于所有 I 个匹配集）与窄定义检验的 p-值 \( p_{\text{narrow}}\) 合并后：

\[p_{\text{combined}} = 2 \cdot \min(p_{\text{broad}}, p_{\text{narrow}})\]

在 zero effect 假设下有水平 \(\alpha\) 的有效性。为了确保保守性，当宽定义效应很弱而窄定义效应很强时，组合检验的检验力可能高于单独使用宽定义检验——但也可能低于理想的“最优合并”（因为 Bonferroni 有 2 倍惩罚）。 - 与 baseline 的对比：不使用窄定义，仅用宽定义时，同样水平 \(\alpha\) 的检验力在 \(\Gamma\) 增大时会退化；使用窄定义后，即使 \(\Gamma\) 较大，窄定义检验可能在更小的 \(\Lambda\) 下依然显著。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）： 1. 构造窄定义条件下的置换分布：首先证明，若已知 narrow-set 的选择过程对 always-cases 中子群的效应 \(\Lambda\) 有界，那么窄定义匹配集的 case-对照对可以被视为来自一个“分布不确定但有界”的符号随机变量。具体：从宽定义匹配集中，将每个窄定义的病例与其对照配对，但注意到该配对是否包含窄病例受 \( Z_{i1} \) 影响。使用 Fisher 零假设，可以写出窄定义匹配集的概率分布：\( P(T_{\text{narrow}} = t) \) 的不确定性范围被 \(\Gamma,\Lambda\) 控制。 2. 在最不利的偏差方向：找到使得零假设下 \( T_{\text{narrow}} \) 最偏向于较大值的参数配置（即 worst-case 方向），使 \( T_{\text{narrow}} \) 的分布与对称二项分布偏差最大；然后在 worst-case 下界住 p-值。 3. 构造检验统计量：采用简单的符号统计量（病例有枪且对照无枪的匹配集个数），也可以采用 Wilcoxon 符号秩统计量对其加权（文中应用时用了 Wilcoxon 以利用效应量大小信息）。 4. 采用 Bonferroni 合并两种定义的 p-值：由于两种检验在同一数据下的检验统计量正相关，Bonferroni 是保守的；但为了简便，它们没采用更高效但复杂的 Gamma-combination 方法（如 Fisher's 方法或 min-p 法），因为后者的联合null分布更难计算。

关键跳跃点： - 最关键的跳跃是 “窄定义匹配集的可交换性恢复”：当always-cases子群内处理对窄病例定义的无效应假设 \(\Lambda = 1\)，则窄定义匹配集中的处理分布对标；若 \(\Lambda > 1\)，则需使用 worst-case 界来保证水平。其证明并不依赖结构方程，但需要验证 narrow-set 的采样是否最不利时不会让检验的水平大于零假设下的名义水平。在附录中，作者主要通过 对所有 principal stratum 配置取最不利配置的 supremum 来完成。

技术技巧点名： - 条件置换推理（Conditional randomization inference）：核心使用在匹配结构内的条件置换分布，计算 p-值时不依赖大样本正态近似，而是精确的有限样本计算（对于小样本也适用）。 - Bonferroni 校正：简单有效的合并策略，但也是这个检验框架中可能是最薄弱的环节——因为它直接二倍放大 p-值，可能因两个检验高度依赖同一数据而浪费检验力。

真实例子与应用¶

数据：Kellermann et al. (1993) 的经典匹配病例对照数据，研究“家中是否有枪”与自杀风险的关系。数据集包含 I=400 个匹配集（每个匹配集 1 病例 + 1 对照）。窄病例定义：自杀发生在家中，共 \( I_n = 200 \) 左右个窄定义匹配集。

运用过程： 1. 使用全部 400 个匹配集，在无未测量混杂（\(\Gamma=1\)）下对宽定义结局进行符号检验得到 p<0.001。 2. 设置 \(\Gamma=1.5\)（即在完成匹配后、未测量混杂最多可使处置组的优势比放大 1.5 倍），宽定义检验的 p-值上升至 ~0.02。 3. 设置 \(\Lambda=1.5\)（即选择偏差最多使窄定义概率放大 1.5 倍），窄定义检验（使用 200 个匹配集）的 p-值为 ~0.01。 4. 将两者 Bonferroni 合并得到 \( p_{\text{combined}} = 2 \cdot \min(p_{\text{broad}}, p_{\text{narrow}}) = 0.02 \)。

说明：以 \(\Gamma=1.5, \Lambda=1.5\) 的组合，结论仍稳健（reject at 0.05）。若只考虑窄定义（忽略选择偏差，假设 \(\Lambda=1\)），p-值会在 \(\Gamma=1.5\) 时就超过 0.05。这表明不调整选择偏差会导致窄定义检验的过度拒绝，而本文方法纠正了这一点。

🔎 结论是否比证明窄¶

作者声称：“本文是第一个在匹配病例对照研究中同时考虑未测量混杂偏差与选择偏差的敏感性分析框架。” 实际上，参数涉及了 \(\Gamma\) 和 \(\Lambda\)，但它们之间的依赖关系（例如假设两个参数独立、或假设最不利方向一致）没有被完全讨论。证明中只考虑了两者最坏情况的组合（worst-case combo），没有考察不同方向的偏差可能导致检验变得过保守或过激进。因此，框架的“同时考虑”只是指两个参数都被纳入，但并非允许它们以任意方向耦合作用。
结论中的一个“暗含假设”是：主分析的零假设（无因果效应）下，窄定义产生的 always-cases 子群大小不会因处理而改变；若该假设不成立，窄定义检验可能会出现过度保守（因为选择的 worst-case 方向过于保守）。这一点在 conclusion 正文中没有明确表述。

四、开放问题（点到为止，扎根具体语句）¶

能否用比 Bonferroni 更有效的组合策略？ 作者在正文 p.4 说：“我们使用 Bonferroni 法合并两检验的 p-值，因为它保证了水平。” 但 Fisher 组合检验、截断 min-p 法在同样条件下可能提高检验力。这是一条明显的缺口——组合检验的有效性和最优性仍有待探讨。
是否可以弱化“principal stratum 稳定”（always-cases 内部无交互）的假设？ 当前证明依赖于 always-cases 的大小在两种处理下相同（即 \( N_{00} + N_{11} \) 固定）。这一假设在真实数据中未必成立（例如，拥有枪支可能让部分个体选择的结局地点偏离家中）。若能放松此假设，适用面会更广。该假设在文章第 3 节引入定义 2 时被默认。
\(\Gamma\) 和 \(\Lambda\) 双参数的敏感度曲面如何更系统地进行解释？ 作者给出的表格展示了 \(\Gamma\) 和 \(\Lambda\) 在特定网格上的 p-值，但没有一个像 E-value 那样将两个参数压缩成一个“最小联合偏差值”的总结性度量。一个自然的扩展是定义 \( (\Gamma, \Lambda) \)- 联合 E-value：让结论能被推翻所需的最小 \((\Gamma, \Lambda)\) 的 “Manhattan 距离” 或两个参数乘积（或其他合理的复合度量）。
对于多对照情形（1:K 匹配或多对匹配）的扩展：目前例子只用了 1:1 匹配。文章在补充中提到可扩展至更一般的匹配结构，但未展示证明或模拟。需确认在更复杂匹配设计下，条件置换分布的生成和 worst-case 界的构造仍可行——且检验统计量的收敛速度是否受匹配集大小不均匀影响。

Maintained by 陈星宇 · Homepage · Source on GitHub