Causal Inference Under Outcome-Based Sampling with Monotonicity Assumptions¶

作者: Sung Jae Jun, Sokbae Lee
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么
本文研究的根本问题是：在 outcome-based 抽样（即病例-对照抽样或病例-总体抽样）下，如何利用观测到的非随机样本识别并估计二元处理对二元结果的因果效应——具体参数是因果相对风险（causal relative risk, \(RR = P(Y^{1}=1)/P(Y^{0}=1)\)）和归因风险（attributable risk, \(AR = P(Y^{1}=1)-P(Y^{0}=1)\)）。在该类抽样中，研究者依据结果变量 \(Y\) 的值进行分层采样（如病例组全取或超比例抽取），使得样本中 \(Y\) 的分布严重偏离总体分布；标准因果推断方法（如基于强可忽略性的倾向得分调整）在总体维度上需要校正抽样权重，而若缺少总体患病率信息则点识别通常不可行。因此，该方向当前的重点是：在尽量少的辅助信息下，获得因果参数的部分识别（sharp bounds），并给出合理的推断方法。成熟度方面，部分识别理论在随机抽样下已很成熟（Manski 系列工作），但针对 outcome-based 抽样的专门理论仍处于发展期。

发展脉络（history，基于摘要及已知文献库推断，具体引用句需参考原文）

奠基工作：Manski (1997) 提出单调性假设
Manski 在随机抽样框架下提出了单调处理响应（MTR: \(Y^1 \ge Y^0\) a.s.）和单调处理选择（MTS: 对 \(t=0,1\)，\(E[Y^t|T=1] \ge E[Y^t|T=0]\)）假设，并证明了在这些假设下平均处理效应的识别区间可以大幅收紧。该工作为本文提供了核心工具。
主要进展：部分识别理论向复杂抽样设计的拓展
随后，多位作者将部分识别方法应用于非随机抽样设计，例如完全基于结果选择（selection on outcomes）的样本。VanderWeele & Vansteelandt (2010) 等讨论了 case-control 设计下比值比（odds ratio）的因果解释，但未给出一般部分识别下相对风险的 sharp 界。Breslow & Day (1980) 及其继承者系统研究了 case-control 下的logistic回归系数的一致估计，但其结论假设了“稀有疾病”或“logistic模型正确”，且目标参数是比值比而非因果相对风险。本文作者在引言中指出：“strong ignorability is not always as powerful as it is under random sampling”，意味着在 outcome-based 抽样下，即使假定处理分配在给定协变量下完全随机（强可忽略性），也无法像随机抽样那样点识别因果相对风险，因为抽样导致处理与结果的联合分布扭曲。为此，作者将目光转向单调性假设。
当前 frontier 与本文位置
已有文献在 case-control 抽样下处理因果效应的主要策略是：(a) 假设已知总体患病率并采用逆概率加权；(b) 利用比值比在 retrospective 抽样下的不变性估计 OR 并解释为因果效应（需额外假设）。但 (a) 需要外部信息，(b) 仅能解释 OR 的因果方向性，不能直接给出 RR 的界。本文填补了在无须总体患病率信息、仅依赖 MTR+MTS 假设的条件下，将 OR 识别为因果 RR 的锐上界（sharp upper bound）的理论空白。作者声称：“the usual odds ratio is shown to be a sharp identified upper bound on causal relative risk under the MTR and MTS assumptions”。这使得研究者能够从常见的 case-control 数据中直接报告“因果相对风险的上界是观测到的比值比”，而不需要额外信息。

子线索聚类

部分识别下的单调性假设（MTR/MTS）
核心文献：Manski (1997, 《Identification for Prediction and Decision》); Manski & Pepper (2000, 《Monotone Instrumental Variables》). 这些工作建立了在处理效应部分识别中利用单调性获得 sharp bounds 的一般框架。本文将其移植到 outcome-based 抽样环境，并发现 OR 作为 RR 上界的简洁结果。
Case-control 设计下的因果推断
如 Prentice & Pyke (1979) 证明了回顾性抽样下 logistic 回归系数的极大似然估计与前瞻性抽样相同（即 odds ratio 的不变性）；Breslow & Day (1980) 的教科书；King & Zeng (2001) 关于稀有事件 bias 修正。本文建立了在该类抽样下因果 RR 的部分识别结果，而不依赖 logistic 模型假设。
基于比值比的因果推断
如 VanderWeele & Vansteelandt (2010) 关于 OR 的因果解释（风险比近似）以及敏感性分析；本文在更弱假设下（MTR+MTS）直接建立了 OR 与因果 RR 的确定序关系。

核心问题与瓶颈
该方向在追问：在不完全已知总体分布的情况下，如何利用额外结构假设（如单调性）获得因果参数的紧的识别区间？主要瓶颈是：(a) 单调性假设本身的可信度检验尚未解决；(b) 当协变量维度较高时，估计会遭遇“维度灾难”或非参数收敛速度慢；(c) 目前的方法限于二元处理与结果，推广到多类别或连续变量尚无一般理论。

⚠️ 作者的 framing
作者将缺口 frame 成：“在 case-control 抽样下，标准可忽略性不比随机抽样下强大，而 MTR+MTS 可以提供相当的结果（sharp identified intervals）”。他们回避的竞争路线是：(1) 通过已知患病率做逆概率加权（需要外部数据，作者认为实际中常无）；(2) 直接假设 logistic 模型并利用 OR 不变性进行点估计（需要模型假设，且只能得到 OR 而非 RR）。本文的方法仅需要 MTR 和 MTS 假设，而这些假设在某些应用中可能比强可忽略性或 logistic 模型更合理。什么明显该被引却未出现？ 本文未讨论的工具变量方法（如 Imbens, 2003）或 principal stratification 可能也适用于此类设计；另未见提及 sensitivity analysis（如 Rosenbaum, 2002）以量化 MTR/MTS 偏离的影响。值得研究者去查原文 intro 是否确实遗漏了这些线索。

张力
未见明显对立引用。MTR 和 MTS 在随机抽样框架下已被广泛采用并视为较弱假设；在 case-control 下它们是否仍然合理，需结合应用判断。本文与传统的稀有疾病假设（rare disease assumption）并无冲突：若结果稀有，OR 近似 RR，本文的上界结果依然成立但保守程度降低。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设： - 二元处理变量 \(T \in \{0,1\}\)。 - 二元结果变量 \(Y \in \{0,1\}\)。 - 协变量向量 \(X \in \mathcal{X}\)（可以是任意维，但本文讨论离散情况或使用核平滑处理）。 - 潜在结果：\(Y^{0}, Y^{1} \in \{0,1\}\)，满足 \(Y = T Y^{1} + (1-T) Y^{0}\)（一致性假设）。 - 可观测数据来自 case-control 抽样：从总体中那些 \(Y=1\) 的个体（病例）中抽取 \(n_1\) 个，从 \(Y=0\) 的个体（对照）中抽取 \(n_0\) 个，每个单位记录 \((T_i, X_i)\)（注意：\(Y_i\) 在抽样设计中已知，但样本中病例比例与总体患病率 \(\pi = P(Y=1)\) 不同，且研究者通常不知道 \(\pi\)）。因此，样本的联合分布是条件分布 \(P(T,X | Y)\)，而非总体的 \(P(Y,T,X)\)。 - 目标参数（总体上的因果量）： - 因果相对风险： \(RR = \frac{P(Y^{1}=1)}{P(Y^{0}=1)}\)。 - 归因风险： \(AR = P(Y^{1}=1) - P(Y^{0}=1)\)。 - 模型假设： - MTR（单调处理响应）： \(Y^{1} \ge Y^{0}\) 以概率 1。即处理不会使结果变差（非负效应假设）。 - MTS（单调处理选择）：对于 \(t=0,1\)，\(E[Y^{t} | T=1] \ge E[Y^{t} | T=0]\)。即接受处理者在两种处理状态下的潜在结果均值均不低于未接受处理者（个体按“潜在健康水平”排序，与处理接受正相关）。 - 不可观测的量：个体潜在结果 \((Y^{0}, Y^{1})\)；总体患病率 \(\pi\)；协变量总体分布 \(P(X)\)。

第二步：最小内核——无协变量情形¶

为进一步简化，舍弃协变量 \(X\)（即假设 \(X\) 是离散且只有一个值，或本质上忽略其调节作用）。这样唯一可观测的数据就是来自病例组和对照组的 \((T)\)，且样本中病例占比 \(p^*\) 与总体 \(\pi\) 无关。此时识别问题完全基于四个观测频率：\(P(T=1|Y=1), P(T=0|Y=1), P(T=1|Y=0), P(T=0|Y=0)\)。

定义观测到的比值比（odds ratio）为：

\[OR_{\text{obs}} = \frac{P(Y=1|T=1) / P(Y=0|T=1)}{P(Y=1|T=0) / P(Y=0|T=0)}.\]

在 case-control 抽样下，上式可以用样本中的比值一致估计（因为 OR 在 retrospective 抽样下保持不变）。
内核命题：在 MTR 和 MTS 同时成立下，有

\[RR = \frac{P(Y^{1}=1)}{P(Y^{0}=1)} \le OR_{\text{obs}},\]

且这个上界是 sharp 的（即存在一个满足 MTR 和 MTS 且与观测边际分布一致的潜在结果分布，使得 \(RR\) 恰好等于 \(OR_{\text{obs}}\)）。

证明思路（仅展示最小内核）： 1. 由 MTR，\(Y^{1} \ge Y^{0}\) 意味着 \(P(Y^{1}=1)\) 和 \(P(Y^{0}=1)\) 之间有关联：\(P(Y^{1}=1) \ge P(Y^{0}=1)\)。 2. 由 MTS，有 \(P(Y^{1}=1|T=1) \ge P(Y^{1}=1|T=0)\) 和 \(P(Y^{0}=1|T=1) \ge P(Y^{0}=1|T=0)\)。 3. 利用观测条件概率与潜在结果条件概率的关系（通过一致性假设和全概率公式），可将 \(P(Y^{1}=1)\) 表达为：

\[P(Y^{1}=1) = P(Y^{1}=1|T=1)P(T=1) + P(Y^{1}=1|T=0)P(T=0).\]

但 \(P(Y^{1}=1|T=1) = P(Y=1|T=1)\)（因为当 \(T=1\) 时 \(Y=Y^{1}\)），而 \(P(Y^{1}=1|T=0)\) 不可观测（因为 \(T=0\) 时观察不到 \(Y^{1}\)）。类似地，\(P(Y^{0}=1)\) 也有不可观测部分。 4. 利用 MTS 不等式对不可观测条件概率给出上界（例如，\(P(Y^{1}=1|T=0) \le P(Y^{1}=1|T=1)\)），进而得到 \(P(Y^{1}=1)\) 和 \(P(Y^{0}=1)\) 的合理界。 5. 计算 \(RR\) 关于这些界的最大值，化简发现其等于 \(OR_{\text{obs}}\)。 6. 通过构造一个满足所有假设且达到等式的潜在分布证明 sharpness（例如令概率测度集中到某些点上）。

这个最小内核清楚地表明：在 case-control 抽样下，即使不知道总体患病率，MTR+MTS 也能将观测到的比值比直接解读为因果相对风险的上界。 但在无协变量时该结论过于平凡，因为 OR 可以直接从样本计算。引入协变量后，需要按协变量分布聚合（见第三节）。

三、这篇论文做了什么¶

三句话¶

研究问题：在 case-control 和 case-population 抽样（binary outcome, binary treatment）下，利用 MTR 和 MTS 假设识别和推断因果相对风险 RR 与归因风险 AR 的 sharp 界。
核心方法/工具：将 MTR 和 MTS 与 outcome-based 抽样结合，证明观测到的比值比是因果相对风险的锐上界；开发基于协变量总体分布聚合的算法，通过逆概率加权或核平滑估计 \(P(X|Y)\) 再整合出 RR 的界与置信区间。
主要结论：在 MTR+MTS 下，\(RR \le OR\) 且该界为 sharp；对于 AR 也给出类似 bound；推断算法包括参数估计与 bootstrap 置信区间，三个实证例子验证了可行性。

关键设定与假设（在第二节记号上补充完整）¶

抽样方案：case-control：从 \(Y=1\) 和 \(Y=0\) 中分别独立抽取固定大小的样本；case-population：从 \(Y=1\) 中全取，\(Y=0\) 中抽取子样本。样本量记为 \(n_1, n_0\)。总体中 \(Y\) 的边际分布 \(\pi\) 假设未知。
协变量：假设 \(X\) 是离散（或连续但可通过非参数平滑处理）。本文假定协变量支撑有限且重叠条件成立。
MTR：\(Y^{1} \ge Y^{0}\) a.s.。
MTS：对每个 \(t\)，\(E[Y^{t} | T=1] \ge E[Y^{t} | T=0]\)。注意 MTS 是条件均值意义上的单调性，不同于个体水平的单调性（后者需工具变量思路）。
一致性、可忽略性：本文不倚赖强可忽略性；事实上，作者说明强可忽略性在 case-control 下不能保证点识别，故才采用单调假设。
辅助假设：(i) 抽样分配独立于潜在结果条件于 \(Y\)（即抽样机制仅依赖于结果值）；(ii) 协变量的条件分布 \(P(X|Y=y)\) 可从样本一致估计（若 \(X\) 离散，则直接计算频率；若连续则需核平滑，但本文主要例子使用离散或简单分类）。

主要结果（理论型）¶

定理 1（未给出具体编号，基于摘要推测的结构）：在 MTR 和 MTS 下，

\[RR \le \min_{x} \frac{ P(Y=1|T=1,X=x) / P(Y=0|T=1,X=x) }{ P(Y=1|T=0,X=x) / P(Y=0|T=0,X=x) },\]

且在无 X 时上界就是观测到的 OR。直觉：MTS 保证了对于给定 X，处理选择方向的单调性，而 MTR 提供了结果单调性，二者结合限制了不可观测的潜在结果差异，使得 OR 成为 RR 的上界。必要条件：MTR 和 MTS 必须同时成立；若只成立一个，一般只能得到更宽的界。技术难点：证明 sharpness 需要构造满足 MTR+MTS 且与观测分布一致的潜在分布，通常通过设置逻辑斯谛参数化并求解线性系统。

定理 2（推断算法的一致性）：提出了两步法： 1. 估计条件比值比 \(OR(X) = \frac{P(Y=1|T=1,X)}{P(Y=0|T=1,X)} / \frac{P(Y=1|T=0,X)}{P(Y=0|T=0,X)}\)。 2. 对 \(OR(X)\) 按总体协变量分布加权，得到总体 OR，作为 RR 的上界。该估计量在适当正则条件下是渐近正态的。推断使用 bootstrap 构造置信区间（覆盖真实 RR 的概率至少为标称水平，因为置信区间是针对上界而非点识别的 RR）。

定理 3（归因风险的界）：在同样假设下，归因风险 AR 满足：

\[AR \le \frac{OR-1}{OR} P(Y^{0}=1) \quad (\text{或类似的非线性界}),\]

具体形式需参考原文。这部分展示了上界仍然是关于 OR 和 \(P(Y^{0}=1)\) 的函数，而 \(P(Y^{0}=1)\) 本身在 MTR+MTS 下也有界。

证明路线与技术技巧（理论型）¶

整体路线（以 RR 的上界值为例）：

分解 RR：\(RR = \frac{P(Y^{1}=1)}{P(Y^{0}=1)} = \frac{\sum_x P(Y^{1}=1|X=x)P(X=x)}{\sum_x P(Y^{0}=1|X=x)P(X=x)}\)。
对每个 X 层应用无 X 版本的结果：在给定 X 的子总体中，MTR 和 MTS 仍成立（因为单调性质不随条件于 X 改变）。因此，在该层上有 \(RR_x \le OR_x\)，其中 \(OR_x\) 是层内的比值比。
跨层聚合：由于 RR 是各层 RR_x 的加权（以 \(P(Y^{0}=1|X=x)\) 为权重？实际上分母不同，不能直接相乘）。作者需要证明总体 RR ≤ 总体 OR，其中总体 OR 定义为各层 OR_x 的某种加权平均（或最小？实际应为加权）。关键难度在于：RR 的分母是 \(\sum_x P(Y^{0}=1|X=x)P(X=x)\)，而 OR 的分子分母分别涉及 \(\sum_x P(Y=1|T=1,X=x)P(X|x)\) 等。技术跳跃在于通过 MTS 约束不可观测的 \(P(Y^{0}=1|X=x,T=1)\) 等项，从而将 RR 的分子分母用观测条件概率控制。
化简：利用代数不等式（如 Cauchy-Schwarz 或 Jensen）以及 MTR+MTS 推出的不等式链，最终得到 \(RR \le \frac{\sum_x P(Y=1|T=1,X=x)P(X=x) / \sum_x P(Y=0|T=1,X=x)P(X=x)}{\sum_x P(Y=1|T=0,X=x)P(X=x) / \sum_x P(Y=0|T=0,X=x)P(X=x)}\)，而右端恰为总体 OR。这一步需要仔细的分母处理。
Sharpness 证明：构造一个满足 MTR+MTS 且达到等式的联合分布。通常通过设定 \(Y^{1}=Y^{0}\) 对于一些子群体、\(Y^{1}=1\) 对另一些子群体等极端情况实现。

关键跳跃点： - 从层内 \(RR_x \le OR_x\) 到总体 \(RR \le OR\) 并非平凡，因为 \(RR\) 不是各层 RR_x 的凸组合（分母不同）。作者可能利用了 MTS 中隐含的跨层单调性来统一分母。 - 处理 case-control 中 X 的分布偏移：样本中 X|Y 的分布与总体不同，作者需要重建总体 P(X) 的估计（通过加权，权重依赖于已知的抽样概率或需要患病率 π，但 π 未知）。实际上，作者的算法假设研究者已知病例与对照的抽样分数（即 \(P(Y=1)\) 在样本中的比例为 \(n_1/(n_1+n_0)\) 已知，但总体 π 未知？此处需要澄清。论文可能假设抽样概率已知（即病例和对照的抽取比例已知），从而可以逆概率加权恢复总体 P(X)。另一种可能是使用了“case-population”设计（病例全样本，对照组有代表性），则 n1 是总体病例数，π 也可估计。这可能是实际应用中的假设。在摘要中未明确，但三个例子（尤其巴基斯坦私立学校研究）是案例-对照设计且有置信区间。

技术技巧点名： - 逆概率加权（IPW）：用于重新加权样本中的协变量分布以近似总体分布。 - 经验过程理论：用于证明估计量的一致性和渐近正态性（需处理 \(P(X)\) 的估计以及 OR_x 的估计）。 - 逻辑斯蒂回归或非参数平滑：用于估计条件比值比 OR_x。 - Bootstrap：用于构造 RR 上界的置信区间，避免渐近方差解析计算的困难。

真实例子与应用¶

本文包含了三个实证例子，均使用 case-control 或 case-population 设计：

巴基斯坦私立学校与名校入学（data from Andrabi et al., 2002 等）：数据集包含男孩入读名校的结果（Y=1 名校录取）和是否上私立初中（T=1）。样本为 case-control（从录取和未录取各抽取）。结果表明私立学校对名校入学的因果相对风险的上界（OR）约为 1.8，且 95% 置信区间下限大于 1，说明上界显著大于 1，暗示私立学校可能有正效应。该例子验证了方法的实用性，因为直接估计 RR 需要知道总体录取率（未知），而 OR 容易获得。
巴西辍学与贩毒（data from Cardoso & Verner, 2008）：研究辍学（T=1）是否增加参与贩毒（Y=1）的风险。采用 case-control 抽样（贩毒者 vs 非贩毒者）。MTR 假设“辍学不会减少贩毒风险”（可能合理），MTS 假设“辍学者有更高贩毒倾向”。结果 OR≈2.5，作为 RR 的上界。
美国医生工时与诊所规模（data from the Medical Group Management Association）：研究医生在大型诊所工作（T=1）是否导致更长工时（Y=1 表示工时超过 40 小时/周）。该例子使用了 case-population 设计（自治区中有工时数据的全样本作为病例组，对照组随机抽取）。结果 OR≈1.3，上界大于 1 但下限包含 1。

这些例子展示了方法在不同应用领域的可行性，并给出了置信区间。但注意：这些区间是 RR 上界的区间，而非 RR 本身的区间；因此若下限大于 1，只能说明上界显著大于 1，不直接说明 RR > 1。作者在文中有无恰当解释原文中应包含此类讨论。

🔎 结论是否比证明窄¶

从摘要推断，论文的主要结果（OR 是 RR 的锐上界）在 MTR+MTS 下是严格证明的。但需注意： - 当协变量是连续且高维时，估计 OR_x 和聚合步骤的收敛速度会变慢，实际推断的有限样本覆盖可能低于名义水平——论文可能只证明了渐近性质，未深入讨论 bootstrap 在高维或弱识别时的表现。 - 作者声称“所得区间是 sharp”，但 sharpness 证明依赖于构造合适的潜在分布，该构造可能需要协变量支撑是离散且有限。若协变量连续，sharpness 可能只能在点态意义上成立，而非函数空间中的处处 sharp。 - 开放口：论文未讨论 MTR+MTS 假设的检验，也未提供敏感性分析以评估假设违背的影响。三个例子的结论依赖于这些假设，但未提供诊断。

四、开放问题（扎根具体语句）¶

假设诊断与敏感性分析
本文完全依赖 MTR 和 MTS 假设。但如何诊断这些假设在给定 case-control 数据下是否合理？目前没有准则。研究者可扎根于原文的“sharp identified upper bound”这一结论，探索当 MTR 或 MTS 轻微违背时，上界如何漂移（例如引入偏离参数 \(\delta\) 定义 \(P(Y^{1}<Y^{0}) \le \delta\) 或 \(E[Y^{t}|T=1] - E[Y^{t}|T=0] \ge -\delta\)，并重新推导 RR 的界）。这类敏感性分析可直接拓展本文方法。
多类别处理与连续结果
本文仅考虑二元处理与二元结果。作者在引言或结论部分（推测）可能提到推广方向。问题：对于多值处理（如剂量）或连续结果，MTR 和 MTS 如何定义？ OR 失去意义，需要构造其他统计量（如平均风险差）的界。需重新推导 sharp bounds，并研究 case-control 抽样下这些量的识别。这是一个理论上富有挑战的方向。
高维协变量下的估计
当协变量维度 \(d\) 较大时，非参数估计 \(OR(X)\) 会遇到维数灾难。本文的算法假设 X 离散或低维。能否利用稀疏结构或机器学习模型（如 lasso-logistic）估计条件 OR，并仍然保证界的一致性？该问题直接联系高维统计与部分识别的交叉，是自然拓展。
单调性假设与工具变量的结合
本文未讨论工具变量。在 case-control 设计中若有 IV，能否结合单调性（如 Imbens & Angrist 的 LATE 单调性）获得更紧的点识别或界？尤其当 MTR 或 MTS 不可信时，IV 可提供替代识别策略。研究者可查阅原文是否提及 IV 作为未来工作；若未提及，则是一个明确的缺口。建议读同主题近期 5 篇 intro 确认共识。

Maintained by 陈星宇 · Homepage · Source on GitHub