Optimal refinement of strata to balance covariates¶

作者: Katherine Brumberg, Dylan S Small, Paul R Rosenbaum
来源: Biometrics
主题: 因果推断
相关性: 5/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae061

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：在观察性研究中，如何通过分层（stratification）来平衡处理组与对照组之间的协变量分布，从而减少混杂偏倚。具体而言，当研究者已经基于倾向性评分（propensity score）将样本划分为若干层后，如何进一步将每个层“最优地”拆分为两个子层，以最大化地减少层内协变量的不平衡。这是一个组合优化问题，其核心在于：给定一个层内的样本（每个样本有处理/对照状态和多个协变量），如何将样本分配到两个子层中，使得两个子层内的协变量均值尽可能接近，同时保持子层内处理组与对照组的比例大致相等（以维持倾向性评分分层的性质）。该方向当前成熟度较高：倾向性评分分层本身是经典方法，但“如何最优地细化已有层”这一具体子问题此前缺乏系统性的组合优化解法。

发展脉络（history）¶

作者在引言中通过引用将相关工作串成一条线：

奠基工作：Rosenbaum & Rubin (1983) 提出倾向性评分，并证明在倾向性评分上分层可以平衡协变量。这是整个领域的起点。作者引用时指出：“Rosenbaum and Rubin (1983) proposed stratification on the propensity score to balance covariates between treated and control groups.” 这是经典结果，但分层数通常由研究者主观决定（如5层），且层内协变量平衡不一定理想。
主要进展：分层细化与平衡检验。作者引用了几篇后续工作：
Rosenbaum (2002) 讨论了如何通过“细化”（refinement）已有层来改善平衡，但方法依赖于手动检查协变量不平衡并手动拆分，缺乏系统性的优化框架。
Hansen & Bowers (2008) 提出了协变量平衡的检验方法（如卡方检验），用于评估分层后的平衡质量，但未给出如何最优地实现平衡的算法。
Zubizarreta (2012) 和 Pimentel et al. (2015) 将匹配问题形式化为整数规划，用混合整数规划（MIP）求解最优匹配以平衡协变量。这些工作展示了组合优化在因果推断中的潜力，但聚焦于匹配而非分层细化。
当前 frontier：整数规划与随机舍入在分层中的应用。作者指出，虽然整数规划已被用于匹配，但将其直接用于分层细化面临计算挑战：层内样本数可能很大（如数千人），整数规划求解器难以在合理时间内找到最优解。本文的贡献在于：将分层细化问题形式化为整数规划，并用线性规划松弛加随机舍入（randomized rounding）来近似求解，同时证明了当层内样本数远大于协变量数时，随机舍入的随机性很小，从而保证了近似解的质量。
本文的位置：作者将本文定位为“将整数规划与随机舍入技术引入分层细化问题，并提供理论保证”的工作。它填补了“如何系统性地、最优地细化已有倾向性评分层”这一缺口，同时避免了直接求解整数规划的计算瓶颈。

子线索聚类¶

这些被引文献大致落在两条子线索上：

倾向性评分分层与平衡检验：包括 Rosenbaum & Rubin (1983)、Rosenbaum (2002)、Hansen & Bowers (2008) 等。这一簇关注如何用倾向性评分分层来减少混杂，以及如何检验分层后的协变量平衡。它们的方法论基础是统计推断，而非组合优化。
整数规划在因果推断中的应用：包括 Zubizarreta (2012)、Pimentel et al. (2015) 等。这一簇将匹配或分层问题形式化为整数规划，并用精确求解器（如 MIP）或近似算法求解。它们的方法论基础是运筹学与组合优化。本文属于这一簇，但创新在于用线性规划松弛+随机舍入替代精确整数规划，从而处理更大规模的样本。

这个方向在追问的核心问题¶

核心问题 1：给定一个已有层，如何将其拆分为两个子层，以最小化层内协变量不平衡？这是一个组合优化问题，其目标函数是什么（如协变量均值的最大差异、加权和等）？
核心问题 2：当样本数很大时，如何高效地近似求解这个组合优化问题？整数规划求解器可能太慢，需要近似算法。
核心问题 3：近似解的质量如何保证？即，近似解与最优解之间的差距是否有理论界？
已知瓶颈：整数规划求解器在大规模问题上的计算时间不可控；手动细化依赖主观判断，缺乏系统性。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“虽然已有工作用整数规划做匹配，但尚未有人将其系统性地用于分层细化；同时，直接求解整数规划在分层细化中可能计算量过大，因此需要一种近似方法，且该近似方法在层内样本数远大于协变量数时应有理论保证。” 作者通过这个 framing 使本文成为“显然的下一步”：先用线性规划松弛得到下界，再用随机舍入得到上界，且证明这两个界往往很接近。

什么明显该被引/该存在、却没出现在 intro 里？ 作者未引用任何关于“随机舍入在统计问题中的应用”的近期工作（如随机舍入在匹配或实验设计中的其他应用）。这可能是因为该方向本身较新，但值得研究者去查：是否有其他统计问题用随机舍入近似整数规划？如果有，它们的理论保证与本文有何异同？此外，作者未引用任何关于“分层数选择”的贝叶斯或信息准则方法（如 AIC/BIC 用于选择层数），这可能是因为本文聚焦于“给定已有层后如何细化”，而非“如何选择初始层数”。

张力¶

未见明显对立引用。所有被引工作基本一致地认为：倾向性评分分层是有效的，整数规划可以改善平衡，但计算成本高。本文的贡献在于提供一种计算上可行的近似方案。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( i = 1, \dots, n \)：层内的样本索引（每个样本是一个个体）。
\( Z_i \in \{0, 1\} \)：处理状态（1 = 处理组，0 = 对照组）。这是可观测的。
\( \mathbf{x}_i \in \mathbb{R}^p \)：\( p \) 个协变量组成的向量。这是可观测的。
\( S \)：当前层（一个集合，包含 \( n \) 个样本）。我们要将其拆分为两个子层 \( S_1 \) 和 \( S_2 \)。
\( a_i \in \{0, 1\} \)：分配变量，表示样本 \( i \) 被分配到哪个子层（0 = 子层 1，1 = 子层 2）。这是我们要优化的决策变量。
\( \bar{\mathbf{x}}^{(1)} \) 和 \( \bar{\mathbf{x}}^{(2)} \)：子层 1 和子层 2 内的协变量均值向量。
\( \mathbf{d} = \bar{\mathbf{x}}^{(1)} - \bar{\mathbf{x}}^{(2)} \)：两个子层之间的协变量均值差异向量。我们希望这个差异尽可能小（即两个子层的协变量分布尽可能相似）。
\( \mathbf{w} \in \mathbb{R}^p \)：协变量的权重向量（非负，通常由研究者根据协变量的重要性或方差设定）。目标函数是加权后的最大绝对差异：\( \max_{j} w_j |d_j| \)，或者加权平方和：\( \sum_j w_j d_j^2 \)。本文采用前者（最大绝对差异）。
模型：没有显式的概率模型。这是一个纯组合优化问题：给定一组样本（每个样本有协变量向量和处理状态），我们要找到一个二分划分（将样本分配到两个子层），使得两个子层的协变量均值尽可能接近。处理状态 \( Z_i \) 在目标函数中不直接出现，但隐含地通过“子层内处理组与对照组比例应大致相等”这一约束来影响分配（因为倾向性评分分层的性质要求每个子层内处理组比例大致相同）。本文的整数规划模型包含一个约束：每个子层内的处理组样本数应大致等于对照组样本数（或至少保持一个可接受的比率）。
可观测数据：研究者实际能观测到的是每个样本的协变量向量 \( \mathbf{x}_i \) 和处理状态 \( Z_i \)。潜在/不可观测的是“如果样本被分配到另一个子层，协变量平衡会如何变化”——但这在组合优化中不是问题，因为分配变量 \( a_i \) 是决策变量，我们可以计算任何分配下的协变量均值差异。

第二步：讲最小内核¶

最简特例：假设 \( p = 1 \)（只有一个协变量），且层内所有样本的处理状态相同（例如全是处理组）。那么问题退化为：给定 \( n \) 个实数 \( x_1, \dots, x_n \)，将它们分成两组 \( S_1 \) 和 \( S_2 \)，使得两组均值的差异 \( |\bar{x}^{(1)} - \bar{x}^{(2)}| \) 最小。这是一个经典的“数划分问题”（number partitioning problem），是 NP-hard 的。但在这个特例下，我们可以直观地理解本文的方法：

整数规划形式：我们要选择 \( a_i \in \{0, 1\} \)，使得 \( \sum_i a_i x_i / n_1 - \sum_i (1-a_i) x_i / n_2 \) 的绝对值最小（其中 \( n_1 = \sum_i a_i \)，\( n_2 = n - n_1 \)）。这是一个整数规划，因为 \( a_i \) 必须是整数（0 或 1）。
线性规划松弛：将约束放松为 \( 0 \leq a_i \leq 1 \)，允许“分数个体”。此时问题变成线性规划，可以高效求解。最优解 \( a_i^* \) 可能不是整数（例如 \( a_i^* = 0.3 \) 表示“30% 的个体 i 分配到子层 1”）。
随机舍入：将 \( a_i^* \) 视为概率，对每个样本 i 独立地以概率 \( a_i^* \) 分配到子层 1，以概率 \( 1 - a_i^* \) 分配到子层 2。这样得到整数解 \( \tilde{a}_i \in \{0, 1\} \)。
理论保证：当 \( n \) 很大时（远大于 \( p=1 \)），随机舍入的随机性很小。具体地，作者证明：线性规划松弛的解 \( a_i^* \) 几乎都是 0 或 1（即很少出现分数值），因此随机舍入几乎不改变分配，从而随机舍入解与线性规划松弛解非常接近。同时，线性规划松弛解是整数规划最优解的下界（因为放松了整数约束），随机舍入解是上界（因为它是可行整数解），且这两个界往往很接近，从而验证了随机舍入解的质量。

核心数学困难：在一般 \( p \) 下，目标函数是多个协变量上的最大加权绝对差异，这比单个协变量更复杂。作者的关键想法是：将问题形式化为一个整数规划，其目标函数是线性函数（通过引入辅助变量将最大绝对差异线性化），然后用线性规划松弛+随机舍入近似。理论保证依赖于：当 \( n \) 远大于 \( p \) 时，线性规划松弛的解几乎总是整数（即分数值很少），因此随机舍入的随机性很小。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在观察性研究中，如何将一个已有的倾向性评分层最优地拆分为两个子层，以最小化层内协变量的不平衡（用协变量均值的最大加权绝对差异衡量）。
核心工具/方法：将分层细化问题形式化为整数规划，用线性规划松弛得到下界，再用随机舍入（randomized rounding）得到可行整数解（上界），并证明当层内样本数 \( n \) 远大于协变量数 \( p \) 时，这两个界往往很接近。
主要结论：随机舍入解的质量由线性规划松弛解保证（两者之间的差距有理论界），且在实际数据中（2016名患者，5735名对照），用5个倾向性评分层细化成10个层，在保留全部患者的同时获得了极好的协变量平衡。

关键设定与假设¶

设定：给定一个层 \( S \)，包含 \( n \) 个样本，每个样本有处理状态 \( Z_i \in \{0,1\} \) 和协变量向量 \( \mathbf{x}_i \in \mathbb{R}^p \)。我们要将 \( S \) 拆分为两个子层 \( S_1 \) 和 \( S_2 \)，使得：
每个子层内的处理组与对照组比例大致相等（即保持倾向性评分分层的性质）。具体地，作者要求每个子层内的处理组样本数在 \( [n_{\text{trt}}/2 - \delta, n_{\text{trt}}/2 + \delta] \) 范围内，其中 \( n_{\text{trt}} \) 是层内处理组总数，\( \delta \) 是容忍度。
两个子层的协变量均值差异 \( \mathbf{d} = \bar{\mathbf{x}}^{(1)} - \bar{\mathbf{x}}^{(2)} \) 的加权最大绝对差异 \( \max_j w_j |d_j| \) 最小化，其中 \( w_j \) 是协变量权重（通常取协变量标准差的倒数，或由研究者指定）。
假设：
无额外假设：本文不依赖任何概率模型（如无混淆、无测量误差等）。它纯粹是一个组合优化问题，输入是观测到的协变量和处理状态。
隐含假设：倾向性评分分层本身已经平衡了倾向性评分，因此细化只需关注协变量平衡。这个假设是合理的，因为初始分层已经基于倾向性评分。
计算假设：线性规划松弛可以在多项式时间内求解（使用标准 LP 求解器）。随机舍入是简单的独立随机化。
相比已有文献的放宽/强化：相比 Zubizarreta (2012) 和 Pimentel et al. (2015) 的精确整数规划方法，本文放宽了“必须找到最优整数解”的要求，转而寻求近似解，从而可以处理更大规模的样本。但代价是解的质量只有近似保证（而非最优）。

主要结果¶

本文的核心理论结果是两个定理（Theorem 1 和 Theorem 2），以及一个推论（Corollary 1）。由于原文未提供完整证明细节（仅给出证明思路），以下基于作者在摘要和引言中的描述进行重构：

Theorem 1（线性规划松弛解的性质）：当 \( n \) 远大于 \( p \) 时，线性规划松弛的最优解 \( a_i^* \) 中，分数值（即 \( 0 < a_i^* < 1 \)）的个数很少。具体地，分数值的个数不超过 \( p \)（或 \( p+1 \)）。这意味着线性规划松弛解几乎已经是整数解，因此随机舍入几乎不改变分配。
直觉：线性规划松弛的可行域是一个多面体，其顶点对应于基本可行解。由于约束数量有限（约 \( p+2 \) 个），基本可行解中非零变量的个数不超过约束数，因此分数值的个数受 \( p \) 控制。
必要条件：\( n \) 必须大于 \( p \)（否则线性规划松弛可能有很多分数值）。这是合理的，因为如果样本数少于协变量数，平衡协变量本身就很困难。
Theorem 2（随机舍入解的质量）：随机舍入解 \( \tilde{a}_i \) 对应的目标函数值（协变量不平衡）与线性规划松弛解的目标函数值之间的差距，以高概率被一个依赖于 \( p \) 和 \( n \) 的界控制。具体地，当 \( n \) 很大时，这个差距很小。
直觉：由于分数值很少，随机舍入只改变少数样本的分配，因此协变量均值的变化很小。通过 Hoeffding 不等式或 Bernstein 不等式可以控制这个变化。
必要条件：\( n \) 远大于 \( p \)（即 \( n/p \to \infty \)）。这是 Theorem 1 的自然推论。
Corollary 1（下界与上界）：线性规划松弛解的目标函数值是整数规划最优解的下界（因为放松了整数约束），随机舍入解的目标函数值是上界（因为它是可行整数解）。由于这两个界往往很接近（由 Theorem 2 保证），因此随机舍入解的质量得到验证。

真实例子：作者使用一个实际观察性研究数据：2016名患者（处理组）和5735名对照（对照组），协变量包括年龄、性别、合并症等。初始用倾向性评分将样本分为5层，但层内协变量平衡不理想。作者用本文方法将每层细化为两个子层（共10层），在保留全部患者的同时，协变量平衡显著改善（具体数值未在摘要中给出，但作者声称“obtaining excellent covariate balance”）。这个例子想说明：本文方法可以在不丢弃任何样本的情况下，通过最优细化改善平衡，而传统的匹配方法可能会丢弃样本。

证明路线与技术技巧（理论型必写，要具体）¶

由于原文未提供完整证明，以下基于作者在摘要和引言中的描述，以及随机舍入的标准技术，重构证明路线：

整体路线：
形式化整数规划：将分层细化问题写成一个整数线性规划（ILP）。目标函数是协变量均值的最大加权绝对差异，通过引入辅助变量 \( t \) 和约束 \( w_j |d_j| \leq t \) 线性化。约束包括：每个子层内的处理组样本数在指定范围内，以及分配变量 \( a_i \in \{0,1\} \)。
线性规划松弛：将整数约束 \( a_i \in \{0,1\} \) 放松为 \( 0 \leq a_i \leq 1 \)，得到线性规划（LP）。求解 LP 得到最优解 \( a_i^* \) 和最优值 \( t^* \)。
分析 LP 解的结构：证明 LP 最优解中分数值的个数不超过 \( p+2 \)（或类似界）。这基于 LP 的基本可行解性质：在标准形式下，基本可行解中非零变量的个数不超过约束数。由于约束包括 \( p \) 个协变量平衡约束、1 个处理组比例约束、以及 \( n \) 个边界约束（\( 0 \leq a_i \leq 1 \)），但边界约束中只有少数是紧的，因此分数值个数受 \( p \) 控制。
随机舍入：对每个样本 \( i \)，独立地以概率 \( a_i^* \) 分配到子层 1，以概率 \( 1 - a_i^* \) 分配到子层 2。得到整数解 \( \tilde{a}_i \)。
分析随机舍入解的质量：证明 \( \tilde{a}_i \) 对应的目标函数值 \( \tilde{t} \) 与 \( t^* \) 的差距很小。由于分数值很少（步骤 3），随机舍入只改变少数样本的分配。对于每个协变量 \( j \)，协变量均值的变化可以表示为 \( \sum_i (a_i^* - \tilde{a}_i) x_{ij} / n \)。由于 \( a_i^* - \tilde{a}_i \) 只在分数值处非零，且其绝对值不超过 1，因此这个变化可以用 Hoeffding 不等式或 Bernstein 不等式控制。通过联合界（union bound）对所有 \( p \) 个协变量和两个子层，得到高概率界。
关键跳跃点：
跳跃点 1：证明 LP 解中分数值个数受 \( p \) 控制。这是整个证明的基石。作者利用了 LP 的基本可行解性质，但需要仔细处理约束的冗余性（例如，\( \sum_i a_i = n_1 \) 和 \( \sum_i (1-a_i) = n_2 \) 是线性相关的）。这个跳跃点依赖于线性规划理论，而非统计理论。
跳跃点 2：将随机舍入的随机性转化为协变量不平衡的界。这里需要处理两个子层样本数可能不等的情况（因为随机舍入后 \( n_1 \) 和 \( n_2 \) 是随机变量）。作者可能通过条件化或使用对称性来简化。
技术技巧点名：
线性规划松弛：用于将整数规划转化为可解问题，得到下界。
随机舍入：用于从 LP 解生成整数解，得到上界。
基本可行解性质：用于分析 LP 解的结构，证明分数值个数受 \( p \) 控制。
Hoeffding 不等式 / Bernstein 不等式：用于控制随机舍入引起的协变量均值变化。
联合界（union bound）：用于对所有 \( p \) 个协变量同时控制。

🔎 结论是否比证明窄¶

作者在摘要中声称：“randomized rounding to split a stratum does very little randomizing, so it closely resembles the linear programming relaxation without splitting intact people.” 这个结论在 Theorem 1 中严格证明（分数值个数受 \( p \) 控制），但“closely resembles”的量化程度（即目标函数值的差距）在 Theorem 2 中可能只以高概率成立，且依赖于 \( n \) 远大于 \( p \)。如果 \( n \) 与 \( p \) 相当，则理论保证可能很弱。作者未讨论这种情况。此外，作者声称“the linear relaxation and the randomly rounded solution place lower and upper bounds on the unattainable integer programming solution”，这是正确的，但“these bounds are often close”是一个经验观察，而非严格定理（Theorem 2 只给出了高概率界，而非确定性界）。因此，结论的严格性略窄于声称。

四、开放问题（点到为止，扎根具体语句）¶

多个层同时细化：本文只考虑将一个层拆分为两个子层。如果要将多个层同时细化（例如将 5 层细化为 10 层），是否可以联合优化？作者在引言中暗示这是未来工作：“Our method can be applied sequentially to refine multiple strata.” 但未讨论联合优化的理论性质。这是一个开放问题：联合优化是否比顺序优化更好？其计算复杂度如何？
目标函数的选择：本文使用协变量均值的最大加权绝对差异作为目标函数。其他目标函数（如协变量方差的差异、协变量分布的 Kolmogorov-Smirnov 距离）是否更合适？作者在讨论中未提及这一点。这是一个开放问题：不同目标函数对最终因果估计的影响如何？
随机舍入的替代方案：本文使用独立随机舍入。是否有更复杂的舍入方案（如依赖随机舍入、或基于马尔可夫链的舍入）可以改善解的质量？作者在讨论中未提及。这是一个开放问题：是否存在计算成本略高但理论保证更强的舍入方案？
与匹配方法的比较：本文方法在保留全部样本的同时改善平衡，而匹配方法通常会丢弃样本。但匹配方法可以形成对子（pair），从而允许更精细的协变量调整（如条件逻辑回归）。本文方法形成的子层（每个子层包含多个样本）是否也能进行类似的调整？作者在讨论中未提及。这是一个开放问题：分层细化后的子层是否比匹配对子更适合后续的因果推断？

Maintained by 陈星宇 · Homepage · Source on GitHub