Clustered Observational Studies: A Review of Concepts and Methods¶

讲者: Luke Keele
讨论人: Eli Ben-Michael
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-05-20
主题: 因果推断
视频: https://youtu.be/sOuxZtYJKlQ · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告总结了讲者 Luke Keele（宾夕法尼亚大学）及其合作者过去若干年对 Clustered Observational Studies (COS) 的系统性工作。COS 的核心特征是 治疗在组（簇）层面被分配，而结果在个体层面被测量——即讲者反复强调的 "group treatment assignment mechanism"。这与更熟悉的 "individualistic treatment assignment"（治疗在簇内个体间分配，多站点 RCT 为其模板）有本质区别。

方向追问的问题：当治疗分配发生在簇层面（如学校、医院、州），而我们拥有个体层面的结果和协变量数据时，如何为这类研究设计提供一套完整的因果推断工具——从识别、估计到敏感性分析？
奠基与主流路线：在因果推断文献中，标准 observational study 方法（如逆概率加权、匹配、双重稳健估计）多假设治疗分配在个体层面。COS 设计的模板是簇随机试验 (CRT) 而非多站点 RCT。早期应用工作者常混淆“多水平数据”（multilevel data）与“簇水平治疗分配”，把 COS 简单当作带随机效应的标准观察性研究来处理（如使用多层回归模型）。这种做法的缺陷在于忽略治疗分配机制本身带来的独特识别问题。
当前 frontier 与报告的站位：Keele 团队的工作是迄今为止对 COS 最完整的系统整理。他们做了三件事：(1) 明确了 COS 的两个独特识别难题——有限重叠 (Limited Overlap) 和 差异性选择 (Differential Selection)；(2) 开发了专门适配 COS 的匹配与加权估计方法；(3) 最近把敏感性分析也纳入了这套工具。报告定位为“非技术性的综述”，但背后有十余篇已发表/在审的方法论文做支撑，列在最后一张幻灯片中 (讲者提及 [H:40:39]这些论文)，几乎覆盖了从定性理解到定量推断的完整 pipeline。
关键引用：报告提到一个具体的标准误聚类问题，引用了 "When should you adjust standard errors for clustering?" by NBER (大概指 Abadie, Athey, Imbens, Wooldridge, 2023, “When Should You Adjust Standard Errors for Clustering?”)。讲者还提及一个更简短的 QJE 版本 (时间点 [H:58:20])。
注意：人名“Keele”在转写中多次被拼为“Keel”；合作者名单在幻灯片中有完整罗列 (Lindsay Page, Matt Lenard, Eli Ben-Michael, Sam Pimentel, Ting Ye, Ted Westling, Jose Zubizaretta, Melody Huang)。这些都可能被 ASR 误读。

二、最小内核 / 一个最简例子¶

符号与设定¶

考虑研究“某线上阅读项目 (the Mayion reading program) 是否提高了暑期学校学生的阅读成绩”。

簇 (cluster)：暑期学校 (summer school)，索引 \( j = 1, \dots, J \)。假设有 \( J = 10 \) 所暑期学校。
个体 (unit)：每个暑期学校的学生，索引 \( i = 1, \dots, n_j \)。
治疗变量：
\( Z_j \in \{0, 1\} \)：簇层面的治疗分配指示。\( Z_j = 1 \) 表示第 \( j \) 所暑期学校被分配了阅读项目。
(注意：这里没有个体层面的治疗变量 \( D_i \)，因为项目是被整所学校实施的。区别：如果项目是在同一所学校里由部分学生参加、部分不参加，那就是 D_i，属于 individualistic assignment。)
结果：\( Y_{ji}^{\text{obs}} \) 是第 \( j \) 所暑期学校第 \( i \) 名学生的实际阅读成绩；如果该校被分配了项目，则 \( Y_{ji}^{\text{obs}} = Y_{ji}^T \) (潜在结果下治疗)；否则 \( Y_{ji}^{\text{obs}} = Y_{ji}^C \)。
协变量：
学生水平：\( X_{ji} \)（如：入学前阅读成绩、性别）。
簇水平：\( W_j \)（如：暑期学校规模、师生比）。
学生水平协变量的簇内聚合：\( \bar{X}_{(j)} \)（如该校学生入学前阅读成绩的平均值）。

识别目标与关键思想¶

目标 estimand：平均处理效应 \( \tau = \mathbb{E}[Y_{ji}^T - Y_{ji}^C] \)（或更具体的 ATT / ATO）。
标准识别假设（条件可忽略性 + 重叠）：
\[\pi_j = \Pr(Z_j = 1 \mid \{Y_{ji}^T, Y_{ji}^C, X_{ji}, u_{ji}\}) = \Pr(Z_j = 1 \mid W_j, \bar{X}_{(j)})\]
其中 \( u_{ji} \) 是未观测变量。这个假设表明，给定可观测簇水平协变量 \( W_j \) 与学生水平聚合 \( \bar{X}_{(j)} \)，治疗分配与潜在结果独立。
两个特有问题：
有限重叠：即使 \( J=10 \) 所学校的可观测特征看起来类似，若其中几所学校特征极端（比如一所医院是 Level I Trauma Center，其他都不是），可能根本没有可与之对比的控制学校。这时 ATT 或 ATE 无法被可信地识别，只能转向 ATO（overlap population average treatment effect），但这也意味着因果推断仅适用于一个可能非常狭窄的子群体（讲者的天主教学校案例中，从 64 所到 32 所（剔除单性别学校）再到匹配后有效样本量 12 所学校）。
差异性选择：如果治疗分配发生在学生进入学校之前（Assignment Model 2），并且学生/家长知晓治疗状态，他们可能基于治疗状态迁移（如举家搬到有磁石项目的小学区域），导致治疗簇和对照簇的人口构成发生变化。此时即使控制了所有可观测的簇与个体协变量，简单的治疗-结果比较也可能被构成差异混淆。识别需要的调整集随分配时序（Assignment Model 1 vs 2a vs 2b）而不同。

三、报告主体：讲者讲了什么¶

结构总览：报告约 40 分钟，后附 Eli Ben-Michael 的讨论 (~15-20 分钟)。大意为：定义 COS → 两个识别问题 (有限重叠 & 差异性选择) → 两个案例 → 估计方法 (多层匹配 vs 平衡权重) → 敏感性分析。以下按时间线复原讲者的关键点。

[0:01:23–0:02:30] 定位与出版声明 - 讲者声明这是一个 "high-level, mostly non-technical overview"。 - 资助方：Spencer Foundation 和 Institute for Education Sciences（后者在转写中被提及 "May they rest in peace" 和 "hit by that doge"——这是一个小的政治幽默，指被预算削减）。 - 合作者被提及，完整列表在幻灯片中。

[0:02:31–0:04:11] 定义 Clustered Observational Study - 核心特征：治疗被施加给组（簇），但测量的是个体层面的结果。 - 经典例子：学校 vs 学生；医院 vs 病人；医生 vs 病人。 - 关键句："the key element is the grouped treatment assignment mechanism"（转写中强调了两次）。 - 定义了两个指示变量：Z_j (学校层次) 和 D_i (学生层次)。D_i 代表 individualistic treatment assignment（例：在同一所学校内，给部分学生补课），而 Z_j 代表group treatment assignment（例：整所学校被分配补课项目）。

[0:04:12–0:11:29] 识别框架与两个特有问题 - 标准条件可忽略性条件被陈述（[0:08:43]–[0:10:00]）：pi_j = Pr(Z_j=1 | X_{ji}, yT_ji, yC_ji)，假设只有观测协变量起决定作用。重叠条件 0 < pi_j < 1 一般成立。 - 有限重叠 (Limited Overlap) [0:10:13]–[0:10:53]：讲者指出 COS 在研究实践中常常遇到有限重叠，原因是“mass points in the covariates as a function of the clusters”——即簇层面的协变量（如学校类型、医院规模）在簇之间非常离散，在教育和卫生服务场景中尤为突出。 - 差异性选择 (Differential Selection) [0:10:35]–[0:11:20]：讲者专门提出这个概念，认定它是COS设计的独特识别挑战，标准观察性研究中不出现。具体指：簇层面治疗分配发生后，个体/单位在知晓簇的治疗状态的情况下调整自己的簇选择（如家庭搬入被干预学校区域，或危重病人被导向磁石医院）。这种选择性改变簇内的人口构成，使得治疗簇与对照簇的差异不仅反映治疗效果，还反映了构成的变动。

[0:11:55–0:15:07] 案例 I：天主教 vs 公立学校 - 数据来自某公共数据集，起始有 64 所天主教学校（以及若干百所公立学校）。 - 结构性重叠违反：天主教学校包含单性别学校，而公立学校几乎全部为混合性别。剔除单性别学校后，天主教学校降至 32 所。 - 即使进一步匹配/加权，有效样本量降至约 12 所天主教学校。讲者的观点：“这还能叫‘天主教学校效应’吗？”（[0:13:34]） - 展示了一张“协变量均值对比图”（幻灯片中有文字）：纵轴为各种协变量（学生社会经济地位、少数民族比例、学术轨道比例、纪律氛围量表、学校平均 SES 等），横轴为标准化差异。未加权的差异绝大多数远离零（>1.5 SD），而ATO 加权后差异几乎全部归零——但代价是丢掉了大量天主教学校。 - 纪律氛围量表的例子（[0:14:17]–[0:14:57]）：天主教学校该指标均值远低于公立学校，ATO 加权实质上是通过丢弃那些无法找到良好对照的天主教学校来制造重叠。

[0:15:08–0:17:45] 案例 II：磁石医院 (Magnet Nursing) - 问题：通过“优质护理认证”的医院是否改善患者预后？数据来自 PA 和 FL 的住院保险索赔数据（2012–2013），包含 38 所磁石医院、368 所非磁石医院，约 246 万患者。仅关注急诊普外患者。 - ATT 加权效果不佳 (平衡改善率 41%)：医院规模（病患数）在磁石与非磁石医院间差异极大。大型磁石医院几乎没有对照。 - ATO 加权大幅改善平衡 (84%)，但代价是丢弃了最大型的磁石医院——讲者指出“磁石医院效应此时仅适用于最小的那些磁石医院”（[0:17:34]），也即 ATO 估计量在外推性上受到质疑。 - 展示了“协变量标准化差异图”（[0:17:09]–[0:17:18]）：ATT 加权后仍有多个变量差异超过 0.25 SD（如急救病例比例、Medicaid 比例等），ATO 加权后全部缩回 0.1 SD 内。

[0:18:52–0:23:40] 差异性选择的识别：Assignment Models - 提出了 Assignment Model 1 vs Assignment Model 2 的二分法，辅以 DAG （两张 DAG 在幻灯片里）。 - Model 1（固定单位-簇配对）：治疗在之后发生；单位在进入簇时不知晓治疗。此时条件可忽略性成立只需调整 W_j （簇水平协变量）+ h(X[j])（个体聚合）。无需调整个体 X_i。 - Model 2（不固定配对，发生在治疗后）。 - 2a：盲法（单位不知晓治疗状态）。调整 W_j 即可（X_i 和 h(X[j]) 都无需调整）。 - 2b：非盲法（单位知晓治疗状态并据此选择簇）。调整必须包含 W_j、h(X[j])、X_i 三者。 - 讲者强调，实际应用中识别具体适用哪个模型需要领域知识（[0:23:00]）。

[0:23:40–0:25:05] 案例分析：差异性选择发生的证据 - Mayion 阅读项目（暑期学校在线阅读干预）：项目本身强度不大，家长不太可能为此更换学校——属于模型 2a（盲法）。结果是无论采用何种调整集（仅学校水平、学校+学生水平），效应估计几乎一致（[0:23:39]–[0:23:47]）。 - 外科医生培训（大学型 vs 非大学型住院医培训）：86k 患者。训练有素的三级医院医生很可能被分诊系统导向更危重的病人——属于模型 2b（非盲法）。仅调整医生水平协变量时，术后并发症的下降非常显著；当同时调整患者水平协变量后，效应估计值大幅缩减（[0:24:16]–[0:24:48]）。这恰好符合“差异性选择”的预警。讲者利用这一对比说明：模型选择是关键。

[0:25:05–0:35:22] 估计方法：多层匹配 vs. 平衡权重 - 批评了传统做法（个体层面的多层回归或个体层面的匹配），理由包括：回归容易外推过度、随机效应可能带来额外病理。 - 多层匹配 (Multilevel matching) [0:26:25]：讲者团队早期工作。流程：对每个处理学校，尝试匹配所有可能的对照学校 → 对每个匹配对，基于学生层面可调协变量计算匹配质量得分 → 构建包括这些得分和学校层面协变量的新距离矩阵 → 在学校层面做匹配。这个方法的缺陷：计算上极端繁琐（尤其在处理“磁石医院”这样含有大面积病人簇的数据时，运算持续数天仍未能完成）。 - 平衡加权 (Balancing weights) [0:28:48]：更受推荐的方法。通用框架：最小化

\[\text{Imbalance}(\gamma; \text{weights}) + \lambda \cdot \text{Var}(\text{weights})\]

其中 \(\lambda\) 控制平衡与权重方差之间的权衡。关键创新点在于将权重视为一个带随机效应的模型，包含簇内和学生两个方差分量（[0:30:49]–[0:31:15]）。这样，可以同时平衡簇水平、学生水平以及簇-学生交互项。 - 比较与模拟（基于 Mayion 数据）[0:32:31]–[0:35:00]： - 偏差方面：三种方法（匹配、ATT 加权、ATO 加权）都在足够重叠区域表现良好，ATO 加权在同设定下几乎无偏。 - RMSE方面：加权明显优于匹配，因为匹配丢弃了整个簇（有效样本量急剧下降）。 - 计算方面：加权（几 min）远快于匹配（数目/终止）。如果数据大，匹配不可行。 - 应用：展示 Mayion 匹配与加权的平衡图 [0:35:57]：匹配将几乎所有标准化差控制在 0.1 SD 之内（可接受），而加权更是趋近于 0。

[0:35:41–0:39:50] 敏感性分析 (Sensitivity Analysis) - 转写中 [0:39:00] 提到“两个常见的敏感性分析模型”：边际模型 (Marginal model) 给出一个尖锐的界但可能保守；方差空间模型 (Variance-based model) 不那么保守但界不尖锐。讲者团队将二者都扩展到了 COS 设定。 - 关键发现（[0:37:48]–[0:38:30]）：一个偏差放大效应——如果簇水平协变量存在残余偏差，它可能放大来自个体水平不平衡的偏差。因此在加权时，这对簇水平协变量的平衡提出了更高要求。 - 应用到磁石医院案例（[0:38:32]–[0:39:50]）： - 对“不良事件 (adverse events)”这个结果，如果存在一个能够改变治疗分配几率 4–6% 的未观测混杂，敏感的界就会包含零——不够稳健。 - 对“抢救失败 (failure to rescue)”这个结果，敏感参数高达 1.6–2.0 且 R² 达到 30–40%，才让界包含零，因而更稳健。

[0:39:58–0:40:39] 总结 - 讲者认为，到现在为止，“我们有了一套相当完整的工具包，应用研究者几乎可以无缝地完成一个完整的 COS 研究”。

讨论人 Eli Ben-Michael 的讨论 (0:43:32–0:56:17) - 讨论的核心思想：COS 的结构在面板数据（如 DID / 合成控制）中广泛存在。组织者将治疗施加于某个地理行政单元（州、市），而结果和协变量数据通常包含更细粒度的层次（县、个人）。差异性选择在这里转化为人口构成的变动（州层面政策变化后，人们是否选择搬进/搬出该州？）。 - 开放问题： - 纵向/重复测量能否帮助识别？例如，观察个体在治疗前与治疗后的匹配行为变化。 - 能否用平行趋势/代理变量/因子模型等替代条件可忽略性假设？（将 COS 识别与 DID 框架连接） - 当簇个数很大但每个簇很小（如很多小型诊所受随机干预），重叠问题是否可缓解？

Q&A 片段 (0:57:57–0:59:00) - 提问关于“标准误应在哪一水平聚类”（问题在转写开头就有，[0:41:10] 时分主持人代选民提问的）。讲者的回答（以及更完整的文献推荐）是按治疗分配的水平聚类——如果治疗在簇层面分配，就在簇层面聚类标准误。引用的是 NBER WP 25523 / QJE 文章（Athey, Imbens, Abadie, Wooldridge）。

四、对应论文与开放问题¶

对应论文¶

转写 + 幻灯片列出了以 Keele 为通讯作者的一个论文系列（时间戳 [0:40:39]，讲者展示了参考文献幻灯片但未逐一朗读 ASR 未捕捉）。不确定完整的引用格式，以下是基于内容推断、且在领域内高度可追溯的关键论文（请以原文为准）：

Assignment Models in Clustered Observational Studies：报告中关于识别（差异选择、两个 Assignment Models、DAG）的核心理论论文。极大概率发表于 Biometrics / Annals of Applied Statistics / Psychological Methods 等。
Multilevel Matching for Clustered Observational Studies：多层匹配方法论文。
Balancing Weights for Clustered Observational Studies：含随机效应方差分解的平衡加权方法论文，可能发表于 JRSS-A / Biometrics。
Sensitivity Analysis for Clustered Observational Studies：报告提及的最近工作（“under review”）。
Reference for clustering standard errors: Abadie, A., Athey, S., Imbens, G. W., & Wooldridge, J. (2023). When Should You Adjust Standard Errors for Clustering? The Quarterly Journal of Economics, 138(1), 1–35. 早期 NBER WP 25523.

不确定性（转写未提供完整标题，人名 / 合作者可能有拼写偏差——如“Ting Ye”拼音正确但未给全名；“Zubizaretta”应为 Zubizarreta；”Ted Westling” 正确）。

开放问题（基于转写和讨论，每条标注依据）¶

时间序列数据能否帮助解决差异性选择？ ([0:56:10]–[0:56:17] 由 Eli 提出）在 COS 中引入重复测量（如有治疗前与治疗后的多个簇层面观测），能否将“差异性选择”与“正常的人员更替”分离？具体能否开发类似“差分中的差分”策略，或是用前治疗期的匹配-个体变迁数据来诊断或校正？
用更低维度的潜在因子来缓解重叠？ ([0:54:28]–[0:54:58]，Eli 在讨论中提及）在面板 / DID 设定下，识别条件往往依赖一个低维潜在混杂因子（如平行趋势假设对应因子模型）。可否在 COS 中也利用这种因子结构来“绕开”协变量层面的有限重叠（即承认簇水平协变量重叠差，但假定存在更低维的潜伏构面在其上重叠成立）？
基于随意解混 (churn) 的分解想法 ([0:57:00]–[0:57:20]，Keele 对 Eli 追问的回答）：能否将簇内人口的正常变动（学校/州的常规人口流动）和由治疗驱动的选择性变动（差异化选择）进行分解？这或许需要将数据细分为“没有迁移历史的个体”和“有迁移历史的个体”，进行亚组分析或构建一个结构方程。
“簇个体”数量与有限重叠关系 ([0:56:06]–[0:56:10]，Eli 提问）：当簇的数量多但每个簇的个体数量少时，许多重叠问题可能不再严重。是否可以在这样的环境下复现 Keele 团队的诊断并建立指导原则？
嵌套式的调整变量集的统计效率问题 ([0:36:15]–[0:48:00]，Eli 的评论）：当通用经验告诉我们要“安全起见”调整最多的变量集（\( W_j, h(X[j]), X_i \) 全部纳入）时，这在高维设定下（尤其当簇数很小相比变量数时）是否会引入严重偏差或方差增大？多大程度的维度缩减是安全的？（这大概率还需要借助类似正则化高维工具来探索。）

注意：本总结中任何人名、术语、率与数字均优先依据幻灯片与转写中自洽信息。凡未在权威材料中出现的描述性结论（如某个具体的阈值、敏感参数 1.6 和 30-40%）都来自转写中讲者口头陈述，其准确数值在 ASR 中可能有微小浮动，建议核对视频/原稿。

Maintained by 陈星宇 · Homepage · Source on GitHub