Nonrandom Samples and Causal Inference¶

讲者: Daniel McCaffrey
讨论人: Shu Yang
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-01-25
主题: 因果推断
视频: https://youtu.be/et3eUSM0mu0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：当观测数据不是来自目标总体的随机样本时，如何利用已知的抽样设计信息（抽样权重）来修正因果推断中的选择偏差。这是一个连接抽样调查与因果推断的交叉问题。

追问的核心问题：给定一个非随机样本（如概率调查样本、幸存者样本、有 аттриtion 的纵向研究），研究者有抽样权重（通常是 1/采样概率）但可能不知道完整的抽样设计变量 U，同时存在处理选择（Treatment Selection）造成的偏差。那么，为了估计总体的平均处理效应（ATE），应该在哪一步（倾向得分估计阶段？结果加权阶段？）使用抽样权重？不同的选择对应什么可检验的识别假设？

奠基与主流路线： - 标准因果推断（Rosenbaum & Rubin 1983）：假设样本是总体的随机子集（即抽样机制是忽略的），只处理处理选择（Treatment Selection）偏差。 - 调查抽样文献（Horvitz–Thompson, Binder 1983）：利用抽样权重进行设计-基于的推断，但通常不涉及对处理机制的建模。 - 融合工作：包括 Ridgeway et al. (2015)（报告反复提及，提出倾向得分和抽样权重都需要的观点）、Zanutto et al. (2005)（倾向得分分层，建议权重只在结果步使用）、DuGoff et al. (2014)（将倾向得分作为协变量）、Dong et al. (2020)（只需在结果步加权）、Austin (2018) 与 Lenis et al. (2019)（结果混乱，无确定性推荐）。

当前 frontie：文献给出的回答是相互矛盾的，大多依赖模拟研究，缺少对识别假设的系统性梳理。McCaffrey（讲者）的工作试图从这个混乱中整理出一条清晰的路径：通过阐明明确的忽略性假设（Ignorability Assumptions）来回答 "应该在哪些步骤使用权重"。

这场报告的站位：它不是一个提出全新 estimator 的工作，而是一个批判性梳理 + 建立透明框架的贡献。讲者从一个简单特例（X = U，即抽样设计和因果识别使用同一组协变量）出发，逐步扩展到更现实的 X ≠ U 情形。核心论点是：所有方法（先用权重还是后加权重）的合法性取决于具体选择了哪一组忽略性假设；很多看似矛盾的模拟结果其实是因为模拟数据无意识地满足了更强的假设，从而掩盖了真实偏差。

关键引用： - Ridgeway et al. (2015): 报告说他们 "do some derivations" 并得出结论 "weights should be used in both steps"。但讲者的分析表明，这个结论依赖于 Ze 和 A 的联合忽略性假设。 - Zanutto, E. C., et al. (2005): "Using propensity score stratification for survey data." 建议权重只在结果步。 - DuGoff, E. H., et al. (2014): "Generalizing observational study results: applying propensity score methods to complex surveys." 建议将权重用于倾向得分估计。 - Dong, N., et al. (2020): "Propensity score methods for complex survey data: do the sampling weights matter in the propensity score model?" 报道模拟支持只在结果步加权。 - （以上文献综述基于转写 [0:11:00] 左右提到的作者和年份，具体篇名需对原文核实）

二、最小内核 / 一个最简例子¶

符号与模型（来自幻灯片 [0:05:00 - 0:08:00]）：

总体：目标总体中有潜在结果 Y1（若接受处理）和 Y0（不接受），个体有协变量 X 和抽样设计变量 U。
可观测数据：在一个非随机样本中，对每个观测有：结果变量 Y_obs，处理指示 A ∈ {0, 1}，协变量 X。如果 Z = 1 表示个体属于这个样本，否则 Z = 0（对于总体中的个体均有 Z 定义）。
抽样权重：w_Z(U) = 1 / P(Z = 1 | U)，假设已知（例如来自调查设计）。其中 U 是影响抽样概率的变量，但不一定在分析数据中完全公开。
估计目标：总体平均处理效应，ATE = E[Y1 - Y0] = E[Y1] - E[Y0]。

一个极简特例：

考虑只有一个二值协变量 X ∈ {0, 1}，总体中一半人 X=0，一半 X=1。

抽样权重来自设计：比如对 X=0 的抽样概率是 0.1，对 X=1 的是 0.5。则权重 w_Z(X) = 10 或 2。Z = 1 只在抽样设计中记录的数据中生成（这里假设 U = X，即最简单的 X = U 情况）。
处理 A 由另一个机制决定：P(A=1 | X=0) = 0.2, P(A=1 | X=1) = 0.8，因此倾向得分 e(X) = P(A=1|X) 有异质性。
结果：Y1 = 1 + X + ε₁, Y0 = X + ε₀（忽略个体处理效应异质性）。

核心思想：要从这个非随机样本中估计 ATE，需要两步修正： 1. 修正抽样偏差：因为样本中 X=0 的人被严重低估（抽样概率低），直接用样本计算处理组均值会有偏差（低估了 X=0 类的影响）。用抽样权重 w_Z(X) 来加权，使样本的 X 分布代表总体分布。 2. 修正处理选择偏差：因为不同 X 的人接受处理的概率不同，不能用直接比较。用倾向得分权重 1/e(X) 来加权，使处理组和对照组的 X 分布平衡到总体分布。

识别假设（X = U 情形下）： - (A) Y1, Y0 ⊥⊥ A | X （标准忽略性）。 - (B) Y_obs ⊥⊥ Z | X, A。当 X = U 时，抽样是条件于 X 随机的，所以这个假设自动成立（根据其模拟数据）。如果 U ≠ X 但两者无关，则需要更强的假设。

结论：当 X = U 时，加权后的估计（先用抽样权重估计倾向得分，再用两者的乘积加权结果）是 ATE 的一致估计。但注意，讲者的第一批模拟显示，即使在用样本倾向得分（不用抽样权重估计）的情况下，结果也近无偏（报告 [0:24:00] 结果），这暗示了隐性的假设被模拟数据所满足（即更强的忽略性成立）。这直接指向了后续关于不同 Ignorability 假设的分支。

三、报告主体：讲者讲了什么¶

3.1 引言与核心问题 [0:00:00 - 0:11:00] - 动机：当样本非随机时（概率样本、非回应、 attrition），如何用已知的抽样权重 w_Z 进行因果推断？ - 提出三个具体问题：能否用权重做出推断？权重应怎样使用：在估计倾向得分时用？在结果加权时用？还是都需要？

3.2 文献综述 [0:11:00 - 0:13:30] - 列举了 Zanutto, DuGoff, Dong, Austin, Lenis 等工作，指出它们主要依赖模拟，而缺少理论推导。 - Ridgeway et al. 做了推导，结论是权重在两步都要用；他们处理的是“treatment on the treated”（ATT），讲者将其推广到 ATE。

3.3 Ridgeway 推导的重述与扩展 [0:13:30 - 0:17:00] - Ridgeway 的逻辑：从 f(X | Z=1, A=1) 出发，通过贝叶斯公式解出权重 w(X) = f(Z=1, A=1) / [f(Z=1 | X, A=1) × f(A=1 | X)]。 - 第一个因子是常数，第二项是抽样权重（1/P(Z=1|X)），第三项是倾向得分。因此倾向得分应该在总体层面（即用抽样权重加权估计）才能正确反映 f(A=1|X)。 - 讲者提出一个替代的积分演示，强调理解该权重对条件密度的要求。

3.4 识别假设的关键 [0:17:00 - 0:21:00] - 核心论点：最简单的 Bridge 公式隐含地需要额外的忽略性假设。即使 Y ⊥⊥ A | X 成立，不必然有 Y1 ⊥⊥ Z | X, A 成立。 - 因此需要进行额外的条件独立假设（如：Y1 ⊥⊥ Z | X, A 或 Y_obs ⊥⊥ Z | X, A=1）。否则，从条件分布到总体分布的过渡不成立。 - 讲者分别用幻灯片 [0:20:00 左右] 中的积分来展示这个推导，展示如何通过这两个假设将条件密度简化为总体密度的过程。

3.5 模拟研究一：X = U [0:21:00 - 0:26:30] - 数据设置：X ~ N(0,1)；Y0 = 0.5X + ε；Y1 = α + Y0，α ∼ N(δ=1, 1)（异质性、但独立于一切）；P(A=1|X)=logit(-.5X)；抽样概率 P(Z=1|X)由 X 阶梯函数生成。 - 结果： - 不加权估计：ATE ≈ 1.344（严重偏误，真值=1）。 - 两步全部用权重（倾向得分用权重估计 + 结果用总权重）：1.005（近乎无偏）。 - 令人意外：只用抽样权重加权结果（倾向得分由样本数据估计，即用 P(A=1|X, Z=1)）结果：1.003（无偏）。这提示模拟数据可能隐含了更强的假设，使得样本层面的倾向得分足够好。

3.6 另一种贝叶斯推导与解释 [0:26:30 - 0:30:00] - 讲者展示了另一种权重分解公式：权重的解并非唯一。当 X = U 且 A 不是抽样设计变量时，可以采用 1/P(Z=1|X) 作为抽样权重 × 样本层面倾向得分 1/P(A=1|X, Z=1)。同样的逻辑解释为何在这种情况下不需用加权估计倾向得分。

3.7 模拟研究二：X ≠ U [0:30:00 - 0:34:30] - 数据：U 离散（1~4），P(U=1)=0.25；X | U ∼ N(0.5U, 1)；Y0 = 1 + 0.75X + ε；Y1 = α + Y0（α ∼ N(1,0.6)）；P(A=1|X)=logit(-0.5X)（只依赖 X, 不依赖 U）；P(Z=1|U) 按 U 取值（0.005, 0.008, 0.012, 0.015）。模型中没有 A 与 X 的交互。 - 结果（所有方法几乎无偏）： - 不加权：1.462 - 两步加权：1.007 - 只结果加权：1.008 - 甚至完全不用权重：1.008。 - 讲者解释：这个看似理想的结果是因为模拟数据采用了无交互作用的线性模型，从而满足了一个更强的识别条件（见下文）。

3.8 弱假设下的偏误模拟 [0:34:30 - 0:40:00] - 修改模拟，加入交互（Y1 受 X × A 影响，并加入 U 对 A 的影响），破坏原有强假设。 - 结果： - 不用权重：3.284（真实 ATE=3.125） - 两步加权：3.124（无偏） - 只结果加权（无须返回估计倾向得分的权重）：3.294（偏误）—— 这说明了当更强的假设被破坏时，舍弃倾向得分加权的估计代价。 - 结论：模拟研究可以产生误导性的结果，如果研究者不自知地纳入了额外假设（如无交互作用、线性、独立性等）。因此，理论推导必须优先于模拟验证。

3.9 讨论与展望 [0:40:00 - 0:46:00] - 与讨论者 Shu Yang 的互动强调了： - 两个不同的“路径”假设（先抽样后处理 vs. 先处理后抽样）需要不同的忽略性结构。 - 关于标准误的计算：可以用常规的夹心（Sandwich）估计器，但要包含所有步骤的样本权重不确定性。 - 效率：权重的使用可能增加标准误，因此需要在偏差-方差权衡中考虑。 - 针对更复杂的抽样结构（如分层、多阶段抽样）和“非概率样本”，需要更系统的方法。

总结 [0:44:00 - 0:46:00]： - 建议实践中使用两步加权，以最大程度地减少偏差。 - 但应理解，有时不需要，此时若强用权重会降低精度。 - 倡导预先假设检验：检查数据是否可能满足替代的可忽略性假设（例如通过交互效应模型诊断）。

四、对应论文与开放问题¶

对应论文： - 本场报告没有明确给出唯一的 arXiv ID 或已发表论文标题。从讲者致谢（NIDA grant 1R01DA045049）以及他引用合作者（Beth Ann Griffin, Michael Robbins, Donna Coffman, Yajnaseni Chakraborti）来看，这很可能是一篇工作报告 / 方法论文章（可能仍处于工作论文阶段）。研究者应搜索 "McCaffrey" + "nonrandom samples causal inference" + "NIDA" 或直接邮件讲者索取。 - 幻灯片中提及的 Ridgeway et al. (2015) —— 其推导被讲者重新理解并扩展。 - 与 Shu Yang 讨论中提及的 survey nonresponse 文献（如 Rubin 讨论模式等）也提供了背景。

开放问题：

效率问题 [1:00:00 - 1:03:00 讨论]：当使用两步权重（倾向得分加权 + 抽样权重）时，估计量的方差是什么？是否有半参数有效界？能否构造出效率更好的估计（如双重稳健估计，Augmented IPW）？讲者承认效率是一个核心难题。
设计-模型混合推断 [1:00:00 - 1:03:00 讨论，Shu Yang 提到]：在概率样本中，通常设计-基于推断（有限总体视角）与模型-基于推断（超级总体视角）需要谨慎调和。本报告主要采用超级总体模型。如何在一个统一的混合推断框架下推导方差公式（例如考虑抽样权重被估计的不确定性）？
非概率样本 [1:04:00 - 1:06:00 讨论]：当样本是来自非概率调查（如 RCT 招募、网络样本）且不知道抽样设计变量 U 和权重时，如何识别 ATE？需要哪些额外的外部信息或假设（如辅助普查变量，或借用辅助样本的倾向得分）？
实验到总体的外推 [讨论尾声]：这是讲者一致认为最重要的延展。当 RCT 样本（Z 可观测，且受包含/排除标准制约，U 未知）不是目标总体的随机样本时，如何将结论一般化（Generalizability / Transportability）？这个问题和本报告的数学结构几乎一致，但需要不同的识别策略（常依赖校准权重或基于假设的排斥限制）。
角色互换：将抽样设计变量 U 和样本权重 w_Z 不是作为处理权重的协变量（如倾向得分）来使用，而是直接作为处理机制模型的一部分（例如，在建立 P(A|X, Z=1) 的模型时，把 w_Z 作为协变量加入？）—— Shu Yang [讲者讨论] 提出了这一方向，是一个实用的猜想，但缺乏理论证明。

Maintained by 陈星宇 · Homepage · Source on GitHub

Nonrandom Samples and Causal Inference¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论