Single proxy control¶
作者: Chan Park, David B Richardson, Eric J Tchetgen Tchetgen
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向的核心问题是:在存在未观测混杂因素的情况下,如何仅利用一个“负对照结局”(Negative Control Outcome, NCO)来非参数地识别和估计因果效应。 一个NCO是一个受未观测混杂因素影响、但不受处理直接影响的结果变量。传统上,NCO仅被用于“检测”混杂偏倚的存在(如Lipsitch et al., 2010),而本文及其前身(Tchetgen Tchetgen, 2013)试图将其用于“校正”偏倚。该方向的成熟度处于从参数/半参数方法向非参数方法过渡的阶段,且与近期兴起的“近端因果推断”(Proximal Causal Inference)形成了有趣的竞争关系。
发展脉络(history)¶
-
奠基工作:NCO作为检测工具
- Lipsitch et al. (2010):系统阐述了负对照(包括NCO和负对照暴露)的概念,将其作为检测混杂和偏倚的常规工具。这是该领域的奠基性综述,确立了NCO的基本逻辑:如果处理与NCO在调整观测协变量后仍相关,则提示存在未观测混杂。
- Shi et al. (2020):对负对照方法进行了更现代的综述,总结了因果和统计假设、实践策略,并指出了向“双负对照设计”(同时使用NCO和负对照暴露)发展的趋势。
-
主要进展:从检测到校正——COCA方法
- Tchetgen Tchetgen (2013):提出了“控制结局校准方法”(COCA),这是第一个将NCO从检测工具提升为校正工具的正式反事实框架。其核心思想是将NCO视为“处理-自由潜在结局”的一个有误差的代理变量,通过回归模型将NCO与处理-自由潜在结局联系起来。关键限制:该方法依赖于一个“秩保持”(rank-preservation)结构模型,这等价于假设个体处理效应是常数,即不存在效应异质性。这在实际应用中是一个非常强的假设。
-
当前Frontier:近端因果推断(Proximal Causal Inference, PCI)
- Miao et al. (2016) 和 Tchetgen Tchetgen et al. (2020):开创了PCI框架。该框架承认观测协变量只是未观测混杂因素的“代理变量”,并证明,如果拥有一对这样的代理变量(例如,一个处理前的代理和一个处理后的代理),就可以非参数地识别因果效应。这解决了COCA方法中秩保持假设的问题,但代价是需要两个代理变量。
- Cui et al. (2020):进一步发展了PCI的半参数理论,包括效率界和高效估计量。
- Ying et al. (2021) 和 Dukes et al. (2021):将PCI框架推广到纵向设定和中介分析。
-
本文的位置:单代理变量控制
- Park, Richardson & Tchetgen Tchetgen (本文):本文在COCA框架下,去掉了秩保持假设,从而允许个体处理效应存在异质性。其核心贡献是证明,在放宽这一假设后,仅需一个NCO(即单个代理变量) 即可实现ATT的非参数识别。这直接与PCI形成对比——PCI需要一对代理变量。因此,本文可以被视为对COCA方法的非参数化推广,也是对PCI框架的一种“降维”或“简化”,在数据要求上更具优势。
子线索聚类¶
- 负对照方法(Negative Control Methods):以Lipsitch et al. (2010) 和 Shi et al. (2020) 为代表,侧重于NCO和负对照暴露的概念、假设和检测偏倚的应用。这是整个领域的基础。
- COCA及其推广:以Tchetgen Tchetgen (2013) 和本文为代表,专注于利用NCO来校正混杂偏倚。核心挑战在于如何从NCO中提取关于未观测混杂的信息,并识别因果效应。本文是这条线索上的最新进展。
- 近端因果推断(Proximal Causal Inference):以Miao et al. (2016), Tchetgen Tchetgen et al. (2020), Cui et al. (2020) 为代表,使用一对代理变量来解决未观测混杂问题。这是当前更主流、更通用的框架,但数据要求更高。本文的框架可以被视为PCI的一个特例(当其中一个代理变量是NCO时)。
这个方向在追问的核心问题¶
- 识别条件:在仅有单个代理变量(NCO)时,需要什么样的条件才能非参数地识别因果效应?这些条件是否比PCI框架下的一对代理变量条件更弱或更强?
- 估计方法:如何构建一个既稳健(如双重稳健)又高效的估计量,来处理由桥函数(bridge function)定义的复杂识别方程?
- 与PCI的关系:单代理变量框架与双代理变量框架(PCI)之间是否存在一个统一的识别理论?在什么条件下,一个框架比另一个更适用?
- 实际可行性:在流行病学等应用中,找到一个满足所有假设的NCO是否比找到一对代理变量更容易?
⚠️ 作者的Framing¶
- 作者的缺口:作者将缺口frame为“COCA方法依赖于不现实的秩保持假设,限制了其应用”。他们声称,通过去掉这个假设,他们不仅推广了COCA,还意外地发现了一个与PCI不同的、仅需单个代理变量的识别策略。这使得本文成为“显然的下一步”——在保留NCO优点的同时,解决了其最关键的局限性。
- 被淡化的竞争路线:作者淡化了PCI框架的通用性。他们强调PCI需要“一对”代理变量,而本文只需要“一个”,从而突出了本文在数据要求上的优势。但他们没有深入讨论,在PCI框架下,两个代理变量的要求可能在某些场景下更容易满足(例如,一个处理前测量和一个处理后测量),或者PCI能识别更广泛的因果参数(如ATE),而本文主要关注ATT。
- 值得研究者去查的问题:本文的引言中,是否引用了所有关于“单代理变量”或“单负对照”进行因果效应校正的文献? 例如,是否存在利用工具变量(IV)或“阴影变量”(shadow variable)进行类似识别的工作(如Miao & Tchetgen Tchetgen, 2015; Li et al., 2021)?这些工作与本文的NCO框架有何异同?作者似乎有意将本文与PCI对立起来,但可能忽略了与IV或阴影变量方法的联系。这是一个值得研究者亲自去核验的潜在张力点。
张力¶
未见明显对立引用。所有被引工作基本遵循一个共识:NCO可用于检测偏倚,而校正偏倚需要更强的假设。本文和PCI是两种不同的、但互补的校正策略。没有发现直接矛盾的结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
A:处理变量(Treatment),二值(0/1)。Y:结局变量(Outcome),连续或离散。U:未观测的混杂因素(Unobserved Confounder),可以是任意类型。X:观测到的协变量(Observed Covariates),用于调整部分混杂。Z:负对照结局(Negative Control Outcome, NCO)。这是本文的核心代理变量。Y(a):潜在结局(Potential Outcome),即如果处理A=a时将会观测到的Y值。Y(0)是处理-自由潜在结局。ATT:处理组平均处理效应(Average Treatment Effect on the Treated),定义为E[Y(1) - Y(0) | A=1]。这是本文的目标参数(estimand)。b(Z, X):桥函数(Bridge Function)。这是一个未知函数,用于连接NCOZ和潜在结局Y(0)。它是识别和估计的关键。
-
模型:
- 数据生成机制由未观测混杂
U驱动。U同时影响处理A、结局Y和NCOZ。观测协变量X可能与U相关,但不足以完全控制混杂。 - 核心假设是NCO假设:
- 排除性(Exclusion):
Z不受处理A的直接影响。即Z(a) = Z对所有a成立。 - 与
Y(0)的条件相关性:在给定X和A=1的条件下,Z与Y(0)通过U相关,但这种相关性可以被一个桥函数b(Z, X)所“捕获”。具体来说,存在一个函数b,使得E[Y(0) | A=1, X] = E[b(Z, X) | A=1, X]。
- 排除性(Exclusion):
- 这是一个非参数模型,因为除了上述假设外,没有对
U、Y、Z的分布形式做任何参数化假设。
- 数据生成机制由未观测混杂
-
可观测数据:
- 研究者可以观测到独立同分布的样本
(A_i, Y_i, Z_i, X_i),i = 1, ..., n。 - 可观测:
A,Y,Z,X。 - 不可观测:
U,以及潜在结局Y(0)和Y(1)(对于每个个体,只能观测到其中一个)。核心挑战在于,我们无法直接观测到处理组(A=1)个体的Y(0),而ATT的定义恰好需要它。
- 研究者可以观测到独立同分布的样本
第二步:讲最小内核¶
本文的核心思路可以浓缩为以下最简特例:假设没有观测协变量X(即X为空集),且我们只关注处理组(A=1)的平均处理效应。
-
问题:我们想估计
ATT = E[Y(1) - Y(0) | A=1]。由于Y(0)在处理组中不可观测,直接估计是不可能的。未观测混杂U导致E[Y(0) | A=1] ≠ E[Y(0) | A=0],所以不能用对照组(A=0)的Y来替代。 -
核心想法:利用NCO
Z。NCOZ与Y(0)都受U影响,但Z不受A影响。因此,Z可以作为Y(0)的一个“代理”,帮助我们推断处理组中缺失的Y(0)。 -
最小内核的数学表述:
-
桥函数的存在性:假设存在一个函数
b(z),使得对于处理组个体,有:E[Y(0) | A=1] = E[b(Z) | A=1]。 (式1) 这个等式是说,Y(0)在处理组中的均值,等于b(Z)在处理组中的均值。b(Z)就像一个“校准器”,将Z的分布映射到Y(0)的均值上。 -
桥函数的识别:如何找到这个
b(z)?利用NCO的排除性,我们知道Z不受A影响,所以Z在处理组和对照组中的分布差异完全由U的分布差异驱动。关键的一步是,作者证明b(z)可以通过求解一个仅依赖于可观测数据的积分方程来识别:E[Y | A=0, Z] = E[b(Z) | A=0, Z]。 (式2) 这个等式是说,在对照组(A=0)中,给定Z时Y的条件均值,等于给定Z时b(Z)的条件均值。由于b(Z)是Z的函数,E[b(Z) | A=0, Z] = b(Z)。因此,式2简化为:E[Y | A=0, Z] = b(Z)。 (式3) 这就是桥函数的识别公式! 它告诉我们,b(z)就是对照组中结局Y对NCOZ的条件期望函数。 -
ATT的识别:一旦我们通过式3从对照组数据中估计出
b(z),就可以将其代入式1,得到ATT的识别公式:ATT = E[Y(1) - Y(0) | A=1] = E[Y | A=1] - E[Y(0) | A=1] = E[Y | A=1] - E[b(Z) | A=1]。 (式4) 式4中的所有项都是可观测数据的期望,因此ATT被非参数地识别了。
-
-
为什么这个例子是“最小内核”:
- 它剥离了所有为一般性服务的复杂假设(如观测协变量
X、双重稳健性等)。 - 它清晰地展示了本文的核心数学思想:利用NCO的排除性,将桥函数的识别问题转化为一个在对照组中可解的回归问题。
- 它揭示了本文与COCA的根本区别:COCA需要假设一个参数化的秩保持模型来连接
Z和Y(0),而本文通过引入桥函数b(z),将识别问题转化为一个非参数的积分方程求解问题,从而绕开了秩保持假设。 - 这个特例下,证明几乎是平凡的:式3直接给出了
b(z),式4直接给出了ATT。论文的一般情形(引入X、考虑更复杂的桥函数、发展双重稳健估计)都是在这个最小内核上“加壳”。
- 它剥离了所有为一般性服务的复杂假设(如观测协变量
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在存在未观测混杂的情况下,仅利用一个负对照结局(NCO),非参数地识别和估计处理组平均处理效应(ATT),并放宽了此前COCA方法中关键的秩保持假设。
- 核心工具/方法:引入了“桥函数”(bridge function)的概念,将ATT的识别转化为一个积分方程求解问题。提出了三种估计策略:扩展倾向得分法、结果桥函数法,以及结合前两者优势的双重稳健法。
- 主要结论:在NCO假设下,ATT可以被非参数识别,且识别条件比需要一对代理变量的近端因果推断更弱。所提出的双重稳健估计量在其中一个模型(倾向得分或结果桥函数)被正确指定时仍能保持一致估计。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 目标参数:
ATT = E[Y(1) - Y(0) | A=1]。 - 可观测数据:
(A_i, Y_i, Z_i, X_i),i.i.d.。 - 核心假设(NCO假设):
- 一致性(Consistency):
Y = Y(A),Z = Z(A)。 - NCO排除性(NCO Exclusion):
Z不受A的直接影响。即Z(1) = Z(0) = Z。这是NCO的定义性特征。 - 桥函数存在性(Bridge Function Existence):存在一个函数
b(Z, X),使得:E[Y(0) | A=1, X] = E[b(Z, X) | A=1, X]。 (条件1) 这个条件将未观测的Y(0)的期望与可观测的Z和X的某个函数联系起来。它比秩保持假设弱得多,因为它允许Y(0)和b(Z,X)之间的关系是任意的。 - 桥函数识别条件(Bridge Function Identification):
b(Z, X)是以下积分方程的唯一解:E[Y | A=0, Z, X] = E[b(Z, X) | A=0, Z, X]。 (条件2) 由于b(Z,X)是Z和X的函数,E[b(Z,X) | A=0, Z, X] = b(Z,X),因此条件2简化为:b(Z, X) = E[Y | A=0, Z, X]。 (条件2') 这意味着桥函数就是对照组中Y对(Z, X)的条件期望。这是一个非常强的简化,但也是本文非参数识别的关键。作者在文中讨论了更一般的情况,其中桥函数可能不是简单的条件期望,但在这个核心设定下,它就是。
- 一致性(Consistency):
- 与已有文献的对比:
- 相比COCA (Tchetgen Tchetgen, 2013):本文去掉了秩保持假设,允许个体处理效应异质性。这是最关键的放宽。
- 相比PCI (Miao et al., 2016; Tchetgen Tchetgen et al., 2020):本文只需要一个代理变量(NCO
Z),而PCI需要一对代理变量。这是数据要求上的显著降低。但代价是,本文的识别条件(条件2')可能比PCI的某些识别条件更强(例如,它要求桥函数恰好是对照组中的条件期望)。
主要结果¶
-
定理1:ATT的非参数识别。在条件1和条件2下,ATT被非参数识别为:
ATT = E[Y | A=1] - E[E[Y | A=0, Z, X] | A=1]。- 直觉:第一项是处理组的平均观测结局。第二项是“反事实”的
Y(0)的期望,它通过桥函数b(Z,X) = E[Y|A=0,Z,X]在处理组中取平均来估计。这个定理将ATT的识别问题简化为一个可观测量的期望之差。 - 必要条件:NCO假设(排除性和桥函数存在性)必须成立。此外,需要
E[Y|A=0,Z,X]能被可靠地估计。 - 解决的技术难点:绕开了对
Y(0)的直接建模,也无需对未观测混杂U进行任何假设。
- 直觉:第一项是处理组的平均观测结局。第二项是“反事实”的
-
三种估计策略:
- 扩展倾向得分法(Extended Propensity Score Approach):对处理
A建模,但将E[Y|A=0,Z,X]作为协变量纳入倾向得分模型。这种方法对结果回归模型E[Y|A=0,Z,X]的误设敏感。 - 结果桥函数法(Outcome Bridge Function Approach):直接估计
E[Y|A=0,Z,X],然后代入ATT公式。这种方法对倾向得分模型的误设敏感。 - 双重稳健法(Doubly Robust Approach):构建一个估计方程,使得只要倾向得分模型或结果桥函数模型中有一个被正确指定,ATT的估计就是一致的。这是本文推荐的方法。
- 双重稳健性:作者证明,所提出的估计量是双重稳健的。具体来说,如果
E[Y|A=0,Z,X]的模型正确,或者P(A=1|Z,X)的模型正确,估计量就是一致的。这大大增强了方法的稳健性。 - 与debiased ML的联系:这种双重稳健估计量的构造思路与debiased ML(或称为one-step estimation)思想相通,即通过添加一个基于影响函数的校正项来降低对初始估计的偏差。
- 双重稳健性:作者证明,所提出的估计量是双重稳健的。具体来说,如果
- 扩展倾向得分法(Extended Propensity Score Approach):对处理
证明路线与技术技巧¶
-
整体路线:
- 识别:通过条件1和条件2,将ATT表示为可观测量的函数(定理1)。
- 估计:为
E[Y|A=0,Z,X](桥函数)和P(A=1|Z,X)(倾向得分)指定参数或半参数模型。 - 双重稳健估计方程:构造一个矩条件,其期望在真实参数下为零,并且对其中一个模型的误设具有鲁棒性。
- 渐近理论:证明基于该矩条件的GMM估计量是
√n-一致、渐近正态的,并给出其渐近方差。
-
关键跳跃点:
- 从COCA到非参数识别的跳跃:最关键的跳跃在于,作者意识到桥函数
b(Z,X)在NCO假设下可以简化为E[Y|A=0,Z,X]。这个简化使得识别变得异常简洁,但也意味着它可能是一个很强的条件。作者在文中讨论了更一般的桥函数设定,但核心贡献在于发现了这个简洁的识别策略。 - 双重稳健估计量的构造:如何构造一个对倾向得分和结果桥函数都双重稳健的估计量?作者借鉴了Robins等人关于双重稳健估计的经典理论,但需要将其适配到桥函数这个特定的设定下。这涉及到推导ATT的高效影响函数(Efficient Influence Function, EIF),然后基于EIF构造估计方程。
- 从COCA到非参数识别的跳跃:最关键的跳跃在于,作者意识到桥函数
-
技术技巧点名:
- GMM(广义矩方法):用于估计双重稳健估计量。作者使用
gmm包(Chaussé, 2010)进行实现。 - 双重稳健估计理论:核心技巧是构造一个矩条件,使其对部分模型误设不敏感。这通常涉及将EIF作为估计方程。
- 桥函数/积分方程:虽然本文的桥函数简化为条件期望,但其理论框架建立在求解积分方程的一般思想上,这与PCI和逆问题文献中的方法一脉相承。
- GMM(广义矩方法):用于估计双重稳健估计量。作者使用
真实例子与应用¶
- 数据/场景:巴西Zika病毒爆发对出生率的影响。数据来自巴西卫生部的信息系统,包含2014-2016年各州的月度活产数、Zika病例数等。处理
A是Zika爆发(以2015年5月为界,之后为1,之前为0),结局Y是月度活产数,NCOZ是先天性梅毒病例数(作者论证梅毒不受Zika影响,但受与Zika相同的未观测混杂因素影响,如社会经济状况、医疗资源等)。 - 方法应用:作者将本文提出的三种估计策略应用于该数据,估计Zika爆发对出生率的ATT。他们调整了时间趋势、季节性和州固定效应等观测协变量
X。 - 结果:三种方法均显示Zika爆发导致出生率显著下降。双重稳健法的估计结果与扩展倾向得分法和结果桥函数法基本一致,但置信区间更窄,体现了其效率优势。
- 例子想说明什么:这个例子旨在展示本文方法在实际流行病学研究中的可用性。它说明了如何根据领域知识论证一个变量(先天性梅毒)可以作为有效的NCO,并展示了该方法能够得出一个与先前研究(Castro et al., 2018)定性一致的结论,即Zika爆发导致了出生率下降。
🔎 结论是否比证明窄¶
本文的结论与证明基本匹配。作者明确指出了其识别条件(条件2')在一般情况下可能过强,并讨论了更一般的桥函数设定。然而,一个潜在的“窄”之处在于:本文的主要识别结果(定理1)依赖于桥函数恰好是对照组中Y对(Z,X)的条件期望。作者在文中承认,这是一个“简化”的识别条件,并指出在更一般的设定下,桥函数可能是一个更复杂的积分方程的解。因此,本文的“非参数识别”结论,严格来说,是在这个“简化”的桥函数设定下成立的。对于更一般的桥函数,本文只提供了理论框架,并未给出同样简洁的识别公式。这一点在阅读时需要留意。
四、开放问题¶
- 更一般的桥函数识别:本文的识别依赖于桥函数
b(Z,X) = E[Y|A=0,Z,X]。在更一般的设定下,桥函数是更复杂积分方程的解。如何在实际中非参数地估计这种更一般的桥函数,并保证其可识别性?(扎根于:文中对条件2的讨论,以及引用Miao et al. (2016) 关于Fredholm积分方程的讨论。) - 与PCI的统一理论:本文的单代理变量框架与PCI的双代理变量框架之间是否存在一个统一的识别理论?在什么条件下,一个框架可以转化为另一个? 例如,当一对代理变量中的一个恰好是NCO时,本文的框架是否就是PCI的一个特例?(扎根于:引言中作者将本文与PCI进行对比的段落。)
- 对NCO假设的敏感性分析:NCO的排除性假设(
Z不受A影响)是关键的,但在实践中可能被违反。如何发展一个敏感性分析框架,来评估当NCO排除性假设被轻微违反时,ATT估计的稳健性?(扎根于:所有NCO方法共有的核心假设,本文未提供敏感性分析。) - 扩展到其他因果参数:本文主要关注ATT。能否将单代理变量框架扩展到识别和估计平均处理效应(ATE)或条件平均处理效应(CATE)? 如果可以,需要什么样的额外假设?(扎根于:本文的结论部分,作者提到未来工作可以探索其他参数。)
Maintained by 陈星宇 · Homepage · Source on GitHub