Single proxy control¶

作者: Chan Park, David B Richardson, Eric J Tchetgen Tchetgen
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：在存在未观测混杂因素的情况下，如何仅利用一个“负对照结局”（Negative Control Outcome, NCO）来非参数地识别和估计因果效应。 一个NCO是一个受未观测混杂因素影响、但不受处理直接影响的结果变量。传统上，NCO仅被用于“检测”混杂偏倚的存在（如Lipsitch et al., 2010），而本文及其前身（Tchetgen Tchetgen, 2013）试图将其用于“校正”偏倚。该方向的成熟度处于从参数/半参数方法向非参数方法过渡的阶段，且与近期兴起的“近端因果推断”（Proximal Causal Inference）形成了有趣的竞争关系。

发展脉络（history）¶

奠基工作：NCO作为检测工具
- Lipsitch et al. (2010)：系统阐述了负对照（包括NCO和负对照暴露）的概念，将其作为检测混杂和偏倚的常规工具。这是该领域的奠基性综述，确立了NCO的基本逻辑：如果处理与NCO在调整观测协变量后仍相关，则提示存在未观测混杂。
- Shi et al. (2020)：对负对照方法进行了更现代的综述，总结了因果和统计假设、实践策略，并指出了向“双负对照设计”（同时使用NCO和负对照暴露）发展的趋势。
主要进展：从检测到校正——COCA方法
- Tchetgen Tchetgen (2013)：提出了“控制结局校准方法”（COCA），这是第一个将NCO从检测工具提升为校正工具的正式反事实框架。其核心思想是将NCO视为“处理-自由潜在结局”的一个有误差的代理变量，通过回归模型将NCO与处理-自由潜在结局联系起来。关键限制：该方法依赖于一个“秩保持”（rank-preservation）结构模型，这等价于假设个体处理效应是常数，即不存在效应异质性。这在实际应用中是一个非常强的假设。
当前Frontier：近端因果推断（Proximal Causal Inference, PCI）
- Miao et al. (2016) 和 Tchetgen Tchetgen et al. (2020)：开创了PCI框架。该框架承认观测协变量只是未观测混杂因素的“代理变量”，并证明，如果拥有一对这样的代理变量（例如，一个处理前的代理和一个处理后的代理），就可以非参数地识别因果效应。这解决了COCA方法中秩保持假设的问题，但代价是需要两个代理变量。
- Cui et al. (2020)：进一步发展了PCI的半参数理论，包括效率界和高效估计量。
- Ying et al. (2021) 和 Dukes et al. (2021)：将PCI框架推广到纵向设定和中介分析。
本文的位置：单代理变量控制
- Park, Richardson & Tchetgen Tchetgen (本文)：本文在COCA框架下，去掉了秩保持假设，从而允许个体处理效应存在异质性。其核心贡献是证明，在放宽这一假设后，仅需一个NCO（即单个代理变量） 即可实现ATT的非参数识别。这直接与PCI形成对比——PCI需要一对代理变量。因此，本文可以被视为对COCA方法的非参数化推广，也是对PCI框架的一种“降维”或“简化”，在数据要求上更具优势。

子线索聚类¶

负对照方法（Negative Control Methods）：以Lipsitch et al. (2010) 和 Shi et al. (2020) 为代表，侧重于NCO和负对照暴露的概念、假设和检测偏倚的应用。这是整个领域的基础。
COCA及其推广：以Tchetgen Tchetgen (2013) 和本文为代表，专注于利用NCO来校正混杂偏倚。核心挑战在于如何从NCO中提取关于未观测混杂的信息，并识别因果效应。本文是这条线索上的最新进展。
近端因果推断（Proximal Causal Inference）：以Miao et al. (2016), Tchetgen Tchetgen et al. (2020), Cui et al. (2020) 为代表，使用一对代理变量来解决未观测混杂问题。这是当前更主流、更通用的框架，但数据要求更高。本文的框架可以被视为PCI的一个特例（当其中一个代理变量是NCO时）。

这个方向在追问的核心问题¶

识别条件：在仅有单个代理变量（NCO）时，需要什么样的条件才能非参数地识别因果效应？这些条件是否比PCI框架下的一对代理变量条件更弱或更强？
估计方法：如何构建一个既稳健（如双重稳健）又高效的估计量，来处理由桥函数（bridge function）定义的复杂识别方程？
与PCI的关系：单代理变量框架与双代理变量框架（PCI）之间是否存在一个统一的识别理论？在什么条件下，一个框架比另一个更适用？
实际可行性：在流行病学等应用中，找到一个满足所有假设的NCO是否比找到一对代理变量更容易？

⚠️ 作者的Framing¶

作者的缺口：作者将缺口frame为“COCA方法依赖于不现实的秩保持假设，限制了其应用”。他们声称，通过去掉这个假设，他们不仅推广了COCA，还意外地发现了一个与PCI不同的、仅需单个代理变量的识别策略。这使得本文成为“显然的下一步”——在保留NCO优点的同时，解决了其最关键的局限性。
被淡化的竞争路线：作者淡化了PCI框架的通用性。他们强调PCI需要“一对”代理变量，而本文只需要“一个”，从而突出了本文在数据要求上的优势。但他们没有深入讨论，在PCI框架下，两个代理变量的要求可能在某些场景下更容易满足（例如，一个处理前测量和一个处理后测量），或者PCI能识别更广泛的因果参数（如ATE），而本文主要关注ATT。
值得研究者去查的问题：本文的引言中，是否引用了所有关于“单代理变量”或“单负对照”进行因果效应校正的文献？ 例如，是否存在利用工具变量（IV）或“阴影变量”（shadow variable）进行类似识别的工作（如Miao & Tchetgen Tchetgen, 2015; Li et al., 2021）？这些工作与本文的NCO框架有何异同？作者似乎有意将本文与PCI对立起来，但可能忽略了与IV或阴影变量方法的联系。这是一个值得研究者亲自去核验的潜在张力点。

张力¶

未见明显对立引用。所有被引工作基本遵循一个共识：NCO可用于检测偏倚，而校正偏倚需要更强的假设。本文和PCI是两种不同的、但互补的校正策略。没有发现直接矛盾的结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- A：处理变量（Treatment），二值（0/1）。
- Y：结局变量（Outcome），连续或离散。
- U：未观测的混杂因素（Unobserved Confounder），可以是任意类型。
- X：观测到的协变量（Observed Covariates），用于调整部分混杂。
- Z：负对照结局（Negative Control Outcome, NCO）。这是本文的核心代理变量。
- Y(a)：潜在结局（Potential Outcome），即如果处理A=a时将会观测到的Y值。Y(0)是处理-自由潜在结局。
- ATT：处理组平均处理效应（Average Treatment Effect on the Treated），定义为 E[Y(1) - Y(0) | A=1]。这是本文的目标参数（estimand）。
- b(Z, X)：桥函数（Bridge Function）。这是一个未知函数，用于连接NCO Z 和潜在结局 Y(0)。它是识别和估计的关键。
模型：
- 数据生成机制由未观测混杂U驱动。U同时影响处理A、结局Y和NCO Z。观测协变量X可能与U相关，但不足以完全控制混杂。
- 核心假设是NCO假设：
  1. 排除性（Exclusion）：Z不受处理A的直接影响。即 Z(a) = Z 对所有a成立。
  2. 与Y(0)的条件相关性：在给定X和A=1的条件下，Z与Y(0)通过U相关，但这种相关性可以被一个桥函数b(Z, X)所“捕获”。具体来说，存在一个函数b，使得 E[Y(0) | A=1, X] = E[b(Z, X) | A=1, X]。
- 这是一个非参数模型，因为除了上述假设外，没有对U、Y、Z的分布形式做任何参数化假设。
可观测数据：
- 研究者可以观测到独立同分布的样本 (A_i, Y_i, Z_i, X_i)，i = 1, ..., n。
- 可观测：A, Y, Z, X。
- 不可观测：U，以及潜在结局 Y(0) 和 Y(1)（对于每个个体，只能观测到其中一个）。核心挑战在于，我们无法直接观测到处理组（A=1）个体的Y(0)，而ATT的定义恰好需要它。

第二步：讲最小内核¶

本文的核心思路可以浓缩为以下最简特例：假设没有观测协变量X（即X为空集），且我们只关注处理组（A=1）的平均处理效应。

问题：我们想估计 ATT = E[Y(1) - Y(0) | A=1]。由于Y(0)在处理组中不可观测，直接估计是不可能的。未观测混杂U导致 E[Y(0) | A=1] ≠ E[Y(0) | A=0]，所以不能用对照组（A=0）的Y来替代。
核心想法：利用NCO Z。NCO Z 与 Y(0) 都受 U 影响，但 Z 不受 A 影响。因此，Z 可以作为 Y(0) 的一个“代理”，帮助我们推断处理组中缺失的 Y(0)。
最小内核的数学表述：
1. 桥函数的存在性：假设存在一个函数 b(z)，使得对于处理组个体，有： E[Y(0) | A=1] = E[b(Z) | A=1]。 (式1) 这个等式是说，Y(0)在处理组中的均值，等于b(Z)在处理组中的均值。b(Z)就像一个“校准器”，将Z的分布映射到Y(0)的均值上。
2. 桥函数的识别：如何找到这个b(z)？利用NCO的排除性，我们知道Z不受A影响，所以Z在处理组和对照组中的分布差异完全由U的分布差异驱动。关键的一步是，作者证明b(z)可以通过求解一个仅依赖于可观测数据的积分方程来识别： E[Y | A=0, Z] = E[b(Z) | A=0, Z]。 (式2) 这个等式是说，在对照组（A=0）中，给定Z时Y的条件均值，等于给定Z时b(Z)的条件均值。由于b(Z)是Z的函数，E[b(Z) | A=0, Z] = b(Z)。因此，式2简化为： E[Y | A=0, Z] = b(Z)。 (式3) 这就是桥函数的识别公式！ 它告诉我们，b(z) 就是对照组中结局Y对NCO Z的条件期望函数。
3. ATT的识别：一旦我们通过式3从对照组数据中估计出b(z)，就可以将其代入式1，得到ATT的识别公式： ATT = E[Y(1) - Y(0) | A=1] = E[Y | A=1] - E[Y(0) | A=1] = E[Y | A=1] - E[b(Z) | A=1]。 (式4) 式4中的所有项都是可观测数据的期望，因此ATT被非参数地识别了。
为什么这个例子是“最小内核”：
- 它剥离了所有为一般性服务的复杂假设（如观测协变量X、双重稳健性等）。
- 它清晰地展示了本文的核心数学思想：利用NCO的排除性，将桥函数的识别问题转化为一个在对照组中可解的回归问题。
- 它揭示了本文与COCA的根本区别：COCA需要假设一个参数化的秩保持模型来连接Z和Y(0)，而本文通过引入桥函数b(z)，将识别问题转化为一个非参数的积分方程求解问题，从而绕开了秩保持假设。
- 这个特例下，证明几乎是平凡的：式3直接给出了b(z)，式4直接给出了ATT。论文的一般情形（引入X、考虑更复杂的桥函数、发展双重稳健估计）都是在这个最小内核上“加壳”。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在存在未观测混杂的情况下，仅利用一个负对照结局（NCO），非参数地识别和估计处理组平均处理效应（ATT），并放宽了此前COCA方法中关键的秩保持假设。
核心工具/方法：引入了“桥函数”（bridge function）的概念，将ATT的识别转化为一个积分方程求解问题。提出了三种估计策略：扩展倾向得分法、结果桥函数法，以及结合前两者优势的双重稳健法。
主要结论：在NCO假设下，ATT可以被非参数识别，且识别条件比需要一对代理变量的近端因果推断更弱。所提出的双重稳健估计量在其中一个模型（倾向得分或结果桥函数）被正确指定时仍能保持一致估计。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

目标参数：ATT = E[Y(1) - Y(0) | A=1]。
可观测数据：(A_i, Y_i, Z_i, X_i)，i.i.d.。
核心假设（NCO假设）：
1. 一致性（Consistency）：Y = Y(A)，Z = Z(A)。
2. NCO排除性（NCO Exclusion）：Z 不受 A 的直接影响。即 Z(1) = Z(0) = Z。这是NCO的定义性特征。
3. 桥函数存在性（Bridge Function Existence）：存在一个函数 b(Z, X)，使得： E[Y(0) | A=1, X] = E[b(Z, X) | A=1, X]。 (条件1) 这个条件将未观测的Y(0)的期望与可观测的Z和X的某个函数联系起来。它比秩保持假设弱得多，因为它允许Y(0)和b(Z,X)之间的关系是任意的。
4. 桥函数识别条件（Bridge Function Identification）：b(Z, X) 是以下积分方程的唯一解： E[Y | A=0, Z, X] = E[b(Z, X) | A=0, Z, X]。 (条件2) 由于b(Z,X)是Z和X的函数，E[b(Z,X) | A=0, Z, X] = b(Z,X)，因此条件2简化为： b(Z, X) = E[Y | A=0, Z, X]。 (条件2') 这意味着桥函数就是对照组中Y对(Z, X)的条件期望。这是一个非常强的简化，但也是本文非参数识别的关键。作者在文中讨论了更一般的情况，其中桥函数可能不是简单的条件期望，但在这个核心设定下，它就是。
与已有文献的对比：
- 相比COCA (Tchetgen Tchetgen, 2013)：本文去掉了秩保持假设，允许个体处理效应异质性。这是最关键的放宽。
- 相比PCI (Miao et al., 2016; Tchetgen Tchetgen et al., 2020)：本文只需要一个代理变量（NCO Z），而PCI需要一对代理变量。这是数据要求上的显著降低。但代价是，本文的识别条件（条件2'）可能比PCI的某些识别条件更强（例如，它要求桥函数恰好是对照组中的条件期望）。

主要结果¶

定理1：ATT的非参数识别。在条件1和条件2下，ATT被非参数识别为： ATT = E[Y | A=1] - E[E[Y | A=0, Z, X] | A=1]。
- 直觉：第一项是处理组的平均观测结局。第二项是“反事实”的Y(0)的期望，它通过桥函数b(Z,X) = E[Y|A=0,Z,X]在处理组中取平均来估计。这个定理将ATT的识别问题简化为一个可观测量的期望之差。
- 必要条件：NCO假设（排除性和桥函数存在性）必须成立。此外，需要E[Y|A=0,Z,X]能被可靠地估计。
- 解决的技术难点：绕开了对Y(0)的直接建模，也无需对未观测混杂U进行任何假设。
三种估计策略：
1. 扩展倾向得分法（Extended Propensity Score Approach）：对处理A建模，但将E[Y|A=0,Z,X]作为协变量纳入倾向得分模型。这种方法对结果回归模型E[Y|A=0,Z,X]的误设敏感。
2. 结果桥函数法（Outcome Bridge Function Approach）：直接估计E[Y|A=0,Z,X]，然后代入ATT公式。这种方法对倾向得分模型的误设敏感。
3. 双重稳健法（Doubly Robust Approach）：构建一个估计方程，使得只要倾向得分模型或结果桥函数模型中有一个被正确指定，ATT的估计就是一致的。这是本文推荐的方法。
  - 双重稳健性：作者证明，所提出的估计量是双重稳健的。具体来说，如果E[Y|A=0,Z,X]的模型正确，或者P(A=1|Z,X)的模型正确，估计量就是一致的。这大大增强了方法的稳健性。
  - 与debiased ML的联系：这种双重稳健估计量的构造思路与debiased ML（或称为one-step estimation）思想相通，即通过添加一个基于影响函数的校正项来降低对初始估计的偏差。

证明路线与技术技巧¶

整体路线：
1. 识别：通过条件1和条件2，将ATT表示为可观测量的函数（定理1）。
2. 估计：为E[Y|A=0,Z,X]（桥函数）和P(A=1|Z,X)（倾向得分）指定参数或半参数模型。
3. 双重稳健估计方程：构造一个矩条件，其期望在真实参数下为零，并且对其中一个模型的误设具有鲁棒性。
4. 渐近理论：证明基于该矩条件的GMM估计量是√n-一致、渐近正态的，并给出其渐近方差。
关键跳跃点：
- 从COCA到非参数识别的跳跃：最关键的跳跃在于，作者意识到桥函数b(Z,X)在NCO假设下可以简化为E[Y|A=0,Z,X]。这个简化使得识别变得异常简洁，但也意味着它可能是一个很强的条件。作者在文中讨论了更一般的桥函数设定，但核心贡献在于发现了这个简洁的识别策略。
- 双重稳健估计量的构造：如何构造一个对倾向得分和结果桥函数都双重稳健的估计量？作者借鉴了Robins等人关于双重稳健估计的经典理论，但需要将其适配到桥函数这个特定的设定下。这涉及到推导ATT的高效影响函数（Efficient Influence Function, EIF），然后基于EIF构造估计方程。
技术技巧点名：
- GMM（广义矩方法）：用于估计双重稳健估计量。作者使用gmm包（Chaussé, 2010）进行实现。
- 双重稳健估计理论：核心技巧是构造一个矩条件，使其对部分模型误设不敏感。这通常涉及将EIF作为估计方程。
- 桥函数/积分方程：虽然本文的桥函数简化为条件期望，但其理论框架建立在求解积分方程的一般思想上，这与PCI和逆问题文献中的方法一脉相承。

真实例子与应用¶

数据/场景：巴西Zika病毒爆发对出生率的影响。数据来自巴西卫生部的信息系统，包含2014-2016年各州的月度活产数、Zika病例数等。处理A是Zika爆发（以2015年5月为界，之后为1，之前为0），结局Y是月度活产数，NCO Z是先天性梅毒病例数（作者论证梅毒不受Zika影响，但受与Zika相同的未观测混杂因素影响，如社会经济状况、医疗资源等）。
方法应用：作者将本文提出的三种估计策略应用于该数据，估计Zika爆发对出生率的ATT。他们调整了时间趋势、季节性和州固定效应等观测协变量X。
结果：三种方法均显示Zika爆发导致出生率显著下降。双重稳健法的估计结果与扩展倾向得分法和结果桥函数法基本一致，但置信区间更窄，体现了其效率优势。
例子想说明什么：这个例子旨在展示本文方法在实际流行病学研究中的可用性。它说明了如何根据领域知识论证一个变量（先天性梅毒）可以作为有效的NCO，并展示了该方法能够得出一个与先前研究（Castro et al., 2018）定性一致的结论，即Zika爆发导致了出生率下降。

🔎 结论是否比证明窄¶

本文的结论与证明基本匹配。作者明确指出了其识别条件（条件2'）在一般情况下可能过强，并讨论了更一般的桥函数设定。然而，一个潜在的“窄”之处在于：本文的主要识别结果（定理1）依赖于桥函数恰好是对照组中Y对(Z,X)的条件期望。作者在文中承认，这是一个“简化”的识别条件，并指出在更一般的设定下，桥函数可能是一个更复杂的积分方程的解。因此，本文的“非参数识别”结论，严格来说，是在这个“简化”的桥函数设定下成立的。对于更一般的桥函数，本文只提供了理论框架，并未给出同样简洁的识别公式。这一点在阅读时需要留意。

四、开放问题¶

更一般的桥函数识别：本文的识别依赖于桥函数b(Z,X) = E[Y|A=0,Z,X]。在更一般的设定下，桥函数是更复杂积分方程的解。如何在实际中非参数地估计这种更一般的桥函数，并保证其可识别性？（扎根于：文中对条件2的讨论，以及引用Miao et al. (2016) 关于Fredholm积分方程的讨论。）
与PCI的统一理论：本文的单代理变量框架与PCI的双代理变量框架之间是否存在一个统一的识别理论？在什么条件下，一个框架可以转化为另一个？ 例如，当一对代理变量中的一个恰好是NCO时，本文的框架是否就是PCI的一个特例？（扎根于：引言中作者将本文与PCI进行对比的段落。）
对NCO假设的敏感性分析：NCO的排除性假设（Z不受A影响）是关键的，但在实践中可能被违反。如何发展一个敏感性分析框架，来评估当NCO排除性假设被轻微违反时，ATT估计的稳健性？（扎根于：所有NCO方法共有的核心假设，本文未提供敏感性分析。）
扩展到其他因果参数：本文主要关注ATT。能否将单代理变量框架扩展到识别和估计平均处理效应（ATE）或条件平均处理效应（CATE）？ 如果可以，需要什么样的额外假设？（扎根于：本文的结论部分，作者提到未来工作可以探索其他参数。）

Maintained by 陈星宇 · Homepage · Source on GitHub