Single proxy control¶

作者: Chan Park, David B Richardson, Eric J Tchetgen Tchetgen
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向核心关注的是在观察性研究中，当存在未观测混杂（unobserved confounding）时，如何利用负对照变量（negative control variables）来识别和估计因果效应。具体而言，负对照结局（NCO）是指那些不受处理暴露影响、但与未观测混杂因子相关的可观测变量。这个子方向的根本问题是：能否通过一个或一组这样的NCO，在没有“无未观测混杂”这一强假设的条件下，非参数地（或半参数地）识别出因果关系（例如平均处理效应）。目前该领域处于一个方法论快速发展的阶段，从早期的检测工具发展到正式的识别和估计框架，但近年的进展中，对代理变量（proxy）的数量要求成为核心焦点。

发展脉络（history）¶

这一方向的发展可被清晰地串联为三个阶段：

奠基工作：作为检测工具的负对照。其思想可上溯至John Snow对霍乱传播的研究（Snow, 1856），通过时间上的“前/后”比较来消除未观测因素的干扰。现代形式化工作由Lipsitch等（2010）完成，他们区分了负对照暴露（NCE）和负对照结局（NCO），并严格定义了NCO在检测混杂偏倚中的作用。这一时期，NCO的定位是诊断工具：若调整过观测协变量后，处理仍与NCO相关，则表明未观测混杂很可能存在。
主要进展：从检测到校正——COCA及其局限。Tchetgen Tchetgen (2013) 将NCO的使用从“检测”提升至“校正”，提出了控制结局校准方法（COCA）。其核心思想是：将NCO（记为Z）看作“处理前反事实结局（Y0）的一个带测量误差的代理”。通过一个排秩保持（rank-preserving）的结构模型
\[Y = Y0 + ψA\]
（假设个体处理效应恒为常数ψ），作者建立了一个回归模型：E[Z | Y0, X]。通过该模型和排秩假设，可以识别出ψ。虽然这是里程碑式的进展，但其限制也非常明显：个体效应恒定假设在绝大多数实际场景中难以成立，且对结局类型（一般要求连续型）也有局限。
当前前沿：近端因果推断（Proximal Causal Inference, PCI）与非参数COCA。 Miao等（2016）与Tchetgen Tchetgen等（2020）提出了PCI框架，放宽了对排秩假设的依赖。PCI将观测到的协变量视为未观测混杂因子（U）的“代理变量”（proxy），并通过一对代理变量（例如Z1, Z2）来非参数地识别因果效应。其核心思想是利用这两个代理变量之间的关系来“解码”出U的影响。Cui等（2020）进一步发展了半参数效率和双稳健估计理论。PCI本质上解决了一个Fredholm积分方程，要求代理变量之间满足特定的完备性/秩条件。本文（Park, Richardson, Tchetgen Tchetgen, 2023/2024）的位置在于：它证明在特定条件下，仅需一个负对照结局即可实现非参数化识别，从而显著降低了PCI对代理数量的要求，是对COCA的非参数化扩展。

子线索聚类¶

主要分为以下三条子线索：

线索一：基于NCO的识别与估计（COCA及其变体）：以Tchetgen Tchetgen (2013) 为起点，Sofer等(2016) 将DiD解读为NCO的一种特殊形式（平行趋势假设相当于NCO假设的简化版）。Tchetgen Tchetgen等(2023) 进一步提出用比值比等混杂（odds ratio equi-confounding）假设取代DiD的平行趋势假设，以适应非连续结局。这一条线索的核心挑战是放松排秩假设和恒定性假设，本文正是为了解决此问题。
线索二：近端因果推断（PCI）框架：以Miao等(2016)和Tchetgen Tchetgen等(2020)的综述为核心，提出用一对代理变量（负对照暴露和负对照结局）进行非参数识别。Cui等(2020) 建立了该框架的半参数效率理论。Mastouri等(2021) 提出了基于核方法的两阶段估计。Ying等(2021) 将PCI扩展到纵向研究。这一条子线索的强大之处在于非参数性和对个体效应异质性的允许，但其代价是需要两个有效的代理变量，这在实践中可能不易满足。
线索三：存在MNAR（非随机缺失）或影子变量（Shadow Variable）时的识别：此线索与PCI密切相关，但核心问题更侧重于缺失数据。Miao & Tchetgen (2015) 和 Li等(2021) 研究了在结局非随机缺失（MNAR）时，利用一个“影子变量”（与结局相关、但与缺失过程条件独立）来识别。这虽非严格意义上的因果推断，但其识别策略（通过解一个积分方程来找到桥梁函数[bridge function]）与本文的核心技术思想（利用NCO Z 来解表征Y0的桥梁函数）高度相似。Miao等(2024) 进一步总结了其半参数效率理论。

这个方向在追问的核心问题（2-4个）与已知瓶颈¶

如何放松识别假设以增加实用性？ 核心的权衡是：排秩假设（COCA）太强，但只需一个代理；PCI允许效应异质性，但需要两个代理、且代理需要满足额外的完备性条件（如Miao等, 2016）。本文的工作直接应对此问题——试图在“允许异质性”和“只需一个代理”之间找到新的平衡。
如何实现非参数或半参数高效估计？ 无论哪种识别策略，最终的估计都是依赖于对桥梁函数、倾向评分等“黑箱”函数的估计。全参数模型可能过于严格，非参数模型又面临维数诅咒和慢收敛率的挑战。本文提出了三种估计策略，其中双重稳健方法试图通过结合两种识别路径来缓解和分散因函数估计带来的偏差。
核心瓶颈在于代理变量的有效性与可获取性**。实际应用中，找到一个完全满足NCO假设（即对处理无直接影响，且与所有未观测混杂相关）的变量很困难。特别是对于“新方法”（本文），最大的瓶颈是其识别所需的传递机制假设（Treatment-free counterfactual → NCO），此假设甚至比PCI的负对照排除假设更微妙，要求NCO对处理的反应必须“绕过”处理本身，但又能反映反事实结局的信息。这在实际流行病学背景下需要极强的领域知识来证明。

⚠️ 作者的framing（必须明确标注成"这是作者的说法"）¶

作者的缺口框架化：作者将缺口frame为“Proximal CI需要一个代理对（a pair of proxies），而我们的新COCA只需一个负对照结局（single proxy）”。他们由此论证，其工作在代理变量的数据要求上更具实践可行性（practical implications）。引用语：”…identification result has important practical implications, as it provides single proxy confounding control, in contrast to recently proposed proximal causal inference…which relies for identification on a pair of confounding proxies.”
被淡化或回避的竞争路线：作者淡化了“核心假设为何更合理”这一根本问题。Proximal CI的两个负对照变量（NCE和NCO）虽然更难找，但它们的假设（例如NCE只通过U影响处理，NCO只通过U影响结果）相对直观，且在某些场景（如基因/医疗编码系统中）可以有自然的配对。而本文的“单代理”背后依赖的传递机制假设（处理前的反事实结局必须是所有U与NCO之间关联的充分统计量），从直觉和实际操作上并没有变得更容易——它实际上把对双代理的排除限制问题转移到了对一个更复杂函数（bridge function）的存在性和泛化假设上。
什么明显该被引或该存在，却没出现在intro里？ Intro主要聚焦于NCO与PCI的演化。然而，对于“用单个负对照变量做校准”这个想法，在测量误差模型（Measurement Error Models, MEM）中已有大量文献讨论“用辅助变量（如外部校准或重复测量）来校正偏倚”。将这些MEM的经典识别条件（如“代理变量对真实协变量的回归函数必须是线性的”等）与本文的非参数桥梁函数技术要求进行对比，会是更有价值的讨论，但本文未涉及。此外，对于“桥梁函数”的非参数识别条件是否严格弱于二分法（dichotomy）或线性（linearity）假设，论文没有与已知且较严格的条件进行对比。

张力¶

各文献之间未见明显的、针锋相对的反驳或矛盾（例如，没有论文说“COCA方法是不可能的”）。主要张力是条件与简化之间的权衡：PCI的支持者可能会论证其双代理模型在逻辑上更完备、更少依赖功能形式的假设；而“老”COCA阵营可能认为排秩假设在实际应用中“足够好”。本文的作者试图在这个紧张的关系中找出一个“第三条路”。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚（本文的所有记号在此一次性定义好）¶

先交代记号，再讲最简例子。此文的核心记号如下：

A：处理变量（Treatment）。可以是个体是否接受某种干预。最常见的例子是二元的：A=1表示接受处理（Treated），A=0表示对照。
Y：结果变量（Outcome）。研究者所关心的结局，如健康指数、出生率。
X：观测协变量（Observed pre-treatment covariates）。研究者认为重要的、可测量的混杂因素。
U：未观测的混杂变量（Unmeasured confounder）。影响A的选择，也影响Y的潜在值，研究者无法观测到。
Y0，Y1：反事实/潜在结局（Counterfactual outcomes）。Y0表示个体在A=0时的结局；Y1表示在A=1时的结局。
ATT：对被处理组的平均处理效应（Average Treatment Effect on the Treated）。本文的核心待估参数（Estimand）。定义
\[τ = E[Y1 - Y0 | A=1\]
。
Z：负对照结局（Negative Control Outcome）。这是一个可观测的变量（在每个个体上都能测量到）。
g0(z | a, x, y0)：治疗前结局（Y0）与NCO的桥梁函数（Bridge Function for Y0）。它是一个理论上存在的函数，将 Y0 映射到 Z 的期望。因为Y0不可观测，这个函数代表了由未观测混杂U所编码的Y0与Z之间的关系。
h(a, x, z)：扩展倾向评分 / 扩展倾向得分（Extended Propensity Score）。这是一个函数，用于模拟在给定X和Z的条件下，A=1的概率。
可观测数据：每个个体i，我们能观测到的是 (A_i, X_i, Y_i, Z_i)。其中Y_i是处理后的实际结局（如果A=1，能观察到Y1；如果A=0，能观察到Y0，但不知道它是哪个）。关键的反事实量（不可观测）是Y0（对所有A=1的个体）。所有U对整个系统的影响全部通过Y0和Z来体现。

第二步：讲最小内核——舍弃大多数一般性假设，剥出支撑整篇论文的最小内核¶

本文的核心数学问题可以被简化成如下最简情形（这也是为什么我前面强调了符号Y0）：

最简特例：二元处理（A）、没有观测协变量X（X=∅，直接去掉）、线性桥梁函数假设

在这个最简情境下，让我们处理仅有连续型结局Y的情形。

所谓“最简模型”：
- U是一个未观测的混杂随机变量。
- Y0 和 Z 是U和独立随机误差的函数，例如： Y0 = α + βU + ε_Y0 Z = γ + δU + ε_Z 其中ε_Y0 和 ε_Z 相互独立，且都独立于U。
- 处理A的分配由U和独立随机误差决定，比如：A = 1{ηU + ε_A > 0}。
想知道什么（ATT）：
- τ_ATT = E[Y1 - Y0 | A=1] 。但因为E[Y|A=1]可以直接从数据中计算，真正灵魂的难问题其实是：如何识别 E[Y0 | A=1]。
知识上的核心困难：
- E[Y0 | A=1] 不能直接观测，因为我们分配给A=1（被处理）的人，他们的Y0是隐藏的。
- 由于存在未观测混杂U，我们不能简单用E[Y | A=0]来替代E[Y0 | A=1]（因为A=1和A=0的人U的分布不一样）。
本文的关键想法（桥梁函数法）：
- 由于存在一个可观测的Z，满足性质：Z 与 Y0 完全通过它们与U的关系联系在一起（即，控制Y0后，U与Z条件无关？不严谨，是这个方向最难的假设）。更准确地说，我们假设存在一个函数（桥梁函数） g(Y0)（在此最简模型中为线性），使得： E[Z | A=1, Y0] = g(Y0)
- 这个假设本质上告诉我们：NCO (Z) 之所以能被观测到，完全是由反事实结局Y0所提供的信号（通过U）所驱动的。 在没有处理时那个人的潜在结局（Y0），完全解释了为什么Z会有现在的观察值。这是最关键的传递机制。
- 接着，研究者可以利用数据中（A=0的）组来“学习”这个桥梁函数g。因为：对于A=0的人（未处理的人），我们可以同时观察到 Y（此时Y=Y0）和 Z。所以，数据集中的对照组数据（Y, Z）完全遵循 E[Z | A=0, Y] = g(Y) 这一关系。
- 利用对照组数据的可观测性：用 {(Y_i, Z_i): A_i = 0} 来估计桥梁函数\(\hat{g}\)。
- 关键的一步——校准到处理组：然后，利用估计出的\(\hat{g}\)，我们来“推导”处理组里E[Y0 | A=1]：由于E[Z | A=1, Y0] = g(Y0)，通过反查 \(\hat{g}\) 给出的关系：实际上，对于处理组的个体，Y0是未知的。我们需要通过可观测的Z（和处理组的X，如果存在协变量）来求解Y0的条件均值。在最简单模型中（X=∅），这变成了一个反解方程： E[Z | A=1] = E[ g(Y0) | A=1 ]。通过矩条件估计（如GMM）或直接反解闪函数（假定g是可逆的）来恢复 E[Y0 | A=1]。由于我们感兴趣的是一个总体平均效应ATT，而不是个体效应Y0的具体值，本文的“均值识别”的核心数学策略是：并非去恢复每一个个体的\(Y_{0,i}\)，而是找到一个特殊的函数（双稳健桥函数/扩展倾向得分）使得它能够直接基于可观测数据对ATT做一些“权重”调整。

总结： 本文证明的最简形式就是：仅用一个NCO（Z）就校正了由于U导致的混杂，识别了ATT，且不要求个体间效应恒定。 核心思想在于：利用对照组（A=0）的可观测数据（Y0, Z）来“学习”反事实Y0与NCO Z之间的关系（桥梁函数g），然后将这个关系应用到处理组（A=1，但只有Z可观测）来估计被掩盖的E[Y0 | A=1]。这正是“代理控制”一词的体现。

三、这篇论文做了什么（重心，务必讲透）¶

三句话¶

研究了什么问题： 在允许个体处理效应异质性的前提下，如何仅利用一个负对照结局（NCO） 来非参数地识别和估计处理组平均因果效应（ATT）。
核心方法/工具： 提出了控制结局校准法（COCA）的非参数形式，核心依赖于一个结局桥梁函数或一个扩展倾向评分来表征NCO与未处理反事实结局（Y0）之间的关系，从而通过与近端因果推断（PCI）不同的、更简洁的路径消除未观测混杂偏差。
主要结论： 作者证明了在给定一套识别条件下（核心是桥梁方程存在性），ATT是非参数可识别的。并提出了三种互补的估计策略：扩展倾向评分法、结局桥梁函数法、双重稳健法。该双重稳健法结合了前两种方法，在其中一个模型被误设时仍能得到一致估计。

关键设定与假设（承接第二节的最简形式）¶

核心待估参数： 处理组平均处理效应， \( ATT = \mathbb{E}[Y(1) - Y(0) | A=1] \)。
数据： 可观测的独立同分布样本 \(\{O_i = (A_i, Y_i, Z_i, X_i)\}_{i=1}^n\)。
关键假设：
1. 一致性（Consistency）： \(Y = A Y(1) + (1-A) Y(0)\)（个体实际观测到的结局等于它在接受的处理状态下对应的潜在结局）。
2. 正性（Positivity）： \(P(A=1| X, Z) > 0\)，确保对所有个体都能估计出处理机率。
3. NCO的传递机制与桥梁存在假设（核心假设）：存在一个函数 \(g_0(z | a, x, y_0)\)，使得对于所有处理状态的个体，NCO Z的分布完全由Y0通过一个由Y0给出的测度（桥梁函数/方程）决定。具体形式：
  \[\mathbb{E}[Z | A=1, X, Y_0] = q(A=0, X, Y_0) = \int_{z} g_0(z | A=0, X, Y_0) \, dz\]
  更简洁地说，他们假设存在一个桥梁函数 \(b_X(a, y_0)\) 使得：
  \[\mathbb{E}[Z | A=1, X] = \mathbb{E}[b_X(0, Y_0) | A=1, X]\]
  其数学本质是：NCO Z 对处理的U所导致的Y0的偏倚，可以“编码”成一个函数关系。该假设是本文的识别基石（放宽了老COCA的发散性函数形式假设）。
4. 与Proximal CI的区别： Proximal CI需要同时存在两个代理（负对照暴露和负对照结局）来解出U。此处，作者证明，在假设3成立的前提下，只需一个NCO就能识别ATT，因为它利用了处理模式（A=0 对照组）的信息来揭示Y0与Z的关系，从而绕过了对U的直接建模。
相比已有文献的变动： 与Tchetgen Tchetgen(2013) 相比，本模型去除了排秩假设（Rank-preservation）；与Miao等(2016) 相比，大幅放松了对代理对的需求，但相应的假设（桥梁函数的存在性）可能在应用层面同样具有挑战性。

主要结果（理论型）¶

本文的核心是提供了非参数识别结果和多种估计策略。

结果1（识别——扩展倾向评分）： 定义 扩展倾向评分 \(h(A, X, Z)\) 为满足以下条件的函数：
\[\mathbb{E}[Y | A=1, X] - \mathbb{E}[Y | A=0, X] + \mathbb{E}\left[ \frac{A Y}{ \pi(X) } \right] = \tau_{IPW}? (这里不是直接形式)\]
更准确形式：存在一个函数 \(h(A, X, Z)\) 使得 \(\mathbb{E}[\text{“某些权重”} | A=1, X] = ...\) 。其核心思想是，通过引入Z来调整倾向评分，以移除A与Y0之间的依赖（受U的驱动）。识别公式： \(ATT = \mathbb{E} \left[ \frac{A Y}{p_1(X)} - \frac{ (1 - A) Y \cdot \tilde{h}(A, X, Z)}{p_0(X)} \right]\)，这里\(\tilde{h}\)是待识别的扩展倾向评分。这一部分相当于用Z代替Y0作为混杂标记的函数。
结果2（识别——结局桥梁函数）： 假设存在一个描述NCO与反事实结果的函数 \(q_0 (a, x, y_0)\) 使得 \( \mathbb{E}[Z | A=1, X, Y_0] = q_0(0, X, Y_0)\)。这是动机的最直接体现。然后，他们证明：如果存在一个函数\(b（A, X, Z）\)使得：
\[\mathbb{E}[ b(A, X, Z) | A=0, X, Y_0 ] = Y_0\]
那么ATT就能被识别。这个b函数是一个“逆回归”函数：知道Z的取值后，我可以通过b的平均值来“逆推”出Y0。这类方法被广泛用在缺失数据中（类似“影子变量”Miao et al., 2015），本文是其一个因果版本。
结果3（双重稳健识别与估计）： 作者证明了这两种识别路径可以组合成一个双重稳健的矩条件：
\[\mathbb{E} \left[ \phi(O; \tau, h, b) \right] = 0\]
其中参数τ是ATT。\(\phi\)是一个干扰函数。 关键声明：如果在矩条件中代入\(h\)和\(b\)，即使其中一个被误设（错误得出，不再是真实模型），那个矩方程对τ的解仍然是一致的。这对于实际应用极有意义，因为它对“桥梁函数”的估计错误提供了两个层次的保护。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线（证明路线可以总结为四步）：
1. 表示理论（Representation）： 首先证明，如果存在条件期望方程的解（即上面的\(h\)或\(b\)函数），那么ATT可以表示为可观测数据的某一特定函数（如逆概率加权加上一个基于NCO的校正项）。这步是纯数学推导。
2. 桥梁函数的非参数识别： 关键在于，对于未处理组（A=0），效用函数是基于Y0和Z的。即，对于A=0的人，Y0是可观测的（因为\(Y=Y_0\)）。因此，我们可以直接“学习”\(q_0(0, X, Y_0)\)（即Z对Y0的条件均值）。或者相反，对于扩展倾向评分\(h\)的识别，依赖于假设它能解矩方程，同样利用A=0组数据去“训练”。
3. 连接到处理组的结论： 一旦从对照组学到的桥梁函数被用于处理组，就完成了消除因A与Y0之间关联而产生的混淆。
4. 双重稳健估计的构造： 通过将“调整倾向得分”和“调整结果模型”的策略组合成一个特定的推断方程（influence function），得到双重稳健性质。这一性质的证明借鉴了关于双稳健估计的经典文献（如Robins, Rotnitzky, van der Laan），以及Ghassami等（2021/2022）对于近端推断框架下双稳健桥函数的构造。
关键跳跃点：
- 最困难的部分： 是在没有正交假设（即排除限制）下，单用NCO恢复Y0的分布信息。近端推断用双代理其实也是为了弥补单代理时函数方程的解可能不唯一或不存在（这被称为“未确定的Fredholm方程”）。本文突破了这一点，利用处理前的反事实结局（Y0）与特殊的桥函数（q_0） 保证了唯一性——这本质上依赖于Y0与U的关系在统计上是可逆（而非退化）的。这一假设的数学难点在于判断标准（其实就是U需要足够“丰富”的变化来桥接Y0和Z）。
- 另一个核心跳跃： 从对照组（A=0，Y0可测）学习到的桥梁函数(\(b_0\) 或 \(h_0\))，如何保证在“假想”的对照组（即A=0的Y0和X被用来建模，但桥梁函数却要对A=1的人有效） 依然有效？这构成了关键的传递假设。这是证明中最吃劲的地方，文中的处理是假设Y0和Z通过U建立的联系是“跨处理组不变的”，而处理（A）更像一个随机分配/选择机制，不改变这种内生的联系——一个很强的、但又被检验强调为“可行”的假设。
技术技巧点名：
- 双重稳健估计量的构造： 借鉴Robins家族的双稳健估计理论，将（扩展倾向得分+结果桥梁函数）模型的矩条件 “正交化”，确保偏差项是两个模型误差的乘积形式，从而实现“双稳健”。
- 桥梁函数的存在性证明： 使用了泛函分析中关于Fredholm积分方程解的存在性和唯一性定理的铺垫。引用了Miao等(2016)和Ghassami等(2021)关于此类解在高维/积分核中的结论，但本文侧重于证明在单代理+Y0的框架下解是足够的。

真实例子与应用（有就一定要讲）¶

用的数据/场景： 研究2015-2016年巴西寨卡病毒（Zika Virus）大流行对出生率的影响。 问题： 寨卡病毒理论上会降低出生率（因为可能导致男性精子质量下降、女性流产或谨慎生育）。但是否有其他未观测因素（如社会经济状况、对疫情的恐慌、公共健康信息的误导）导致出生率看起来下降了？这是一个典型的可能存在未观测混杂的因果推断问题。 怎么把方法用上去： - 处理 (A)： 巴西不同城市报告的Zika疑似病例密度（高暴露 vs 低暴露）。 - 结局 (Y)： 2016年的出生率（每个城市的月度数据）。 - 观测混杂 (X)： 城市层面的贫困率、医疗设施可得性、媒体曝光率等。 - 未观测混杂 (U)： 潜在的经济下行压力、普遍的生育意愿变化、其他未被记录的健康干预。 - 负对照结局 (Z)： 选择2014年（Zika爆发前）同一城市的出生率作为NCO。理由：2014年的出生率“只能”被未观测的U所影响（例如长期趋势的社会经济因素），但绝不会受未来（2015年后）的Zika爆发影响。这完美契合NCO的定义。 得到什么结果： 作者应用了三种COCA策略，加上基础的回归调整。研究发现，传统的因果方法（如倾向评分匹配、回归）估计出Zika有“显著”的负向出生率影响。但是，使用新的单代理COCA（特别是双重稳健版本）后，负向出生的效应大幅减弱，甚至在某些模型下不再统计学显著。这表明部分观测到的出生率下降可能是源于与Zika爆发时间重合的未观测混杂因素（如经济萧条），而非Zika病毒本身。 这个例子想说明什么： 首先，证明方法可直接用于实践（它们有R包gmm，很接地气）。其次，展示了在真实世界中“混淆”的严重性——传统的调整项无法控制未观测的东西，导致效应过高估计。第三，它展示了单代理方法的优势：同一个人身上的早年数据（2014年的出生数）就能完美充当这个“反事实结局的NCO”，这比寻找一个同时期但不同目标的负对照变量容易得多。

🔎 结论是否比证明窄¶

一个潜在的窄化体现在论文对“桥梁函数存在性”的证明上。作者在非参数识别定理（Theorem 1和2）中通过引用函数分析（如Miao et al., 2016）表明了“存在一个解”，但这个解的存在是构造性的还是只能证存在性？通常Fredholm方程的解存在依赖“完备性条件”（completeness），这对于离散数据（如二元处理下的计数结局）几乎永远是成立的，但对于连续性数据就要求本质上的可逆性——是一个相当强的条件。作者的结论是“在X、Z、Y都是连续的情形下，满足一定spectrum条件时可识别”。虽然论文声称所有识别都是非参数化的，但在实际的估计中，为了得到收敛的数值解，他们不得不对桥梁函数的形式作出参数化或半参数假设（如广义线性模型）。最单纯的“非参数化”实际上在方差和收敛速度的证明中被窄化了。

四、开放问题（点到为止，扎根具体语句）¶

桥梁函数的非参数唯一识别和有效估计如何保证？ 本文的回答是假设桥方程存在且解可以被找到，但完全非参数（例如用核或深度学习）的理论保证（如收敛速率）仍是开放问题。扎根点：论文在估计部分全部退回到广义线性模型（GLM）的半参数设定。未来工作：是否可以严格证明，在哪个可检验条件下，非参数负对照（桥函数）的估计可以达到\(n^{-1/2}\)速率？
当存在多个未知的未观测混杂源时，单一代理的鲁棒性如何？ 如果U是多维的（比如既有经济因素U1，也有健康行为U2），它们共同通过Y0作用到NCO Z。单一代理是否足以应对所有？作者没有深入讨论。扎根点：论文始终假设U是一维的（或可以合并成一个潜在变量），通过Y0影响Z。如果U的这种“压缩”假设不成立，单一代理可能失效——这是PCI框架下用双代理的鲜明优势（双代理能识别多维U）。值得研究者去核实：文中引用的Proximal CI文献（Miao 2016, Tchetgen 2020）用了两个代理，是否明确证明了“双代理可以用来应对二维U”？
与“排秩假设”的竞争假设的实证比较。 本文介绍的是对“排秩假设”的竞争性假设的实证比较。文章中提出的核心假设是 Y0 ↔ Z 的传递。还有一个经典假设（Butts, 2016关于DID的平行趋势假设；以及Tchetgen 2013的COCA排秩假设），本文对此缺乏系统性的敏感性分析或假设检验。未来问题：能不能设计一个统计检验，来区分数据是支持“平行趋势”、“排秩-COCA”、还是本文的“桥梁函数-COCA”？这是个被本文回避但非常重要的问题。
纵向设定下的推广。 本研究仅考虑了单期处理。如果将文章提出的“单代理控制”思路推广到纵向（多期处理）或动态处理（DTR）的ATE估计，桥梁函数的结构会更复杂，需要找到一个时序上的自我NCO（如滞后一期的结局作为当前NCO）。Ying等(2021) 已解决了纵向PCI，但纵向单代理COCA依然是完全空白。扎根点：论文的全部推导都基于单个处理状态A。

最后，基于你的“计算约束下的统计”的special interest和“高维U统计量的树宽/张量收缩”知识，可以留意一个观察：本文的全部估计推导都是基于GMM和矩条件——其实就是求解一系列线性方程或积分方程。如果你的树宽/树分解理论能被用来加速或近似这些积分核的求解，或许在这里能找到新的交叉点。

Maintained by 陈星宇 · Homepage · Source on GitHub