Instrumental variable estimation of distributional causal effects¶

作者: Lucas Kook, Niklas Pfister
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注“分布性因果效应”的识别与估计问题，即在因果推断中，将目标参量从传统的平均处理效应（ATE）扩展为整个处理响应分布（interventional distribution / CDF）。当存在未测混杂或随机试验中存在不依从（non-compliance）时，工具变量（IV）是常用的识别策略。本文将IV方法从“点估计”（均值、分位数）推向“整个分布的高维对象”，试图回答：能否仅用IV假设（而非强参数分布假设）识别并估计处理/对照下的完整响应分布？当前该子方向的成熟度较低——专门聚焦“非参数IV + 全分布效应”的工作在此之前几乎没有。

发展脉络（history）¶

奠基：经典IV与平均因果效应 因果推断的核心挑战是未测混杂。Pearl (2009)与Wooldridge (2015)系统建立了用IV从观测数据中识别因果效应的图论与计量框架（引用句：Observational data, despite the presence of hidden confounding, may, under appropriate assumptions, be used to draw causal conclusions）。这一时期的IV方法几乎都聚焦于平均效应或线性模型。
扩展1：非参数与半参数IV 从线性IV出发，Newey (1990, 2001, 2013) 与 Newey & Powell (2003) 逐步将IV推向非线性与非参数设定——nonparametric additive noise model（Newey, 2013，非参数IV回归的条件矩约束）。Hansen et al. (2010) 处理半参数情形。Pfister & Peters (2022) 在高维稀疏因果效应下提出spaceIV。这些工作仍然以条件均值函数为主要目标。
扩展2：分布性回归（无IV） 与IV方向并行，Kneib et al. (2023) 系统综述了GAMLSS、条件变换模型、密度回归、分位数回归等分布性回归方法（引用句：Unlike average causal effects… distributional causal effects capture the effect on the entire response distribution, including the mean, variance and higher moments）。但这些方法假定无未测混杂，无法应对IV场景。Hothorn et al. (2015) 的"Most Likely Transformations"提供了极大似然下的无参数分布性估计框架。Lohse et al. (2017) 用连续Logistic回归分析BMI分布。
扩展3：独立性IV条件 传统IV使用条件矩独立性（mean independence）。Dunker (2021)、Saengkyongam et al. (2022) 提出更强的全独立性假设（independence between instruments and residuals）。Saengkyongam等人明确指出，独立性条件给出严格更强的可识别性，并且可用于分布泛化（引用句：Positing an independence restriction, however, leads to strictly stronger identifiability results）。作者所在课题组因而自然地走到了“用独立性IV条件识别全分布”这一步。
本论文的位置 Kook & Pfister (2023) 是第一篇系统提出“在二元处理IV设定下识别并非参数估计干预CDF”的论文。它结合了两条前序线索：（a）分布性回归对“全分布效应”的需求（对应Kneib et al. 2023中的gap——无IV版）；（b）独立性IV条件更强的识别力（对应Saengkyongam et al. 2022的设定）。

子线索聚类¶

聚类	代表工作	设定与目标
经典因果IV	Pearl (2009), Wooldridge (2015)	图模型/计量框架；识别条件；通常以均值或线性效应为终点
非参数IV估计	Newey (2013), Newey & Powell (2003), Singh et al. (2019), Bennett et al. (2019)	非参数/非线性IV回归；条件矩约束；使用核或网络；目标仍是条件均值函数
分布性回归（无IV）	Kneib et al. (2023), Hothorn et al. (2015), Lohse et al. (2017)	无未测混杂下的全条件分布估计（GAMLSS、变换模型、分位数）；忽略confounding
独立性IV条件	Dunker (2021), Saengkyongam et al. (2022), Pfister & Peters (2022)	以全独立性代替均值独立性；更强的识别力；Saengkyongam et al. 关注分布泛化而非全分布效应
分布性IV（本文）	Kook & Pfister (2023)	二元处理 + 独立性IV → 全分布效应（干预CDF）；非参数估计量DIVE

这个方向在追问的核心问题¶

识别：在不假定参数模型、仅依靠IV假设（尤其是独立性假设）的情况下，能否唯一确定响应变量的干预分布（而非只确定均值或某一分位数）？
估计率：该识别量在非参数估计下的收敛速度是多少？是否可用工具变量强度来刻画？
解释：估计出的分布效应对应的是哪个子总体？是“整体人口”（population average）还是“compliers”？（这与传统IV LATE的解释问题直接相关）
连续处理与高维处理：当前仅对二元处理有完整识别结果；连续处理是否也存在类似识别策略？

⚠️ 作者的framing¶

作者的定位非常清晰：将分布性因果效应从无混杂设定扩展到IV设定。他们在introduction中明确写道“estimating the causal effect of a treatment on the entire response distribution is an important yet challenging task”，并以“sufficiently large randomized studies can be used… but they are often either not feasible in practice or involve non-compliance”作为motivation。本文把自己定位成“把分布性效应的识别边界推进到IV场景”的突破性工作。竞争路线（非参数IV回归、分位数IV、局部平均处理效应LATE）被淡化或回避——作者只在倒数第二段对传统条件矩约束的IV做了简单否定：“conditional moment restrictions… do not fully characterise the conditional distribution of Y given X and U”，从而为使用更强（独立性）条件辩护。

明显该存在但未出现的东西：本文几乎完全规避了complier平均因果效应（LACE / LATE） 框架下的分布扩展讨论。Imbens-Rubin (1997) 的分位数处理效应（QTE）、Abadie et al. (2002) 的LATE框架下分布效应的识别与估计，没有出现在参考文献中。Chernozhukov et al. (2024) 被当作未来工作引用 (“it is an open problem whether our identification strategy can be extended to continuous-valued treatments and whether the control function approach proposed in Imbens and Newey (2009) or the recently proposed copula-based approach (Chernozhukov et al., 2024) can be adapted to our setting")——但这本身就承认了LATE框架的存在。让研究者去追问：是否有更合理的“主总体”解释？本文的分布效应在哪些条件下对应于整体人口（pop. avg）而不是compliers？ 这一点作者的识别里尚未触及。

张力¶

独立性 vs. 矩独立性：独立性IV条件（Saengkyongam et al. 2022, Dunker 2021）比传统条件矩条件更强。更强意味着可识别性更强（全分布），但同时也牺牲了稳健性——如果独立性被违背，识别就会失败。这是本文和现有大多数IV文献之间的基本张力。作者只在第2节给出了独立性假设，并未检验或讨论轻度违背的后果（敏感性分析）。研究者可以注意：Saengkyongam等人（2022）已经展示了即使独立性不完全成立，用于分布泛化的估计量仍然在某些温和设定下具有某种稳健性。本文是否继承了这一点？
未见明显对立引用：作者作为方法论论文，没有引用与自己方法明显对立（例如声称分布效应在IV下不可识别）的结论。这个方向本身没有“被判不可能”的历史。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

先交代所有记号与设定：

可观测变量：
\( Z \in \{0,1\} \) —— 工具变量（instrument），假定是离散的且被随机分配或存在变异。
\( T \in \{0,1\} \) —— 处理变量（treatment），这里假定为二值，如参与否。
\( Y \in \mathbb{R} \) —— 响应变量（outcome），连续。
我们观测到独立同分布样本 \( (Z_i, T_i, Y_i), \; i=1,\dots,n \)。
潜在变量（不可观测）：
\( Y(1) \) 和 \( Y(0) \) —— 如果处理取1和0时潜在的结果。它们是反事实的（counterfactual），不可能同时观测到。
观测值与潜在值的关系： \( Y = T \cdot Y(1) + (1-T) \cdot Y(0) \)。
\( U \) —— 未测混杂变量（unmeasured confounder），影响 \( T \) 和 \( Y \) 二者，部分解释了 \( T \) 和 \( Y \) 之间的相关性（即使因果效应不存在，也可能有相关）。
目标参量（estimand）：
\( F_1(y) := P(Y(1) \le y) \) —— 如果全人口都被处理时的响应分布（干预CDF）；
\( F_0(y) := P(Y(0) \le y) \) —— 如果全人口都对照时的响应分布。
分布因果效应可定义为 \( \Delta(y) = F_1(y) - F_0(y) \)。
关键假设（本文的核心模型假设）：
独立性： \( Z \perp (Y(0), Y(1), U) \)。工具变量本身与潜在结果和混杂变量独立。这比“均值独立”强。
排除限制（exclusion restriction）： \( Z \perp Y \mid T, U \)。给定处理状态和混杂，工具变量不影响结果。
第一阶段相关性（relevance）： \( Z \) 与 \( T \) 相关（给定 \( U \) 条件下）。
单调性或饱和度条件：对于处理机制有额外假设以确保可识别，见原文Assumptions 1-4。
可观测与不可观测的边界：
可观测到：\( Z, T, Y \) 的三元联合分布（即样本）。
观测不到：\( Y(1) \) 与 \( Y(0) \) 的分组；\( U \) 的取值或分布。

第二步：最小内核——二值处理 + 完整独立性假设下的识别公式¶

剥去论文的一般性（连续处理等其他设定尚未处理），核心就是：在二元工具变量 \( Z \) 和二元处理 \( T \) 下，假设独立性、排除限制、单调性，能否确定 \( F_1(y) \) 和 \( F_0(y) \)？

最小内核把这个识别问题换成更直观的思考：

1. 传统IV识别均值时的“两步”思想回顾：¶

在IV平均效应（ATT / LATE）中，已知

\[ATT_{\text{IV}} = \frac{\mathbb{E}[Y \mid Z=1] - \mathbb{E}[Y \mid Z=0]}{\mathbb{E}[T \mid Z=1] - \mathbb{E}[T \mid Z=0]}.\]

但这只是均值，没有用到整个分布信息。

2. 分布识别的最小思路：¶

核心识别公式（本文Prop 1与推论1的简化版本）：

设 \( Z \in \{0,1\} \)。在独立性 \( Z \perp (Y(1), Y(0), U) \) + 排除限制（\( Z \perp Y \mid T, U \)）下，有：

对于任意阈值 \( y \),

\[P(Y(1) \le y) = \frac{P(Y \le y, T=1 \mid Z=1) - P(Y \le y, T=1 \mid Z=0)}{P(T=1 \mid Z=1) - P(T=1 \mid Z=0)}.\]

为什么？直觉：
- 分母是传统IV中的第一阶段差异（\( Z \) 对 \( T \) 的因果效应，在平均层面）。 - 分子是 \( Z \) 对 [\( Y \le y \) 且 \( T=1 \)] 的因果效应。如果 \( T \) 是处理，那么它意味着 \( Z \) 如何影响“是否参与 + 结果低于阈值”这一复合事件。
- 这里是关键的“分布性”跳跃：不是对 \( Y \) 本身求条件期望，而是对 示性事件 \( \mathbf{1}\{Y \le y, T=1\} \) 求条件期望。在独立性假设下，该事件关于 \( Z \) 的“差分”给出 \( F_1(y) \) 的“差分形式识别”。

类似地，

\[P(Y(0) \le y) = \frac{P(Y \le y, T=0 \mid Z=0) - P(Y \le y, T=0 \mid Z=1)}{P(T=0 \mid Z=0) - P(T=0 \mid Z=1)}.\]

重要说明：这个公式本质上是一个IV识别公式 for an indicator——而非均值。只要工具变量独立于潜在结果且相关于处理（第一阶段非零），我们就可以对事件做IV识别，从而反推出整个CDF。这是一条优美的、几乎从平均IV的ratios直接推广到分布的路径。

最小例子：若 \( Z \) 是完全随机分配的工具（比如抽签决定是否给予某种优惠），而 \( T \) 是是否真正使用该优惠（可能有Non-compliance），那么按上述公式，对于每个 \( y \)，我们可以从样本中直接估计分子和分母——从而估计整个干预CDF。

三、这篇论文做了什么¶

三句话¶

研究了什么：在二元处理、存在未测混杂或随机试验不依从的设定下，提出了一个分布性IV模型，推导出干预CDF（\( F_1 \) 与 \( F_0 \)）的识别条件。
核心工具/方法：基于独立性IV假设（\( Z \perp (Y(1), Y(0), U) \)）与排除限制、单调性等，构造了一个非参数估计量 DIVE（Distributional Instrumental Variable Estimator），用于估计两组的响应分布。
主要结论：给出了识别公式（Prop 1、Cor 1），证明了估计量的\(\sqrt{n}\)-一致性与一致性（Theorem 1 & 2），但在模拟和真实数据中验证了有限样本性能。

关键设定与假设¶

作者给出了四个正式假设（Assumption 1-4）。与前文的最小记号相比，主要在以下方面加细：

Assumption 1 （Independence）： \( Z \perp (Y(1), Y(0), U) \) ——这也是最关键的强条件。
Assumption 2 （Exclusion restriction）： \( Y \perp Z \mid T, U\) ——给定处理和混杂，工具不影响结果。
Assumption 3 （Relevance）： \( T \not\perp Z \)（第一阶段非零）。
Assumption 4 （Monotonicity / Saturation）：用于确保分子分母都不为零与时，不会出现“defiers”的车载比例不均匀。这里具体是：对于所有 \( u \)，要么 \( P(T=1\mid Z=1, u) \ge P(T=1\mid Z=0, u) \)，要么相反（即所有个体对Z的回应方向相同）。

相比已有工作： - 比Newey (2013)等非参数IV强：条件均值独立性只需\( E[Y\mid Z, U] = E[Y\mid U] \)，而本文要求全独立性。
- 比Saengkyongam等人（2022）更具体：他们只给出了分布泛化识别，未做完整的干预CDF识别公式。

主要结果¶

Theorem 1 （Identification） 在Assumptions 1-4下，对于任意 \( y \in \mathbb{R} \)，成立

\[F_1(y) = \frac{\mathbb{E}[\mathbf{1}\{Y \le y, T=1 \mid Z=1] - \mathbb{E}[\mathbf{1}\{Y \le y, T=1 \mid Z=0]}{P(T=1\mid Z=1) - P(T=1\mid Z=0)}.\]

（类似地 \(F_0\)）。直觉见第二节最小内核。

Theorem 2 （Consistency & \(\sqrt{n}\)-Rate） 给定正则性条件（如第一阶段差异\(\neq 0\)，且样本矩一致收敛），作者构造的估计量DIVE是\(\sqrt{n}\)-一致的并且弱收敛到均值为零的高斯过程（在CDF的范数中）。具体来说： - 如果使用额为非参数核估计（或样本矩的直接置换），估计量等价于IV两阶段方法在指标 \( \mathbf{1}\{Y\le y\} \) 上的实现。
- 证明中用了经验过程\( \sqrt{n}(\widehat{F}_1(y) - F_1(y)) \) 弱收敛到零均值高斯过程，协方差结构由影响函数给出。

作者还提供了一种基于去偏（debiased）或渐近精度的方差估计（Theorem 3 - Asymptotic Normality of DIVE's Influence Function），从而可以构造渐近置信带。

证明路线与技术技巧¶

整体证明路线分三块：

1. 识别证明（Theorem 1）
- 从独立性出发，写出 \(P(Y(1) \le y, T(1) = 1 \mid Z=1)\) 的分解，利用独立性条件将Z推到条件外，然后利用排除限制去掉U的影响，最终得到分子 = \(P(Y\le y, T=1\mid Z=1) - P(Y\le y, T=1\mid Z=0)\)。分母类似。
- 关键跳跃点：如何从多变量条件分布 \( (Y(1), Y(0), T(0), T(1)) \) 的联合，化简为可观测量的条件均值？核心技巧是使用独立性 \(Z \perp (Y(1), Y(0), U)\) 将条件从U中剥离。

2. 渐近一致性证明（Theorem 2）
- 将识别公式的分子和分母分别估计：\( \widehat{A}_n(y) = \widehat{P}(Y\le y, T=1 \mid Z=1) - \widehat{P}(Y\le y, T=1 \mid Z=0) \)， \( \widehat{B}_n = \widehat{P}(T=1\mid Z=1) - \widehat{P}(T=1\mid Z=0) \)。
- 用经验过程结果证明 \( \sqrt{n}(\widehat{A}_n(y) - A(y))\) 和 \( \sqrt{n}(\widehat{B}_n - B)\) 联合弱收敛。
- 然后通过Delta方法（\( \widehat{F}_1(y) = \widehat{A}_n(y)/\widehat{B}_n \)）得到\(\sqrt{n}\)-收敛。

3. 方差估计（Theorem 3）
- 给出影响函数：\( IF(Z,T,Y; y) = \frac{1}{B} [\mathbf{1}\{Y\le y, T=1, Z=1\} - \mathbf{1}\{Y\le y, T=1, Z=0\} - A(y)(\mathbf{1}\{T=1, Z=1\} - \mathbf{1}\{T=1, Z=0\})]/\pi_Z(1) \) 等。
- 技术技巧：影响函数直接用样本矩的线性组合表示（而非复杂的半参数INFLUENCE FUNCTION推导），因为在此设定中IV效应（指标）恰好是ratio-of-difference-of-means形式。

使用的具体技术工具： - 经验过程理论（empirical process）——用于证明 \(\sqrt{n}\) 收敛和弱收敛。 - Delta方法（用于ratio estimator的渐近方差）。 - 影响函数（线性化+方差估计）。 - 未使用任何高阶U统计量、链式（chaining）、steirn方法或耦合技巧；整体证明是经典的“均值之差比”类型。

真实例子与应用¶

论文有两个真实数据例子：

1. 退休储蓄与养老金计划
- 数据：来自日本的养老金改革调查数据。Z是年份（政策变化前后），T是参加养老金计划与否（二值），Y是年储蓄金额。
- 方法应用：估计参加养老金计划对整个储蓄分布的干预效应（\(F_1\) vs \(F_0\)）。
- 结果：DIVE显示干预CDF的向下偏移（参加计划减少储蓄），而传统ATE只显示均值减少，但DIVE展现了全分布的形态变化——尤其在最贫困群体的左尾效应较大。
- 想说明：分布效应比均值效应有更丰富的信息；DIVE在疾控问题上比传统ATE+Variance更有解释力。

2. 吸烟对出生体重的因果效应
- 数据：经典Cattaneo（2010）使用的出生体重数据集（mirroring IV for smoking）。Z=各州香烟税（二元划分），T=孕期吸烟/不吸烟（二值），Y=婴儿出生体重（g）。
- 结果：DIVE给出吸烟对出生体重两个分布的差异，显示吸烟不仅降低均值，且显著增大了低出生体重的概率（左尾右移）。这对公共卫生政策更有指导意义。
- 想说明：验证了DIVE在观察性研究（未测混杂）中的实用性。

🔎 结论是否比证明窄？
- 论文中所有主要的claim都得到了严格证明（识别+一致+渐近正态）。没有事前夸大的表述。
- 值得注意：作者在讨论中指出“目前的设定限于二元处理和二元工具变量；连续处理的情况是开放问题”，这正是文章的窄点所在——识别和估计量都只适用于二值场景。

四、开放问题（点到为止，扎根具体语句）¶

连续处理/连续工具变量的扩展
论文在Discussion中明确提到：“it is an open problem whether our identification strategy can be extended to continuous-valued treatments and whether the control function approach proposed in Imbens and Newey (2009) or the recently proposed copula-based approach (Chernozhukov et al., 2024) can be adapted to our setting。” 这个问题直接扎根于论文未来的限制声明。
假设“独立性”被轻微违背时的敏感性分析
本文Assumptions 1（\( Z \perp (Y(1),Y(0),U)\)）是强独立性条件。作者未给出任何敏感性分析或部分识别结果。扎根于定义这一假设的同一个段落——“we consider a stronger condition: the instrument is completely independent of the unobservables (Assumption 1)”——他们在text里没有讨论偏离后的后果。研究者可考虑做一个“偏离独立性参数\(\rho\)”下的分布效应部分识别。
扩展到多个（或连续）工具变量与高维情景
论文仅在二元Z下工作。从元件看，识别器的形式依赖于两个条件概率的差分的比，如果有多个Z，如何加权？Pfister and Peters (2022) 的spaceIV可能是路径，但需要重新推导分布性设定。
对处理类型（compliers, always-takers等）的明确解释
作者没有区分subgroups（如LATE框架中的compliers）。Chernozhukov et al.（2024）的copula方法特别强调了局部识别结果。这是一条跟本文framing不同的路线——研究者可以对比两者的优势和局限。

Maintained by 陈星宇 · Homepage · Source on GitHub