The Categorical Instrumental Variable Model: Characterization, Partial Identification, and Statistical Inference¶

讲者: Yilin Song
讨论人: Desire Kedagni
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-01-13
主题: 因果推断
视频: https://youtu.be/GxiyMtWMRVE · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2405.09510 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告归属于 工具变量（IV）模型的识别与推断 这一分支，具体聚焦于当工具 (Z)、处理 (X)、结果 (Y) 均为分类变量时的偏识别 (partial identification) 问题。

该子方向的核心追问：在违背“可忽略性” (unconfoundedness) 的观察研究中，研究者依赖 IV 假设（独立性 + 排除限制）来识别因果效应。但即使 IV 有效，若不对“个体如何处理”施加单调性 (monotonicity) 这样的结构性假定，因果效应（如 ATE）通常不是点识别的（除了 LATE 在二元 IV 下的特例）。那么，其识别集 (identified set) 是什么形状？有没有比朴素边界（如 Manski 边界）更紧的边界？IV 假设本身是否可被观察数据检验（falsification）？

奠基工作与当前主流路线： - 二元 IV 的边界：Manski (1990) 给出了仅在均值独立下的自然边界；Balke & Pearl (1997) 在联合独立性 + 个体水平排除限制下给出了更紧的边界。这是该方向的经典起点。 - 向多值 IV 泛化：Richardson & Robins (2014) 在潜在结果框架下系统处理了多值 IV 的偏识别，但表述形式为复杂的约束集合，不具闭式 (closed-form) 简洁性。 - 随机集理论 (random set theory)：Beresteanu, Molchanov & Molinari (2012), Russell (2021), Luo & Wang (2017) 等用随机集的 Artstein 不等式描述识别集。该方法理论完备，但在实践中需要处理 J×2^M^K 量级（J 为处理水平，M 为结果水平，K 为处理水平）的约束，计算上可能困难。 - 检验 (falsification)：Pearl (1995), Bonet (2001), Wang et al. (2017), Kédagni & Mourifié (2020), Bhadane et al. (2025) 等研究用观察数据检验 IV 假设的方法。

这场报告站在何处： - 它给出了一个简单、闭式（一组线性不等式）的充要刻画，用于描述反事实分布（counterfactual distribution）的识别集。 - 这个刻画统一了五种不同的 IV 模型（从最强的 M1 到最弱的 M5，包括 SWIG 模型和潜变量模型），并证明了所有模型下的识别集相同。 - 它进一步通过刻画多面体的极点，找出了一套非冗余 (non-redundant) 的不等式，其个数为 O(Q·2^{M·K})，远小于随机集理论的 O(Q·2^{M^K})。 - 在推断部分，开创性地位用了有限样本的置信区域，基于对数似然比的 Chernoff 边界，将统计推断转换为一个凸优化问题，并给出同时覆盖数个 ATE 的置信区间。

有把握的关键工作（核实时请确认作者全名）： - Manski (1990) —— 基础边界。 - Balke & Pearl (1997) —— 二元 IV 的紧边界。 - Imbens & Angrist (1994) —— LATE 点识别，需要单调性假设。 - Richardson & Robins (2014) —— 多值 IV 的基础理论框架。 - Swanson et al. (2018) —— 对 IV 假设与结果的综合讨论。 - Kédagni & Mourifié (2020) —— 广义工具不等式。 - 报告提到的 Strassen (1965) 与 Koperberg (2024) —— 用于证明的有限空间版 Strassen 定理。

二、最小内核 / 一个最简例子¶

核心问题：对于一组<工具Z, 处理X, 结果Y> 都是分类变量的观测数据，在什么样的观察分布 P(X,Y|Z) 下，存在一个反事实分布 P(Y(x₁),...,Y(x_K)) 和一个结构分布 P(Z,X,Y(x₁),...,Y(x_K)) 使其满足 IV 模型（独立性 + 排除限制）？这个反事实分布可以被多好地推断出来？

符号（最简情况下）： - 观测数据：Z ∈ {1,...,Q} (工具), X ∈ {1,...,K} (处理), Y ∈ {1,...,M} (结果)。 - 潜在结果：Y(x) —— 当处理被设为 x 时的结果（一个潜在随机变量）。 - 反事实分布：P'(Y(x₁),...,Y(x_K)) —— 多维潜在结果的联合分布。这是想要识别/刻画的对象。 - 观察分布：P(X,Y|Z=z) —— 给定工具值 z 时观察到的处理和结果的联合分布（已知或可估计）。 - 结构分布：P(Z,X,Y(x₁),...,Y(x_K)) —— 包含潜在结果的完整概率分布，要求满足 IV 假设。

最简特例：报告动机案例本身提供了一个很好的特例： - Z（指导行动）: 逮捕(1), 劝解(2), 分开(3) (Q=3) - X（实际行动）: 逮捕(1), 劝解(2), 分开(3) (K=3) - Y（6个月内是否再度犯案）: 否(0)/是(1) (M=2)

核心思想（开胃菜）：仅凭一个 IV 模型，我们无法唯一地知道 P'(Y(x₁),Y(x₂),Y(x₃))，但可以把它限制在一个由一族线性不等式定义的多面体(polytope)内。每个不等式形如（定理1）：

P'(Y(x₁)∈V₁, ..., Y(x_K)∈V_K) ≤ Σ_{i=1}^K P(X=i, Y∈V_i | Z=z)，对所有z成立

其中 V_i 是 {1,...,M} 的一些子集。

为什么？—— 直观解释（二分图）：固定 Z=z。想象一个二分图，左边是反事实事件（9个节点，如“Y(x₁)=0, Y(x₂)=1”），右边是观察事件（6个节点，如“X=1, Y=0”）。如果某个反事实事件与某个观察事件在 IV 模型下是“相容”的，则连一条边。例如： - 反事实事件“Y(x₁)=0, Y(x₂)=1” 相容于观察事件“X=1, Y=0”（因为当 X=1 时，Y(1)=0）。

定理1所说的“为真 PARTIAL IDENTIFICATION 定义 POLYTOPE” 本质上就是：对于左边任何一个子集（尤其取笛卡尔积形式 V₁×V₂×...×V_K），左边的总概率不可能超过右边（观察到的部分） 那篇“与其相容”的所有观察事件的总概率（因为对每个个体，若她有一个潜在结果的组合，那么当她实际被分配到一个 X 时，观察到的（X,Y）必须是这个潜在组合的一个可被观察到的解码版本）。这个不等式的集合构成了对该反事实分布所有可能的现实化的一个充要刻画——即它们是紧的 (sharp)。

三、报告主体：讲者讲了什么¶

[0:00-0:05] 开场：主讲人 Yilin Song 与 F. Richard Guo 介绍合作者（Gary Chan 和 Thomas Richardson），感谢组织者。

[0:05-0:10] 动机：明尼阿波利斯家暴实验 (MDVE)： - 介绍实验背景（警察应答家庭暴力的指导与历史）[0:05:15-0:06:50]。 - 描述数据结构：Z（随机分配的指导措施：逮捕/劝解/分开）；X（警察实际采取的行动）；Y（6个月内是否再次犯案，二值）。[0:07:00-0:07:10]。 - 样本量 N=314；各组单元格频数如幻灯片所示 [0:07:10-0:07:20]。 - 讲者指出 ITT 分析 与 PP分析 的局限性——由于存在不依从性，ITT不反映实际策略效果，而PP的分析结果不一定有因果解释，因为不依从者可能具有与策略相关的特征 [0:08:20-0:08:50]。

[0:09-0:12] IV 框架与原有局限： - 指出现有研究面对多值工具/处理的普遍做法是“强行二元化”（例如，只比较劝解 vs 分开，丢弃分配逮捕的那些数据）。这是一个错误，因为这会条件化 X，打开 Z-X-U 的碰撞介，破坏 Z 的独立性 [0:11:10-0:12:20]。 - 引出本研究目标：对一般的分类 IV 模型（所有变量均分类型）给出刻画、偏识别和推断 [0:12:30-0:12:35]。

[0:12-0:13] 设置与目标： - 设定 Z∈[Q], X∈[K], Y∈[M]。 - 假设：通常的一致性条件、独立性条件（Z随机分配）、排除限制（个体水平）。 - 四个目标： - (1) 刻画反事实分布。 - (2) 进行 falsification 检验。 - (3) 偏识别 ATE 等线性泛函。 - (4) 构建置信区间 [0:13:00-0:13:55]。

[0:14-0:25] 主要理论结果（Yilin Song 讲述）： - 模型族 M₁ 至 M₅：定义了五种不同强弱程度的 IV 模型（M₁ 最强，包含个体水平排除限制 + 完全随机化；M₅ 最弱，使用潜变量模型）。指出本工作的核心结果——反事实分布的刻画——对这五个模型都成立，且产生的识别集相同 [0:18:00-0:18:10]。这是令人惊奇的——即使模型在结构上不等价，它们对联合反事实分布的约束最终相同。 - 定理 1（充要刻画）：给出闭式不等式族。对于每个 Z=z， P'(Y(x₁)∈V₁, ..., Y(x_K)∈V_K) ≤ Σ_i P(X=i, Y∈V_i | Z=z) 对所有非空子集 V_i ⊂ [M] 成立，且至少一个 V_i 是真子集。这个不等式族刻画了观察分布与反事实分布之间的所有兼容关系 [0:18:10-0:19:10]。 - 举例（K=2, M=3）：选取 V₁=[1,2,3], V₂=[1,2]，得到不等式 P'(Y(x₂)≠3) ≤ 1 - P(X=2, Y=3 | Z=z)。这是一条简单直观的边界 [0:23:00-0:23:40]。 - 二分图解释：展示如何将每个不等式可视化为二分图上的“从一组反事实节点出发，所有与其相连的观察节点”的概率之和的上界 [0:20:40-0:23:30]。 - 证明思路： - 必要性 (ϕ(Mi) ⊆ T): 容易，通过直接验证不等式 [0:24:20-0:24:30]。 - 充分性 (ϕ(Mi) ⊇ T): 更难。使用了有限空间版本的 Strassen 定理（Koperberg, 2024; Strassen, 1965）。这个定理相当于一个“耦合定理”：给定一个反事实分布 P' 和一个观察分布族 P(·|Z)，若它们满足上述不等式，则存在一个共同的潜在概率空间（包含 U）和一个 IV 模型结构，使得 P' 和 P(·|Z) 互为边际。这是该工作的核心理论贡献，避免了使用更复杂且产生过量不等式的随机集理论 [0:24:30-0:24:55]。 - 定理 2（非冗余不等式）：通过刻画多面体的极点（极点即多面体顶点），找出所有极小面（facets），从而抽出一套非冗余不等式。其形式为： - (1) 至少两个 Vk ≠ [M] 的情况，或 - (2) 恰好有一个 Vk 是单元素缺失的补集（如 Vk=[M]/{m}）且其他都取全集。 - 该套非冗余不等式的总数仅为 O(Q·2^{M·K})，远小于随机集理论的 O(Q·2^{M^K}) [0:26:00-0:27:50]。 - 关于 falsification：如果对每个 Z=z 由定理2定义的多面体没有公共交集，则模型被驳斥。这提供了一个可直接检验的充要条件 [0:28:00-0:28:50]。

[0:29-0:43] 统计推断（F. Richard Guo 讲述）： - 推断的目标：对 ATE τ_{k,k'} = E[Y(X=k)-Y(X=k')] 构建有限样本同时置信区间 [0:29:00-0:29:30]。 - 问题：对多分类变量，样本数量与类别数量之比 (n/N) 并不总大到使卡方近似可靠。幻灯片展示模拟结果：当 n/N=10 时，卡方近似在“稀疏”分布下向左偏，在“稠密”分布下向右偏，不适合做可靠推断 [0:32:30-0:34:30]。 - 解决方案：使用一个基于对数似然比检验 (LRT) 的 Chernoff 边界的有限样本结果（来自演讲者此前的工作）。该结果给出了一个不依赖于未知总体分布的时刻生成函数的上界 G(n,N)，从而可直接计算临界值。它构建了一个有限样本 (finite-sample) 且 凸 (convex) 的联合置信区域 [0:35:00-0:37:00]。 - 凸优化推断程序： - 决策变量：P_z（每一 Z 层下的真实观察分布）和 P'（反事实分布）。 - 约束：定理2的不等式 + 基于 Chernoff 边界的置信区域 + 概率单纯形。 - 对每个线性泛函（ATE），通过最小化/最大化该线性函数求解凸规划，得到其置信下限和上限[0:37:10-0:38:30]。 - 理论保证：随机模型成立时，以 ≥1-α 的概率，所有线性泛函的真实值同时被其相应区间覆盖。若任一区间为空，则发出模型被反驳的预警，且该预警的错误率 ≤ α [0:38:20-0:39:10]。 - 数据分析（MDVE 实证）： - 基于完整 3 水平 Z 与 3 水平 X。 - 报告两个 ATE：逮捕 vs 劝解，逮捕 vs 分开。 - “plug-in”点识别区间（忽略抽样误差，即直接投影多面体）均落在正的区域（表明逮捕似乎更优，与文献一致）。 - 95% 同时置信区间都包含 0，意味着效应不显著 [0:39:15-0:40:50]。 - 与不正确的“二元化”方法对比：指出“二元化”方法的区间不仅存在偏差（偏倚），而且与完全使用多值 IV 的结果相比，区间宽度差不大。核心结论：有了本方法，不再需要为凑成二元 IV 而丢弃数据 [0:42:30-0:43:10]。 - 程序运行非常快，仅需几秒钟，使用开源求解器（如 Gurobi）[0:41:00-0:41:20]。

[0:43-0:57] 讨论者 Desire Kedagni 的评论与提问（关键）： - 核心赞美：很欣赏定理1对五种模型的一致刻画，以及消除冗余不等式的作法 [0:53:00-0:54:00]。 - 关键问题1（对 LATE 的不同）：这五种模型对联合反事实分布P'(Y(x₁),...,Y(x_K)) 的识别集是否完全相同？回答是“是”。但 Desire 指出，当关注的参数是LATE（依从者平均处理效应） 时，情况可能不同。M₄（单世界独立性）不包含足够的关于处理反事实分布（X(z)）的信息，从而可能对 LATE 给出一个比 M₁ 更宽的识别集。因此，“所有模型产生相同识别集”这一结论，严格依赖于关注的参数是反事实联合分布本身；对于那些需要处理潜在类型（如依从者）的参数，这个结论不成立 [0:52:10-0:53:45]。 - 提问者自己的相关工作[Désiré Kédagni with a student] 给出了 M₁ 下 LATE 的紧边界，并指出现有 M₄ 与 M₅ 下对该参数没有类似结果。 - 关键问题2（广义工具不等式）：定理1能否推导出 Kédagni & Mourifié (2020) 的“广义工具不等式”？是可行的。反过来，能否证明这些广义工具不等式是“sharp”的？这似乎是一个开放问题[0:54:00-0:56:50]。 - 关键问题3（对 ATE 的边界）：二进制处理、多值工具下，仅使用边际反事实概率 P'(Y(x)=1) 的边界与使用联合分布约束的 ATE 边界相比，后者是否更紧？——这是一个有待实证验证的问题，演讲者没有直接回答，但暗示后者可能更紧 [0:57:00-0:58:30]。 - 比较问题：指出有一篇新论文 Luo & (likely "Quarters" =可能是 "quaternion"? 但更可能是某位作者姓氏的误听，待定) 也提出了消除冗余不等式的方法。建议作者在论文中明确二者的区别 [0:59:00-0:59:30]。

[0:59-1:02] 回应 & 结束： - Richard Guo 感谢讨论，并回应： - 承认处理潜在类型的子分析（如依从者）不在当前工作范围内，是很好的后续方向。 - 承诺会查阅 Luo & ... 的文献并补充对比。 - 对广义工具不等式的锐性问题，表示一时没有好主意，建议线下继续交流。 - 结束。

四、对应论文与开放问题¶

(a) 对应论文

这场报告明确对应以下论文： - 标题：The Categorical Instrumental Variable Model: Characterization, Partial Identification, and Statistical Inference - arXiv ID：2405.09510 (来自候选论文提示，核对幻灯片确认)。 - 作者：Yilin Song, F. Richard Guo, K. C. Gary Chan, Thomas S. Richardson (与幻灯片、转写完全一致)。 - 状态：截至报告日期(2026-01-13) 为 arXiv 预印本，暂不知发表状态。

(b) 开放问题

以下问题均扎根于讨论环节与报告内容的缝隙中。注意：这些问题是为了帮助研究者（你）思考后续工作方向，而非对本工作的评价。

LATE 识别集在五种模型下的等价性 (扎根于1:00:00-1:00:45):
描述：五个模型对联合反事实分布 P'(Y(x₁),...,Y(x_K)) 的刻画相同，但对于依从者局部平均处理效应（LATE） 这样的参数（涉及 X(z) 的反事实分布），它们的识别集是否依然一致？讨论者指出 M₄ (SWIG) 在信息上更弱，可能导致 LATE 的识别集更宽。是否存在一个对所有五种模型都成立的 LATE 的紧刻画？
为什么是开放问题：本工作只处理了反事实结果 Y(x) 的联合分布，没有涉及 X(z) 的反事实类型与 Y(x) 之间的依赖。这是一个完整的另一半。
广义工具不等式的锐度 (Sharpness) (扎根于0:56:50-0:57:20):
描述：Theorem 1 包含了 Kédagni & Mourifié (2020) 的“广义工具不等式”作为特例。反之，能否仅从广义工具不等式出发，证明它们本身也是尖锐的(sharp)（即刻画了所有可能的识别集）？这同时要求证明没有更有效的检验（tighter constraints）。
更高效的推断方法 (扎根于0:40:45-0:41:20):
描述：当前推断使用基于整体对数似然的 Chernoff 边界做有限样本置信区域，然后求解凸规划。虽然这在当前规模下可行（几秒钟），但 M,K 稍大（比如≥5）时，2^{MK} 级的不等式即使经过修剪也仍是 NP-hard 的量级。是否存在更高效的方式（例如，利用不同 Z 层的不等式冗余结构做并行化，或用一种数据驱动的方式近似置信区间，而非精确求解整个半无限规划）?
冗余消除方法的比较 (扎根于0:59:00-0:59:30):
描述：讨论者提到 Luo & (quaters?) (2025) 一篇新论文也处理了分类 IV 不等式冗余问题。这两种方法（基于极点刻画 vs. 基于...）的理论关系是什么？哪种方法在计算或几何结构上更优？能否建立一种统一视角？（此处的 open problem 是理论对比，而非方法论本身孰优孰劣）

Maintained by 陈星宇 · Homepage · Source on GitHub