Proximal Causal Inference with Text Data¶

讲者: Katherine A. Keith
讨论人: Naoki Egami
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-11
主题: 因果推断
视频: https://youtu.be/uWHBJ35n4_8 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于 “因果推断中利用非结构化文本数据” 的子方向。该方向的核心追问是：当研究者有大量文本（临床笔记、社交媒体帖子等）但混杂变量未被完整观测时，如何利用文本获得无偏的因果效应估计？

奠基与主流路线： 1. 假设文本包含可观测混杂：最直接的方法是假设研究者能直接从文本中提取出所有混杂变量C（如通过人工标注或预训练词嵌入/主题模型），然后使用标准backdoor adjustment或g-formula。这要求文本信息能被完整、准确地编码为结构化变量。代表性工作包括：Keith, Jensen, & O’Connor (ACL 2020)、Feder et al. (TACL 2022) 等。 2. 利用文本作为U的代理：另一个主要分支是假设文本是未观测混杂U的有噪声代理。Kuroki & Pearl (2014) 提出“效应恢复”（effect restoration）方法，需部分观测U（如人工标注）来训练监督文本分类器，然后用分类器的预测作为U的代理并通过测量误差校正公式调整ACE。Wood-Doughty et al. (2018) 将此流程推广到文本分类器。 3. Proximal Causal Inference：近年来发展出的更一般框架，允许使用两个代理变量（Z, W）来识别因果效应。Miao et al. (2018), Tchetgen Tchetgen et al. (2020), Liu et al. (2024) 建立了识别条件（conditional independence, completeness）和估计方程（proximal g-formula, 两阶段回归）。这允许多元处理、连续结果设置，且不需要U的部分观测。

当前frontier：上述方法各有不足。路线1受限于“文本信息能被完全编码”以及“高维混杂下的positivity”问题；路线2需要部分U观测，成本高且引入人工标注误差；路线3在结构化数据中很难找到满足识别条件（如W ⟂ A, Z ⟂ Y, W ⟂ Z | U）的现成代理变量。

这场报告的站位：报告提出的方法处于路线3的“文本代理”子分支，同时试图规避路线2（需要部分U观测）的限制。核心思想是：指定U（如“房颤”），用两个不同的零样本大语言模型（LLMs）在两个不同的预处理文本实例上生成代理Z和W，并确保这些代理“由设计满足”proximal的识别条件。这相当于将路线2和路线3的优势结合——无需监督标注、无需求助于结构数据中现成的、但可能不满足条件的代理变量。

二、最小内核 / 一个最简例子¶

符号与模型¶

可观测数据：对每个单元 i，观测到：
\(A_i\)：二值处理（0: 抗凝药, 1: 溶栓药）
\(Y_i\)：连续结果（患者健康评分，越高越好）
\(C_i\)：已观测混杂变量（如年龄、性别、疾病严重程度）
两段预处理文本 \(T_{i,1}, T_{i,2}\)（例如分别来自心超报告和护理记录，均早于A）
不可观测量：
\(U_i\)：二值未观测混杂（如是否患有房颤）
目标量（estimand）：平均因果效应 \(\text{ACE} = \mathbb{E}[Y(A=1) - Y(A=0)]\)

关键假设（本报告方法的核心）¶

充分混淆控制：{C, U} 构成关于 (A, Y) 的充分后门调整集。
文本是事件的摘要：文本不直接引起其他变量，仅作为U的记录/表现。
U被指定但未观测：研究者知道U是什么（如“房颤”），但没有任何观测值。
文本的预处理性：文本早于处理A。
两段文本的条件独立性：\(W \perp Z \mid U, C\)，其中 \(W = \text{LLM}_1(T_1)\)，\(Z = \text{LLM}_2(T_2)\)。
W与A条件独立：\(W \perp A \mid U, C\)，Z与Y条件独立：\(Z \perp Y \mid A, U, C\)。
预测价值（completeness）：W, Z对U有预测性。

最简特例¶

设置(d=1)：设C为空（只有U是混杂）。U为二值（0/1），A, Y都是二值或连续，且满足上述假设。
步骤：
对每个患者，阅读其心超报告\(T_1\)，用LLM-1（如FLAN-T5）零样本提问“患者是否有房颤？”（输出“是”则W=1，否则W=0）。
阅读其护理记录\(T_2\)，用LLM-2（如OLMo）同样输出Z=1/0。
利用proximal g-formula的两阶段线性回归：
- 第一阶段：用W, C, A预测Z（或反之），得到“桥函数”估计\(h(W, C, A)\)。
- 第二阶段：将第一阶段估计代入，执行回归\(Y \sim A + h(W, C, A)\)，A的系数即为ACE的估计。
使用odds ratio heuristic（基于W, Z在C上的条件优势比∈[1, γ高]）做预检验，若通过则接受估计，否则停止分析。

最小想法：即使U从未被观测，只要有两段预处理文本和两个不同的零样本LLM，就能在适当条件下构建出满足proximal假设的代理，获得无偏的ACE估计。

三、报告主体：讲者讲了什么¶

[0:00:00-0:03:10] 背景与动机¶

讲者从“无未观测混杂”这一核心困难切入。
提出文本数据（临床笔记、社交媒体等）可作为未观测混杂U的丰富信息来源，但其直接融入现有因果方法存在困难。
引出两个“驱动方向”：supervised classifier proxy方法（需要部分U观测，可能不可行/不准确）和proximal causal inference（找结构化代理难）。

[0:03:10-0:11:15] 核心方法预览与理论基础¶

展示Proximal Causal DAG：U为未观测混杂，C已观测，Z, W为代理。
列出四个基本识别条件（P1-P4）：条件独立性W⟂Z|U,C; W⟂A|U,C; Z⟂Y|A,U,C; 以及completeness。
指出结构化数据中很难满足P2/P3（如心慌症状Z→Y，呼吸困难W→A）。
提出方法：“我们的方法”是用零样本LLMs从两段不同预处理文本构造成对代理，使proximal假设由设计保证。

[0:11:15-0:15:30] 前提假设与半合成实验设计¶

明确四项关键假设（详见第二部分）。
介绍MIMIC-III半合成实验：使用MIMIC-III的真实临床文本和真实C（年龄、性别）、U（ICD-9诊断如房颤、冠心病），但合成生成A和Y以保证ACE已知。
强调：这是评估方法的标准做法（同时保留文本的复杂性和真实性）。

[0:15:30-0:22:00] 方法管道（Pipeline）详解¶

步骤1-3：
过滤到预处理文本（删除出院总结等）。
按元数据切分：对每个患者，保留同时有两种笔记类别的实例（如心超+护理、护理+放射）。
使用两个不同LLM：FLAN-T5（来自Google）和OLMo（来自Allen AI），分别对两段文本做零样本预测。
步骤4-6：
零样本预测细节：简单prompt模板“问是否患有U”，要求只输出“Yes/No”。
为什么两个LLM？：理论不必要，但实践中单个LLM即使在不同文本上也常做出相同预测（预训练/指令调优导致强相关），从而违反条件独立性。
为什么两份不同元数据的文本？：若用同一份文本，则W和Z通过文本间接相关（Z←T→W），违反P1。
步骤7-8：
Odds ratio heuristic：作为诊断，从可观测量（条件于C）计算W和Z的条件优势比γ_{wz|c}。
理论推导：若W, Z都是U的正向预测器（概率P(W=1|U=1)>P(W=1|U=0)及类似条件），则γ_{wz|uc}=1，但可观测量γ_{wz|c} >1。因此设定一个域依赖的上界γ_high（实验中使用2），若γ_{wz|c} ∈ [1, γ_high]则满足要求；否则停止。
注意：这是定性的非参数可验证条件，不能直接替代真正的条件性独立检验，只能做一阶检查（falsification test）。
步骤9-10：
用两阶段线性回归估计proximal g-formula（线性假设便于聚焦于文本复杂度）。
步骤：数据分裂（Split1做第一阶段logistic回归预测W用C, A；Split2做第二阶段线性回归Y ~ A + Ŵ）。
Bootstrap 95%置信区间。

[0:22:00-0:34:00] 主要结果¶

结果1（成功案例）：U=“动脉粥样硬化（A-sis）”，预处理文本来自心超+放射，使用两LLM+heuristic通过 → 估计ACE接近真值1.3（置信区间包含真值）。单LLM+heuristic失败（他uristic检测到问题并停止）。直接使用W作为backdoor自变量（忽略U）的估计偏差明显。
结果2（失败案例）：相同的U，但文本来自护理+放射。Heuristic始终失败，对应ACE估计偏。Oracle分析显示：主要原因不是LLM预测精度差（准确率78%，比多数类73%好），也不是{C,U}无法充分控制，而是两段文本不满足条件独立性——许多患者同时有肺癌（未在C/U中），导致两段笔记都描述相关症状（呼吸困难、咳嗽），违反W⟂Z|U,C。
结果3（定量hyuristic的表现）：在所有设置中，heuristic失败时估计都偏，通过时无偏或接近无偏，显示其有效的“一阶警告”功能。

[0:34:00-0:39:00] 总结与未来工作¶

LLMs有帮助但不充分：零样本功能节省标注成本，但文本的条件独立性仍依赖域知识。
未来方向：拓展到政治演说等文本类型、数据驱动的方法选取γ_high、非线性proximal estimator、以及处理“proxy of proxy”（如人工标注本身有噪声）。

[0:39:00-0:55:00] 讨论（Naoki Egami）¶

“指定U”的要求：vs. 传统的文本编码全息方法（如词嵌入/主题模型），本方法显式要求研究者指定U，优势是强制研究者在DAG中定位U、防止误将调节/碰撞变量纳入。
文本分裂的严格性：Naoki指出T1,T2独立的条件可能比W⟂Z|U,C更强，可扩展为只要求W,Z的条件独立性，而非整体文本独立性。Roit回应：确实存在纯理论可能性——通过划分同一文本的词汇生成代理，但实践中分裂文本并保证词汇独立比现在的方法更难。
Odds ratio heuristic的通用性：Naoki指出其并非本方法特有，可复用至任何proximal设置。Roit补充：本heuristic的bound依赖“两代理都正向预测U”，这在零样本预测中有保证，但未必推广到所有代理设置。
后续推断的选择偏倚：Naoki提醒在通过/不通过heuristic后推断会引入后选偏。讲者未直接回应。

四、对应论文与开放问题¶

对应论文¶

Chen, Bhattacharya, and Keith. “Proximal Causal Inference with Text Data.” NeurIPS 2024.
讲者提及的arXiv编号/链接未出现在记录中，需要查证。论文名与幻灯片一致。
合作者：Jacob Chen, Rohit Bhattacharya（可能与讲者Katherine Keith同属Williams College/UMass？注意：封面写的是Rohit Bhattacharya，但讨论中提到“Rohit”是BC/健康领域合作者，待核实）。
替代/背景论文（本报告未直接引用，但领域公认）：Miao et al. (2018) JRSS-B; Tchetgen Tchetgen et al. (2020) Biometrika; Liu et al. (2024) JASA.

开放问题（每条基于转写具体段落）¶

连续值U的扩展：
依据：转写 [0:47:00-0:50:00] 讨论者Naoki和讲者暗示方法可推广到连续U（如政治意识形态）。声称分类任务限制当前能有效处理二值问题。
待解决：如何设计零样本LLM prompt与提取方案，使其能输出连续预测而非离散答案？连续的预测与consistency/completeness条件的兼容性？
Odds ratio heuristic的上界选择问题（数据驱动 vs. 域知识）：
依据：转写 [0:27:00-0:28:00] 讲者说明上界γ_high是“域特定的”，实验中设2。Naoki在讨论中提出：当W,Z对U的预测很强时，大γ_high可能包含强混杂而非遗漏未观测变量，反之亦然。这是一个本质性悖论。
待解决：能否设计一个统计检验（如基于bootstrap的分步选择），或引入贝叶斯/敏感性分析？
非线性proximal estimator的文本适配：
依据：转写 [0:29:00-0:30:00] 讲者明确线性假设是当前主要局限，指出需拓展到非参数/半参数方法如Mastouri et al. (2021)。
待解决：如何将零样本LLM的预测（离散或连续）作为输入，适配非线性估计（如双机器学习、核方法）？如何调整heuristic以适配非线性？
后选择推断（post-selection inference）问题：
依据：转写 [0:53:00-0:55:00] 讨论者Naoki提出：“如果我们在heuristic通过后才做推断，这是否会扭曲下游推断？”讲者未正面回应。
待解决：这是一个经典的统计问题——检验+后续估计的联合推断。是否可能设计一个有效的随机分割或folklore correction来保持覆盖水平？
与其他文本编码方法的比较与组合：
依fr据：转写 [0:51:00-0:53:00] 讨论者Naoki提出：传统方法试图从文本中提取所有潜在这混杂（高维主题/嵌入），而本方法指定一个已知U。如何决定哪个方法更合适？能否结合（先全自动提取后自动筛选U）？
待解决：理论上是否可构造一个两阶段方法——第一阶段用文本编码器提取候选U，第二阶段用proximal框架控制？这是否会引入新的识别条件？

注意： - 本报告中一切精确的界/值/结果（如ACE=1.3, γ_high=2） 均来源于幻灯片及讲者明确陈述，不能保证无口语听写误差，建议对照原文/代码核实。 - 合作者具体所属机构（Williams vs. UMass vs. BC）有待论文自查。

Maintained by 陈星宇 · Homepage · Source on GitHub