跳转至

Proximal Causal Inference with Text Data

讲者: Katherine A. Keith
讨论人: Naoki Egami
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-11
主题: 因果推断
视频: https://youtu.be/uWHBJ35n4_8 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告属于 “因果推断中利用非结构化文本数据” 的子方向。该方向的核心追问是:当研究者有大量文本(临床笔记、社交媒体帖子等)但混杂变量未被完整观测时,如何利用文本获得无偏的因果效应估计?

奠基与主流路线: 1. 假设文本包含可观测混杂:最直接的方法是假设研究者能直接从文本中提取出所有混杂变量C(如通过人工标注或预训练词嵌入/主题模型),然后使用标准backdoor adjustment或g-formula。这要求文本信息能被完整、准确地编码为结构化变量。代表性工作包括:Keith, Jensen, & O’Connor (ACL 2020)、Feder et al. (TACL 2022) 等。 2. 利用文本作为U的代理:另一个主要分支是假设文本是未观测混杂U的有噪声代理。Kuroki & Pearl (2014) 提出“效应恢复”(effect restoration)方法,需部分观测U(如人工标注)来训练监督文本分类器,然后用分类器的预测作为U的代理并通过测量误差校正公式调整ACE。Wood-Doughty et al. (2018) 将此流程推广到文本分类器。 3. Proximal Causal Inference:近年来发展出的更一般框架,允许使用两个代理变量(Z, W)来识别因果效应。Miao et al. (2018), Tchetgen Tchetgen et al. (2020), Liu et al. (2024) 建立了识别条件(conditional independence, completeness)和估计方程(proximal g-formula, 两阶段回归)。这允许多元处理、连续结果设置,且不需要U的部分观测。

当前frontier:上述方法各有不足。路线1受限于“文本信息能被完全编码”以及“高维混杂下的positivity”问题;路线2需要部分U观测,成本高且引入人工标注误差;路线3在结构化数据中很难找到满足识别条件(如W ⟂ A, Z ⟂ Y, W ⟂ Z | U)的现成代理变量。

这场报告的站位:报告提出的方法处于路线3的“文本代理”子分支,同时试图规避路线2(需要部分U观测)的限制。核心思想是:指定U(如“房颤”),用两个不同的零样本大语言模型(LLMs)在两个不同的预处理文本实例上生成代理Z和W,并确保这些代理“由设计满足”proximal的识别条件。这相当于将路线2和路线3的优势结合——无需监督标注、无需求助于结构数据中现成的、但可能不满足条件的代理变量。

二、最小内核 / 一个最简例子

符号与模型

  • 可观测数据:对每个单元 i,观测到:
  • \(A_i\):二值处理(0: 抗凝药, 1: 溶栓药)
  • \(Y_i\):连续结果(患者健康评分,越高越好)
  • \(C_i\):已观测混杂变量(如年龄、性别、疾病严重程度)
  • 两段预处理文本 \(T_{i,1}, T_{i,2}\)(例如分别来自心超报告和护理记录,均早于A)
  • 不可观测量
  • \(U_i\):二值未观测混杂(如是否患有房颤)
  • 目标量(estimand):平均因果效应 \(\text{ACE} = \mathbb{E}[Y(A=1) - Y(A=0)]\)

关键假设(本报告方法的核心)

  1. 充分混淆控制:{C, U} 构成关于 (A, Y) 的充分后门调整集。
  2. 文本是事件的摘要:文本不直接引起其他变量,仅作为U的记录/表现。
  3. U被指定但未观测:研究者知道U是什么(如“房颤”),但没有任何观测值。
  4. 文本的预处理性:文本早于处理A。
  5. 两段文本的条件独立性\(W \perp Z \mid U, C\),其中 \(W = \text{LLM}_1(T_1)\)\(Z = \text{LLM}_2(T_2)\)
  6. W与A条件独立\(W \perp A \mid U, C\),Z与Y条件独立:\(Z \perp Y \mid A, U, C\)
  7. 预测价值(completeness):W, Z对U有预测性。

最简特例

  • 设置(d=1):设C为空(只有U是混杂)。U为二值(0/1),A, Y都是二值或连续,且满足上述假设。
  • 步骤
  • 对每个患者,阅读其心超报告\(T_1\),用LLM-1(如FLAN-T5)零样本提问“患者是否有房颤?”(输出“是”则W=1,否则W=0)。
  • 阅读其护理记录\(T_2\),用LLM-2(如OLMo)同样输出Z=1/0。
  • 利用proximal g-formula的两阶段线性回归:
    • 第一阶段:用W, C, A预测Z(或反之),得到“桥函数”估计\(h(W, C, A)\)
    • 第二阶段:将第一阶段估计代入,执行回归\(Y \sim A + h(W, C, A)\),A的系数即为ACE的估计。
  • 使用odds ratio heuristic(基于W, Z在C上的条件优势比∈[1, γ高])做预检验,若通过则接受估计,否则停止分析。

最小想法:即使U从未被观测,只要有两段预处理文本和两个不同的零样本LLM,就能在适当条件下构建出满足proximal假设的代理,获得无偏的ACE估计。

三、报告主体:讲者讲了什么

[0:00:00-0:03:10] 背景与动机

  • 讲者从“无未观测混杂”这一核心困难切入。
  • 提出文本数据(临床笔记、社交媒体等)可作为未观测混杂U的丰富信息来源,但其直接融入现有因果方法存在困难。
  • 引出两个“驱动方向”:supervised classifier proxy方法(需要部分U观测,可能不可行/不准确)和proximal causal inference(找结构化代理难)。

[0:03:10-0:11:15] 核心方法预览与理论基础

  • 展示Proximal Causal DAG:U为未观测混杂,C已观测,Z, W为代理。
  • 列出四个基本识别条件(P1-P4):条件独立性W⟂Z|U,C; W⟂A|U,C; Z⟂Y|A,U,C; 以及completeness。
  • 指出结构化数据中很难满足P2/P3(如心慌症状Z→Y,呼吸困难W→A)。
  • 提出方法:“我们的方法”是用零样本LLMs从两段不同预处理文本构造成对代理,使proximal假设由设计保证。

[0:11:15-0:15:30] 前提假设与半合成实验设计

  • 明确四项关键假设(详见第二部分)。
  • 介绍MIMIC-III半合成实验:使用MIMIC-III的真实临床文本真实C(年龄、性别)、U(ICD-9诊断如房颤、冠心病),但合成生成A和Y以保证ACE已知。
  • 强调:这是评估方法的标准做法(同时保留文本的复杂性和真实性)。

[0:15:30-0:22:00] 方法管道(Pipeline)详解

  • 步骤1-3
  • 过滤到预处理文本(删除出院总结等)。
  • 按元数据切分:对每个患者,保留同时有两种笔记类别的实例(如心超+护理、护理+放射)。
  • 使用两个不同LLM:FLAN-T5(来自Google)和OLMo(来自Allen AI),分别对两段文本做零样本预测。
  • 步骤4-6
  • 零样本预测细节:简单prompt模板“问是否患有U”,要求只输出“Yes/No”。
  • 为什么两个LLM?:理论不必要,但实践中单个LLM即使在不同文本上也常做出相同预测(预训练/指令调优导致强相关),从而违反条件独立性。
  • 为什么两份不同元数据的文本?:若用同一份文本,则W和Z通过文本间接相关(Z←T→W),违反P1。
  • 步骤7-8
  • Odds ratio heuristic:作为诊断,从可观测量(条件于C)计算W和Z的条件优势比γ_{wz|c}。
  • 理论推导:若W, Z都是U的正向预测器(概率P(W=1|U=1)>P(W=1|U=0)及类似条件),则γ_{wz|uc}=1,但可观测量γ_{wz|c} >1。因此设定一个域依赖的上界γ_high(实验中使用2),若γ_{wz|c} ∈ [1, γ_high]则满足要求;否则停止。
  • 注意:这是定性的非参数可验证条件,不能直接替代真正的条件性独立检验,只能做一阶检查(falsification test)。
  • 步骤9-10
  • 用两阶段线性回归估计proximal g-formula(线性假设便于聚焦于文本复杂度)。
  • 步骤:数据分裂(Split1做第一阶段logistic回归预测W用C, A;Split2做第二阶段线性回归Y ~ A + Ŵ)。
  • Bootstrap 95%置信区间。

[0:22:00-0:34:00] 主要结果

  • 结果1(成功案例):U=“动脉粥样硬化(A-sis)”,预处理文本来自心超+放射,使用两LLM+heuristic通过 → 估计ACE接近真值1.3(置信区间包含真值)。单LLM+heuristic失败(他uristic检测到问题并停止)。直接使用W作为backdoor自变量(忽略U)的估计偏差明显。
  • 结果2(失败案例):相同的U,但文本来自护理+放射。Heuristic始终失败,对应ACE估计偏。Oracle分析显示:主要原因不是LLM预测精度差(准确率78%,比多数类73%好),也不是{C,U}无法充分控制,而是两段文本不满足条件独立性——许多患者同时有肺癌(未在C/U中),导致两段笔记都描述相关症状(呼吸困难、咳嗽),违反W⟂Z|U,C。
  • 结果3(定量hyuristic的表现):在所有设置中,heuristic失败时估计都偏,通过时无偏或接近无偏,显示其有效的“一阶警告”功能。

[0:34:00-0:39:00] 总结与未来工作

  • LLMs有帮助但不充分:零样本功能节省标注成本,但文本的条件独立性仍依赖域知识。
  • 未来方向:拓展到政治演说等文本类型、数据驱动的方法选取γ_high、非线性proximal estimator、以及处理“proxy of proxy”(如人工标注本身有噪声)。

[0:39:00-0:55:00] 讨论(Naoki Egami)

  • “指定U”的要求:vs. 传统的文本编码全息方法(如词嵌入/主题模型),本方法显式要求研究者指定U,优势是强制研究者在DAG中定位U、防止误将调节/碰撞变量纳入。
  • 文本分裂的严格性:Naoki指出T1,T2独立的条件可能比W⟂Z|U,C更强,可扩展为只要求W,Z的条件独立性,而非整体文本独立性。Roit回应:确实存在纯理论可能性——通过划分同一文本的词汇生成代理,但实践中分裂文本并保证词汇独立比现在的方法更难。
  • Odds ratio heuristic的通用性:Naoki指出其并非本方法特有,可复用至任何proximal设置。Roit补充:本heuristic的bound依赖“两代理都正向预测U”,这在零样本预测中有保证,但未必推广到所有代理设置。
  • 后续推断的选择偏倚:Naoki提醒在通过/不通过heuristic后推断会引入后选偏。讲者未直接回应。

四、对应论文与开放问题

对应论文

  • Chen, Bhattacharya, and Keith. “Proximal Causal Inference with Text Data.” NeurIPS 2024.
  • 讲者提及的arXiv编号/链接未出现在记录中,需要查证。论文名与幻灯片一致。
  • 合作者:Jacob Chen, Rohit Bhattacharya(可能与讲者Katherine Keith同属Williams College/UMass?注意:封面写的是Rohit Bhattacharya,但讨论中提到“Rohit”是BC/健康领域合作者,待核实)。
  • 替代/背景论文(本报告未直接引用,但领域公认):Miao et al. (2018) JRSS-B; Tchetgen Tchetgen et al. (2020) Biometrika; Liu et al. (2024) JASA.

开放问题(每条基于转写具体段落)

  1. 连续值U的扩展
  2. 依据:转写 [0:47:00-0:50:00] 讨论者Naoki和讲者暗示方法可推广到连续U(如政治意识形态)。声称分类任务限制当前能有效处理二值问题。
  3. 待解决:如何设计零样本LLM prompt与提取方案,使其能输出连续预测而非离散答案?连续的预测与consistency/completeness条件的兼容性?

  4. Odds ratio heuristic的上界选择问题(数据驱动 vs. 域知识)

  5. 依据:转写 [0:27:00-0:28:00] 讲者说明上界γ_high是“域特定的”,实验中设2。Naoki在讨论中提出:当W,Z对U的预测很强时,大γ_high可能包含强混杂而非遗漏未观测变量,反之亦然。这是一个本质性悖论。
  6. 待解决:能否设计一个统计检验(如基于bootstrap的分步选择),或引入贝叶斯/敏感性分析?

  7. 非线性proximal estimator的文本适配

  8. 依据:转写 [0:29:00-0:30:00] 讲者明确线性假设是当前主要局限,指出需拓展到非参数/半参数方法如Mastouri et al. (2021)。
  9. 待解决:如何将零样本LLM的预测(离散或连续)作为输入,适配非线性估计(如双机器学习、核方法)?如何调整heuristic以适配非线性?

  10. 后选择推断(post-selection inference)问题

  11. 依据:转写 [0:53:00-0:55:00] 讨论者Naoki提出:“如果我们在heuristic通过后才做推断,这是否会扭曲下游推断?”讲者未正面回应。
  12. 待解决:这是一个经典的统计问题——检验+后续估计的联合推断。是否可能设计一个有效的随机分割或folklore correction来保持覆盖水平?

  13. 与其他文本编码方法的比较与组合

  14. 依fr据:转写 [0:51:00-0:53:00] 讨论者Naoki提出:传统方法试图从文本中提取所有潜在这混杂(高维主题/嵌入),而本方法指定一个已知U。如何决定哪个方法更合适?能否结合(先全自动提取后自动筛选U)?
  15. 待解决:理论上是否可构造一个两阶段方法——第一阶段用文本编码器提取候选U,第二阶段用proximal框架控制?这是否会引入新的识别条件?

注意: - 本报告中一切精确的界/值/结果(如ACE=1.3, γ_high=2) 均来源于幻灯片及讲者明确陈述,不能保证无口语听写误差,建议对照原文/代码核实。 - 合作者具体所属机构(Williams vs. UMass vs. BC)有待论文自查。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论