跳转至

The synthetic instrument: From sparse association to sparse causation

讲者: Linbo Wang
讨论人: Zijian Gu o
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-10-28
主题: 因果推断
视频: https://youtu.be/VZh13Cy7WDM · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2304.01098 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告位于 「高维暴露 + 未观测混杂」 的因果推断子方向,具体聚焦于 「多重暴露(multiple exposures)下,仅靠稀疏性假设能否识别并估计因果效应」

该子方向的根本追问是:在 p 个暴露 X₁,...,Xₚ 和结果 Y 之间,存在未观测混杂因子 U(潜变量)——这是经典场景,一般需要 IV(工具变量)、阴性对照、或无混杂假设才能识别。但这里研究者有一个「弱」替代假设:只有少数暴露对 Y 有因果效应(稀疏因果,sparse causation),并不假定我们知道哪些暴露是零效应的。

奠基与主流路线: - 经典工具变量(IV)(e.g., 两阶段最小二乘,~100年历史):每个暴露需要一个有效的工具变量,对 p 个暴露需要 p 个 IV,实践中很难获得且数目往往不够([~0:09])。 - 阴性对照处理(Negative Control Treatment)[~0:11]:知道哪些处理是零效应(已知 Q 个零效应),但与讲者场景矛盾——研究者想「发现」哪些是零效应,而非预知。 - 密集混杂 / 谱分解方法(e.g., Bühlmann, Peter? 或 Dümbgen? 由讨论者 Zijian Gu 引用):假设 U 密集影响所有暴露,然后通过奇异值分解去除前几个主成分来「去混杂」。与本文关键区别:谱分解方法对 YU 的关系有更多结构假设(通常是线性的),且不依赖稀疏因果。 - 多无效 IV 下的投票策略(e.g., Guo 2018 JASA paper by Z. Guo? 讨论者提及)[~0:14]:假设多数 IV 有效但不知哪些,用投票选出共识。与报告的投票思想直接相通,但报告处理的是 p 个暴露、q 维 U 的「多重暴露 + 因子模型」场景。

当前 frontier / 报告站在哪: - Linbo Wang 团队[arXiv 2304.01098] 的工作将稀疏因果假设(只有少数暴露真有因果效应)与因子模型(X = ΛU + εₓ)结合,提出 合成工具变量(Synthetic Instrument) 框架。 - 核心主张是:当因果效应的 L₀ 范数 ≤ p - q - 1 时,因果效应可识别(且可检验);并提供简单的两步估计(第一阶段构造 p-q 个合成 IV,第二阶段 L₀ 惩罚的 2SLS)[~0:12]。 - 与主流路线的比较:比常规 IV 更省(不需要外部 IV,所有 IV 来自暴露自身);比阴性对照更弱(不需要指定哪些为零效应);比谱分解方法更灵活(允许 Y 与 U 非线性关系,因子模型仅需 εₓ ⟂ U)。

二、最小内核 / 一个最简例子

模型(线性结方程模型 + 因子模型,p=3, q=1):

X = (X₁, X₂, X₃) 是三维暴露向量,Y 是标量结果。存在一维未观测混杂因子 U。模型为:

  • Xⱼ = λⱼ·U + εⱼ (因子模型),j=1,2,3
  • Y = X₁·β₁ + X₂·β₂ + X₃·β₃ + βₓ·U + e (e 为独立误差)。

可观测数据:只有 (X₁, X₂, X₃, Y)U 完全不可观测。参数 βⱼ 是因果效应(对角加性)。λ=(λ₁,λ₂,λ₃) 是因子载荷,γU 对 Y 的效应(也不失一般性可设 γ=1)。

核心假设稀疏因果——β 的 L₀ 范数 ≤ 1,即 β₁,β₂,β₃ 中至多一个非零。无假设关于 U 的分布或影响形式(除线性外,但可被推广)。

例子:假设 β₁ ≠ 0, β₂ = 0, β₃ = 0(但研究者不知)。目标:只凭 (X₁,X₂,X₃,Y) 和稀疏因果假设,能不能估计 β₁

讲者的核心思路(投票+合成 IV) 可示意如下:

  1. 投票策略(专家集)
  2. 专家1:假设 β₁ = 0,则 X₁ 成为「已知零效应的阴性对照」。由于 q=1,这个信息足以解出 β₂β₃(三个方程三个未知数:β₂,β₃,γ)。
  3. 专家2:假设 β₂ = 0,解得 β₁β₃
  4. 专家3:假设 β₃ = 0,解得 β₁β₂
  5. β₁ ≠ 0, β₂=0, β₃=0,所以专家2和专家3是“正确”的,它们给出的 β₁ 估计一致;专家1是错误的,给出不同值。多数投票即可选出真实效应。

  6. 合成工具变量(避免枚举投票)

  7. 用因子模型估计 λ̂₁,λ̂₂,λ̂₃
  8. 构造 Z₁₂ = X₁ - (λ̂₁/λ̂₂)·X₂。由于 X₁ = λ₁U+ε₁X₂ = λ₂U+ε₂,所以 Z₁₂ = ε₁ - (λ₁/λ₂)·ε₂U 被抵消。同理 Z₁₃
  9. Z₁₂Z₁₃ 仅由 ε₁,ε₂,ε₃ 组成,而 εⱼ ⟂ U,所以 Z₁₂Z₁₃ 与 U 无关,因此是有效的 IV(不符合排除限制条件的除外,但若对应的暴露 X₂X₃ 无因果效应,则 IV 有效)。
  10. 然后用两阶段最小二乘:第一阶段,将 X₁,X₂,X₃Z₁₂,Z₁₃ 回归得 ;第二阶段,将 Y 回归(加稀疏约束 L₀ ≤ p-q-1 = 3-1-1=1),即 L₀ 惩罚。
  11. 因为只有 β₁ ≠ 0,所以最稀疏的 2SLS 解应恰好选出真效应。

三、报告主体:讲者讲了什么

[0:06–0:08] 引入动机:鼠基因表达与体重

  • 一个生物学家Zoe(虚构)想从 300 只鼠、~3000 个基因中找到调控体重的重要基因(稀疏因果)。跑LASSO得到的结果受未观测混杂(饮食、活性等)影响,稀疏关联 ≠ 稀疏因果
  • 举出混杂会导致“密集”假关联,使LASSO不适用。

[0:08–0:12] 正式设定:多重暴露 + 未观测混杂,线性SEM

  • 模型:X = (X₁,…Xₚ)Y 标量。Uq 维潜变量(q < p)。
  • 线性结构方程:Xⱼ = λⱼᵀU + εⱼY = Xᵀβ + γᵀU + e
  • 稀疏因果假设β 中只有少数(s)非零。且 U 对 X 影响一般密集(即 λ 矩阵的行在典型假设下满秩)。

[0:12–0:14] 两个主要结果(高层)

  • Result 1 (识别条件)β 可识别当且仅当 ‖β‖₀ ≤ p - q - 1(即至少 q+1 个效应为零)。
  • 必要性:如果只有 q 个零效应,则对应已知阴性对照情形,需知识别哪一个;这里是未知的,所以需要多一个零效应来克服“哪个?”。(与阴性对照区别明显)
  • Result 2 (估计):提供简单两步估计(合成 IV + L₀ 惩罚 2SLS),可一致估计 β。

[0:14–0:24] 核心直觉:投票策略(以 p=3, q=1 解释)

  • 三个「专家」各假设一个 βⱼ=0,然后解出其他两个效应和 γ。真效应 β₃≠0 时,专家1和2正确(假设的 β₁=0 或 β₂=0 是真的),专家3错(假设 β₃=0 是假的)。由于真效应只有一个非零,故至少两个专家正确——多数投票可选出真效应。
  • 推广:一般情形下,当总共非零效应 ≤ p - q - 1 时,所有假设 Q 个零效应为真的“部分”子模型的数目多,所以至少一半以上满足;使用优先级规则(priority rule)替代简单多数。

[0:19–0:21] 识别条件更深:p-q-1 是充要边界

  • 讲者强调:这个阈值(s ≤ p-q-1)是最优的,且 可验证(可用数据检验你的效应是否稀疏到这个程度)——只要先用因子模型估计 q̂,再用 2SLS+L₀ 找最稀疏解 ŝ;若 ŝ ≤ p - q̂ - 1 则识别成立。

[0:21–0:24] 与倍/多重鲁棒(Multiply Robust)文献的联系

  • 讲者指出:这个框架本质上是多重鲁棒识别:我们并不指定哪 q 个暴露是零效应,而是知道至少 q+1 个为零——这意味着我们考虑的一整类因果模型都给出同样的识别式。
  • 对比经典 DML:DML 对观测数据模型做多重鲁棒;这里是对因果 / 未观测结构做多重鲁棒。

[0:22–0:27] 投票策略的局限:计算 + 统计困难

  • 当 p 很大、q 很大时,需要枚举 C(p, q) 个专家(p 选 q 的组合爆炸),并比较大量 p 维估计量,加上有限样本的估计误差——完全不现实

[0:27–0:29] 合成工具变量:核心思想

  • 关键新假设:对 X 做因子模型 X = ΛU + εₓ,并且独立误差 εₓ ⟂ U。(相比典型因子模型只要求不相关,这里是独立,从而 εₓ 与 U 的任何函数独立)。
  • 构造 IV:考虑两个暴露 X_jX_k,且假设 βₖ = 0。则 Z_{jk} = X_j - (λ̂_j / λ̂_k)·X_k = ε_j - (λ_j / λ_k)·ε_k,U 被抵消。该组合是 ε 的线性组合,因此与 U 独立,且由于 βₖ=0,Z_{jk} 仅通过 εⱼ 影响 Y,满足排除限制因此是有效 IV。
  • 一般情形:用因子模型估计 Λ̂ 后,得到 p-q 个线性无关的合成 IV(因为去掉 q 个 U 后,剩余独立分量)。

[0:29–0:38] 合成两阶段最小二乘 + L₀ 惩罚(完整算法)

  • Stage 1X̂ = P_Z X(其中 Z 是 p-q 维合成 IV)。
  • Stage 2minimize ||Y - X̂β||² 加上 ‖β‖₀ ≤ p - q(实际为 p-q-1,但用 ≤ p-q 边界可操作)。
  • 最优稀疏度通过交叉验证或 BIC 选择 Ŝ(估计的非零个数)。
  • 最终检查:Ŝ < p - q̂ - 1 → 报告 β̂;否则报告不可识别。

[0:33–0:37] 实证:鼠肥胖数据(来自 Li 2015 JASA?)

  • 数据:334 鼠,肝脏基因表达 ~2800 个,体重;有 1000+ SNPs 但被忽略(以展示不需要遗传 IV)。
  • 过程:因子分析估计 q̂=3;合成 IV 选出 5 个基因(Ŝ=5)。
  • 识别条件检查:5 ≪ 2800 - 3,非常容易满足。
  • 基因 1(IGFBP2):与孟德尔随机化结果重叠,已知有抗肥胖效应;其他三个有文献支持方向;一个新基因。

[0:39–0:45] 讨论扩展:非线性 Y 与非线性因子模型

  • 合成 IV 思想可直接推广到:
  • Y 与 X 的非线性关系(如单指数模型、GLM、可加模型)——因为 IV 方法本身擅长处理任意形式的 Y|X,U 关系。
  • 非参数因子模型:寻找某个 f(X) 使得 f(X) ⟂ U(即去掉 U 的影响)。讲者表示当前不知道一般方法,但视为未来方向。

[0:45–0:50] 讨论环节:Zijian Gu 的两个问题 + 讲者回应

讨论者问题 讲者回应
(1) 与密集混杂 + 谱分解方法(如特别解耦,specific deconing by Bühlmann & Dümbgen?)比较
为什么不用先估计 Û 然后加入回归?
① 方案 Û 方法:只在 Y 与 X 线性且 Y 与 U 任意(非线性也 OK)时有效。但若 Y 与 X 线性,则 Û 方法仍能一致;若 Y 与 X 非线性(如指数响应),Û 方法将不一致,而合成 IV(非参数 IV)仍适用。② 模拟对比:SIV 更稳健。③ 对因子模型假设的鲁棒性:若 λ 矩阵有一些零行(某些 X 无 U 影响),SIV 会自动把那些 X 变成 IV,仍正确识别。
(2) 推断(置信区间):合成 IV 含模型选择(选哪些 βⱼ=0),导致后选择推断问题 讲者承认后选推断是关键挑战,并指出该方法对应多无效 IV 下“局部无效阴性对照处理”情景——可借助稳健 IV 推断文献(如 Gu 使用的均匀有效 CI)来构建后选有效的推断。讨论者与讲者提出可能合作。

四、对应论文与开放问题

(a) 对应论文
- 主论文:Tang, D., Kong, D., Wang, L. (2023). "The Synthetic Instrument: From Sparse Association to Sparse Causation". arXiv: 2304.01098.
- 配套 R 包SI(见报告页面 / 讲者网站)。
- 讨论者引用的相关文献(无法完全确认细节,但可查):
- Bühlmann & Dümbgen (2018?) on "efficient low-rank estimation" for dense confounding?
- Guo, Z. (2018?) JASA 上的 "Post-selection inference for invalid IV"?
- Li & Kens? (2015 JASA) 的 MR 分析小鼠肥胖数据。

(b) 开放问题(源自转写 + 讨论)

  1. 局部无效阴性对照 / 后选择推断(讨论者+讲者互动,[1:04–1:06]):
  2. 当某些零效应暴露的效应局部非零(随样本量趋向 0,如 βⱼ = O(1/√n)),合成 IV 的有效性如何在均匀框架下保证?这类似于多无效 IV 中的“局部无效工具变量”问题。

  3. 非参数因子模型与非参数合成 IV(讲者自提,[0:42–0:46]):

  4. X = f(U) + ε(f 非参数)时,如何构造一个 g(X) 使得 g(X) ⟂ U?这是比线性合成 IV 更难的非参数问题,目前未知解法。

  5. Q 的估计与伪因子模型(讨论者 + 讲者回应,[0:48–0:54]):

  6. 若因子模型假设(εⱼ ⟂ U)被替换为“仅不相关”时,识别/估计的鲁棒性如何?虽然因子载荷的估计有标准结果(PCA 等),但合成 IV 的有限样本性质在 εₓ 与 U 弱相关下尚未被研究。

  7. 与“统计-计算权衡”的联系

  8. 合成 IV 阶段需要做 L₀ 惩罚回归(是一个组合问题),但报告声称“可用现成软件高效求解”——这在实际高维场景下是否为真多项式时间?特别是在 p 数万、q 数十时,该方法的理论计算复杂度(是否在多项式时间内可精确求解)尚未被理清。对于对统计-计算权衡(特别是低度多项式的信息-计算缺口)感兴趣的研究者这或许是一个有趣的现实案例。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论