The synthetic instrument: From sparse association to sparse causation¶

讲者: Linbo Wang
讨论人: Zijian Gu o
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-10-28
主题: 因果推断
视频: https://youtu.be/VZh13Cy7WDM · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2304.01098 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告位于 「高维暴露 + 未观测混杂」 的因果推断子方向，具体聚焦于 「多重暴露（multiple exposures）下，仅靠稀疏性假设能否识别并估计因果效应」。

该子方向的根本追问是：在 p 个暴露 X₁,...,Xₚ 和结果 Y 之间，存在未观测混杂因子 U（潜变量）——这是经典场景，一般需要 IV（工具变量）、阴性对照、或无混杂假设才能识别。但这里研究者有一个「弱」替代假设：只有少数暴露对 Y 有因果效应（稀疏因果，sparse causation），并不假定我们知道哪些暴露是零效应的。

奠基与主流路线： - 经典工具变量（IV）（e.g., 两阶段最小二乘，~100年历史）：每个暴露需要一个有效的工具变量，对 p 个暴露需要 p 个 IV，实践中很难获得且数目往往不够（[~0:09]）。 - 阴性对照处理（Negative Control Treatment）[~0:11]：知道哪些处理是零效应（已知 Q 个零效应），但与讲者场景矛盾——研究者想「发现」哪些是零效应，而非预知。 - 密集混杂 / 谱分解方法（e.g., Bühlmann, Peter? 或 Dümbgen? 由讨论者 Zijian Gu 引用）：假设 U 密集影响所有暴露，然后通过奇异值分解去除前几个主成分来「去混杂」。与本文关键区别：谱分解方法对 Y 与 U 的关系有更多结构假设（通常是线性的），且不依赖稀疏因果。 - 多无效 IV 下的投票策略（e.g., Guo 2018 JASA paper by Z. Guo? 讨论者提及）[~0:14]：假设多数 IV 有效但不知哪些，用投票选出共识。与报告的投票思想直接相通，但报告处理的是 p 个暴露、q 维 U 的「多重暴露 + 因子模型」场景。

当前 frontier / 报告站在哪： - Linbo Wang 团队[arXiv 2304.01098] 的工作将稀疏因果假设（只有少数暴露真有因果效应）与因子模型（X = ΛU + εₓ）结合，提出 合成工具变量（Synthetic Instrument） 框架。 - 核心主张是：当因果效应的 L₀ 范数 ≤ p - q - 1 时，因果效应可识别（且可检验）；并提供简单的两步估计（第一阶段构造 p-q 个合成 IV，第二阶段 L₀ 惩罚的 2SLS）[~0:12]。 - 与主流路线的比较：比常规 IV 更省（不需要外部 IV，所有 IV 来自暴露自身）；比阴性对照更弱（不需要指定哪些为零效应）；比谱分解方法更灵活（允许 Y 与 U 非线性关系，因子模型仅需 εₓ ⟂ U）。

二、最小内核 / 一个最简例子¶

模型（线性结方程模型 + 因子模型，p=3, q=1）：

记 X = (X₁, X₂, X₃) 是三维暴露向量，Y 是标量结果。存在一维未观测混杂因子 U。模型为：

Xⱼ = λⱼ·U + εⱼ （因子模型），j=1,2,3。
Y = X₁·β₁ + X₂·β₂ + X₃·β₃ + βₓ·U + e (e 为独立误差）。

可观测数据：只有 (X₁, X₂, X₃, Y)，U 完全不可观测。参数 βⱼ 是因果效应（对角加性）。λ=(λ₁,λ₂,λ₃) 是因子载荷，γ 是 U 对 Y 的效应（也不失一般性可设 γ=1）。

核心假设：稀疏因果——β 的 L₀ 范数 ≤ 1，即 β₁,β₂,β₃ 中至多一个非零。无假设关于 U 的分布或影响形式（除线性外，但可被推广）。

例子：假设 β₁ ≠ 0, β₂ = 0, β₃ = 0（但研究者不知）。目标：只凭 (X₁,X₂,X₃,Y) 和稀疏因果假设，能不能估计 β₁？

讲者的核心思路（投票+合成 IV） 可示意如下：

投票策略（专家集）：
专家1：假设 β₁ = 0，则 X₁ 成为「已知零效应的阴性对照」。由于 q=1，这个信息足以解出 β₂ 和 β₃（三个方程三个未知数：β₂,β₃,γ）。
专家2：假设 β₂ = 0，解得 β₁ 和 β₃。
专家3：假设 β₃ = 0，解得 β₁ 和 β₂。
因 β₁ ≠ 0, β₂=0, β₃=0，所以专家2和专家3是“正确”的，它们给出的 β₁ 估计一致；专家1是错误的，给出不同值。多数投票即可选出真实效应。
合成工具变量（避免枚举投票）：
用因子模型估计 λ̂₁,λ̂₂,λ̂₃。
构造 Z₁₂ = X₁ - (λ̂₁/λ̂₂)·X₂。由于 X₁ = λ₁U+ε₁，X₂ = λ₂U+ε₂，所以 Z₁₂ = ε₁ - (λ₁/λ₂)·ε₂，U 被抵消。同理 Z₁₃。
Z₁₂ 和 Z₁₃ 仅由 ε₁,ε₂,ε₃ 组成，而 εⱼ ⟂ U，所以 Z₁₂ 和 Z₁₃ 与 U 无关，因此是有效的 IV（不符合排除限制条件的除外，但若对应的暴露 X₂ 或 X₃ 无因果效应，则 IV 有效）。
然后用两阶段最小二乘：第一阶段，将 X₁,X₂,X₃ 对 Z₁₂,Z₁₃ 回归得 X̂；第二阶段，将 Y 对 X̂ 回归（加稀疏约束 L₀ ≤ p-q-1 = 3-1-1=1），即 L₀ 惩罚。
因为只有 β₁ ≠ 0，所以最稀疏的 2SLS 解应恰好选出真效应。

三、报告主体：讲者讲了什么¶

[0:06–0:08] 引入动机：鼠基因表达与体重¶

一个生物学家Zoe（虚构）想从 300 只鼠、~3000 个基因中找到调控体重的重要基因（稀疏因果）。跑LASSO得到的结果受未观测混杂（饮食、活性等）影响，稀疏关联 ≠ 稀疏因果。
举出混杂会导致“密集”假关联，使LASSO不适用。

[0:08–0:12] 正式设定：多重暴露 + 未观测混杂，线性SEM¶

模型：X = (X₁,…Xₚ)，Y 标量。U 是 q 维潜变量（q < p）。
线性结构方程：Xⱼ = λⱼᵀU + εⱼ；Y = Xᵀβ + γᵀU + e。
稀疏因果假设：β 中只有少数（s）非零。且 U 对 X 影响一般密集（即 λ 矩阵的行在典型假设下满秩）。

[0:12–0:14] 两个主要结果（高层）¶

Result 1 (识别条件)：β 可识别当且仅当 ‖β‖₀ ≤ p - q - 1（即至少 q+1 个效应为零）。
必要性：如果只有 q 个零效应，则对应已知阴性对照情形，需知识别哪一个；这里是未知的，所以需要多一个零效应来克服“哪个？”。（与阴性对照区别明显）
Result 2 (估计)：提供简单两步估计（合成 IV + L₀ 惩罚 2SLS），可一致估计 β。

[0:14–0:24] 核心直觉：投票策略（以 p=3, q=1 解释）¶

三个「专家」各假设一个 βⱼ=0，然后解出其他两个效应和 γ。真效应 β₃≠0 时，专家1和2正确（假设的 β₁=0 或 β₂=0 是真的），专家3错（假设 β₃=0 是假的）。由于真效应只有一个非零，故至少两个专家正确——多数投票可选出真效应。
推广：一般情形下，当总共非零效应 ≤ p - q - 1 时，所有假设 Q 个零效应为真的“部分”子模型的数目多，所以至少一半以上满足；使用优先级规则（priority rule）替代简单多数。

[0:19–0:21] 识别条件更深：p-q-1 是充要边界¶

讲者强调：这个阈值（s ≤ p-q-1）是最优的，且 可验证（可用数据检验你的效应是否稀疏到这个程度）——只要先用因子模型估计 q̂，再用 2SLS+L₀ 找最稀疏解 ŝ；若 ŝ ≤ p - q̂ - 1 则识别成立。

[0:21–0:24] 与倍/多重鲁棒（Multiply Robust）文献的联系¶

讲者指出：这个框架本质上是多重鲁棒识别：我们并不指定哪 q 个暴露是零效应，而是知道至少 q+1 个为零——这意味着我们考虑的一整类因果模型都给出同样的识别式。
对比经典 DML：DML 对观测数据模型做多重鲁棒；这里是对因果 / 未观测结构做多重鲁棒。

[0:22–0:27] 投票策略的局限：计算 + 统计困难¶

当 p 很大、q 很大时，需要枚举 C(p, q) 个专家（p 选 q 的组合爆炸），并比较大量 p 维估计量，加上有限样本的估计误差——完全不现实。

[0:27–0:29] 合成工具变量：核心思想¶

关键新假设：对 X 做因子模型 X = ΛU + εₓ，并且独立误差 εₓ ⟂ U。（相比典型因子模型只要求不相关，这里是独立，从而 εₓ 与 U 的任何函数独立）。
构造 IV：考虑两个暴露 X_j 和 X_k，且假设 βₖ = 0。则 Z_{jk} = X_j - (λ̂_j / λ̂_k)·X_k = ε_j - (λ_j / λ_k)·ε_k，U 被抵消。该组合是 ε 的线性组合，因此与 U 独立，且由于 βₖ=0，Z_{jk} 仅通过 εⱼ 影响 Y，满足排除限制因此是有效 IV。
一般情形：用因子模型估计 Λ̂ 后，得到 p-q 个线性无关的合成 IV（因为去掉 q 个 U 后，剩余独立分量）。

[0:29–0:38] 合成两阶段最小二乘 + L₀ 惩罚（完整算法）¶

Stage 1：X̂ = P_Z X（其中 Z 是 p-q 维合成 IV）。
Stage 2：minimize ||Y - X̂β||² 加上 ‖β‖₀ ≤ p - q（实际为 p-q-1，但用 ≤ p-q 边界可操作）。
最优稀疏度通过交叉验证或 BIC 选择 Ŝ（估计的非零个数）。
最终检查：Ŝ < p - q̂ - 1 → 报告 β̂；否则报告不可识别。

[0:33–0:37] 实证：鼠肥胖数据（来自 Li 2015 JASA？）¶

数据：334 鼠，肝脏基因表达 ~2800 个，体重；有 1000+ SNPs 但被忽略（以展示不需要遗传 IV）。
过程：因子分析估计 q̂=3；合成 IV 选出 5 个基因（Ŝ=5）。
识别条件检查：5 ≪ 2800 - 3，非常容易满足。
基因 1（IGFBP2）：与孟德尔随机化结果重叠，已知有抗肥胖效应；其他三个有文献支持方向；一个新基因。

[0:39–0:45] 讨论扩展：非线性 Y 与非线性因子模型¶

合成 IV 思想可直接推广到：
Y 与 X 的非线性关系（如单指数模型、GLM、可加模型）——因为 IV 方法本身擅长处理任意形式的 Y|X,U 关系。
非参数因子模型：寻找某个 f(X) 使得 f(X) ⟂ U（即去掉 U 的影响）。讲者表示当前不知道一般方法，但视为未来方向。

[0:45–0:50] 讨论环节：Zijian Gu 的两个问题 + 讲者回应¶

讨论者问题

讲者回应

(1) 与密集混杂 + 谱分解方法（如特别解耦，specific deconing by Bühlmann & Dümbgen?）比较
为什么不用先估计 Û 然后加入回归？

① 方案 Û 方法：只在 Y 与 X 线性且 Y 与 U 任意（非线性也 OK）时有效。但若 Y 与 X 线性，则 Û 方法仍能一致；若 Y 与 X 非线性（如指数响应），Û 方法将不一致，而合成 IV（非参数 IV）仍适用。② 模拟对比：SIV 更稳健。③ 对因子模型假设的鲁棒性：若 λ 矩阵有一些零行（某些 X 无 U 影响），SIV 会自动把那些 X 变成 IV，仍正确识别。

(2) 推断（置信区间）：合成 IV 含模型选择（选哪些 βⱼ=0），导致后选择推断问题

讲者承认后选推断是关键挑战，并指出该方法对应多无效 IV 下“局部无效阴性对照处理”情景——可借助稳健 IV 推断文献（如 Gu 使用的均匀有效 CI）来构建后选有效的推断。讨论者与讲者提出可能合作。

四、对应论文与开放问题¶

(a) 对应论文
- 主论文：Tang, D., Kong, D., Wang, L. (2023). "The Synthetic Instrument: From Sparse Association to Sparse Causation". arXiv: 2304.01098.
- 配套 R 包：SI（见报告页面 / 讲者网站）。
- 讨论者引用的相关文献（无法完全确认细节，但可查）：
- Bühlmann & Dümbgen (2018?) on "efficient low-rank estimation" for dense confounding?
- Guo, Z. (2018?) JASA 上的 "Post-selection inference for invalid IV"?
- Li & Kens? (2015 JASA) 的 MR 分析小鼠肥胖数据。

(b) 开放问题（源自转写 + 讨论）

局部无效阴性对照 / 后选择推断（讨论者+讲者互动，[1:04–1:06]）：
当某些零效应暴露的效应局部非零（随样本量趋向 0，如 βⱼ = O(1/√n)），合成 IV 的有效性如何在均匀框架下保证？这类似于多无效 IV 中的“局部无效工具变量”问题。
非参数因子模型与非参数合成 IV（讲者自提，[0:42–0:46]）：
当 X = f(U) + ε（f 非参数）时，如何构造一个 g(X) 使得 g(X) ⟂ U？这是比线性合成 IV 更难的非参数问题，目前未知解法。
Q 的估计与伪因子模型（讨论者 + 讲者回应，[0:48–0:54]）：
若因子模型假设（εⱼ ⟂ U）被替换为“仅不相关”时，识别/估计的鲁棒性如何？虽然因子载荷的估计有标准结果（PCA 等），但合成 IV 的有限样本性质在 εₓ 与 U 弱相关下尚未被研究。
与“统计-计算权衡”的联系：
合成 IV 阶段需要做 L₀ 惩罚回归（是一个组合问题），但报告声称“可用现成软件高效求解”——这在实际高维场景下是否为真多项式时间？特别是在 p 数万、q 数十时，该方法的理论计算复杂度（是否在多项式时间内可精确求解）尚未被理清。对于对统计-计算权衡（特别是低度多项式的信息-计算缺口）感兴趣的研究者这或许是一个有趣的现实案例。

Maintained by 陈星宇 · Homepage · Source on GitHub