跳转至

Linear Structure of High-Level Concepts in Text-Controlled Generative Models, and the role of Causality

讲者: Victor Veitch
讨论人: Francesco Locatello
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-01-23
主题: 因果推断
视频: https://youtu.be/uA19kr95zG8 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向:用因果语言为预训练生成式模型(LLM / 文本到图像)中的“线性表示假设”提供严格的数学基础。

该方向追问的核心问题是:在高维表示空间中,语义概念(如“性别”“语种”)为什么以及如何以线性子空间(平行向量差)的形式出现? 这个现象的物理存在(词向量类比 · 线性探针 · 干预向量)自词嵌入以来就被广泛报道,但缺乏一个统一的数学定义与解释。

  • 奠基/主流路线
  • 经典词向量工作(Mikolov 2013, Pennington 2014)展示了“king – queen ≈ man – woman”类型的线性结构,但只发生在静态词嵌入上,且未解释为何这种结构会出现。
  • 后续在LLM(如GPT / LLaMA)上,多项实证工作(Alain & Bengio 2016;Conneau et al. 2018;Li et al. 2022)发现:在表示空间的任一方向上训练一个线性逻辑回归(“线性探针”),就能高精度地预测语义标签;用方向向量加上或减去表示甚至还能干预输出(“雄性→雌性”等)。然而三种现象(子空间平行、线性探测、干预操作)的关系完全不清——它们是同一个东西吗?
  • 当前frontier
  • 该报告(Veitch, 2024)是首次 将因果形式化引入线性表示假设:把语义概念定义为潜在+可干预的变量(“因果可分离性”),再证明子空间表示 ⇒ 线性探测表示子空间表示 ⇒ 干预表示 两个定理,从而统一三个现象。
  • 进一步,注意到软最大化模型(softmax)的不可识别性:表示空间的内积不是由训练目标决定的(任意可逆线性变换保持 logits 不变),因此欧几里得内积不必然有语义意义。报告提出因果内积(causal inner product)——要求因果可分离的概念正交——并在“词典词随机采样下独立”的假设下证明了可通过词汇协方差矩阵的逆来估计该内积。
  • 最后向文本到图像扩散模型的推广:证明得分表示(score representation) 自然具备算数组合性(arithmetic compositionality),即线性结构源于概率论本身结构,而非架构细节。

关键工作(有把握的)
- Park et al. (2023) “The Linear Representation Hypothesis and the Geometry of Large Language Models” —— 本报告主要对应论文,提出了因果内积与统一三个线性概念的定理。
- Wang et al. (2023) “Concept Algebra for (Score-Based) Text-Controlled Generative Models” —— 报告推广部分对应的论文,把线性子空间概念推广到扩散模型。
- 参考性比较:
- Nanda et al. (2023) “Concept Algebra via Causal Abstraction” ——方法不同但目标相近(用因果抽象理解概念线性结构)。
- 发言者提到的“disentanglement literature”(Locatello et al. 2019)——强调轴对齐(axis-aligned)的独立潜在因子,与本文的“连续几何”观点形成对比。

报告站在“把散装的线性表示实证碎片拼成一个因果推理框架”这条线上。


二、最小内核 / 一个最简例子

符号与设定

  • 可观测数据:输入 prompt x(如“he is the”),输出 token y(如“king”)。
  • 潜在概念:二元概念 W(如性别:male=0, female=1)和 Z(如语种:English=0, French=1)。概念是人为定义的、可干预的潜变量。
  • 分布设定x 定义一个条件分布 p(y | z, w),但观测时看不到 z, w
  • 因果可分离性:如果对于所有组合 (w, z),反事实 Y(w,z) 有定义,则 WZ因果可分离的(例如“性别”和“语种”显然可被自由干预)。
  • 两个表示空间
  • 嵌入表示:LLM 将序列 x 映射到向量 λ(x) ∈ ℝ^d(最后一层的隐层输出)。
  • 去嵌入表示:每个 token y 有其固定向量 γ(y) ∈ ℝ^d(softmax 层的权重矩阵的行)。

核心思想——用一个最简二元例子(d=2)说明

W = 性别(male/female),Z = 语种(English/French)。给定四对反事实词对:

词对(反事实,仅差W) 去嵌入差
king – queen γ(king) – γ(queen)
man – woman γ(man) – γ(woman)
roi – reine γ(roi) – γ(reine)
homme – femme γ(homme) – γ(femme)

子空间假设宣称:所有这四对差是近似平行的,定义了一个一维子空间 span(γ̄_W),其方向即为 W 的去嵌入表示。

同样,对于提示 x1 = “he is the”x2 = “she is the”(反事实差仅 W),嵌入差 λ(x1) – λ(x2) 应平行于某个嵌入表示 λ̄_W

报告的核心定理(对 d=2 这个例子直观显示): 1. 去嵌入表示 ⇒ 线性探测:任意句子 x 的嵌入 λ(x)γ̄_W 的内积正比于 log P(W=male | x) – log P(W=female | x)——所以一个线性逻辑回归(方向=γ̄_W)就能预测性别。 2. 嵌入表示 ⇒ 干预向量:若所有反事实提示对(如 “She is the” – “He is the”)平行于 λ̄_W,则把 λ̄_W 加到任意句子 x 的嵌入上,在孤立地把输出性别翻转大部分概率且不影响语种。 3. 因果内积统一两者:如果取一个内积 ⟨·,·⟩_C 使得因果可分离的概念(这里 “性别” 与 “语种”)正交,那么 λ̄_Wγ̄_W 的关系就是 Riesz 同构λ̄_W = ⟨γ̄_W, ·⟩_C)——即它们是对偶空间中的同一方向。


三、报告主体:讲者讲了什么

Section 0: 背景与动机 [0:06–0:12] - 把“生成式AI行为是涌现的”作为根本动机:训练代理目标(next-word prediction)→ 涌现出高级理解(翻译、数学)。需要科学地理解这些模型的内部过程,而非仅仅工程改进。 - 提出三个问题:① 什么是线性表示?② 为什么欧几里得几何会编码语义?③ 线性结构从哪里来?

Section 1: 三个现象 vs 一个定义 [0:12–0:19] - 子空间 notion(0:14–0:15):反事实词对的差平行(king–queen ∥ man–woman)。这是最早的观察。 - 测量 notion(线性探针)(0:15–0:17):用 logistic 回归(线性分类器)在激活上预测语义标签,居然奏效。 - 干预 notion(0:17–0:19):添加一个向量到句子的嵌入上就能改变输出的概念(king→queen)。 - 关键问题:这三个现象是同一个假设吗?不一定。

Section 2: 用因果语言定义概念 [0:19–0:21] - 把 LLM 的输出过程抽象成一个潜变量因果模型:prompt x ⇒ 定义分布 over 潜概念 (W, Z) ⇒ 生成 Y。 - 因果可分离性WZ 可分离,如果所有 (w,z) 组合的反事实 Y(w,z) 有定义。 - 将概念定义为反事实对:概念 = 可干预的潜变量(不用它是“真实”或“本体论”的,只要求你能有意义地说“如果这里换成男/女”)。

Section 3: 定义两种子空间表示 [0:21–0:24] - 去嵌入子空间表示(0:22–0:23):所有反事实对(差 γ(y1)–γ(y2))平行于一个公共方向(称作 γ̄_W)。 - 嵌入子空间表示(0:23–0:24):所有反事实提示对的嵌入差平行于 λ̄_W。 - 注意事项:严格定义 “反事实提示对” 需要控制关于其他概念的条件分布不变。

Section 4: 两种子空间表示 ⇒ 测量 / 干预 [0:24–0:27] - 定理 1(0:24–0:25):若去嵌入子空间表示 γ̄_W 存在,则 γ̄_W 本身就是一个线性探测:对于任意 prompt x⟨γ̄_W, λ(x)⟩ 正比于关于 W 的 log odds。 - 证明思路:直接来自 softmax 的定义和对数线性形式。 - 定理 2(0:25–0:27):若嵌入子空间表示 λ̄_W 存在,则 λ̄_W 是一个干预向量:将 λ̄_W 加到句子 x 的嵌入上会仅改变关于 W 的 log-odds 而不影响其他概念。 - 证明思路:利用嵌入和去嵌入之间的 Riesz 表示定理(但此时隐含着假定了某个内积)。 - 至此:三个现象被统一成两个(去嵌入→测量;嵌入→干预),但它们之间是什么关系? 需要引入因果内积。

Section 5: 因果内积:统一两个表示 [0:27–0:35] - 首先使用时差成立:模型中的不可识别性(0:28–0:31)——任意可逆线性变换 A 作用于去嵌入 γ(y),同时用 A^{-T} 作用于嵌入 λ(x),softmax logits 不变 → 表示空间的内积不被训练数据唯一确定。 - 因果内积的定义(0:32–0:34):找一个内积 ⟨·,·⟩_C,使得对所有因果可分离的概念对 (W, Z)⟨γ̄_W , γ̄_Z⟩_C = 0。 - 关键定理(0:34–0:35):在因果内积下,嵌入表示和去嵌入表示通过 Riesz 同构统一:λ̄_W = ⟨γ̄_W, ·⟩_C
- 直观:选对内积后,同一个方向既可以用作去嵌入表示(作为列向量),也可用作嵌入表示(作为行向量)。

Section 6: 如何在实际中找到因果内积 [0:35–0:42]
- 思路:如果在某个分布上,因果可分离的概念在统计上独立,那么协方差矩阵 Cov(γ) 就编码了独立的结构(联合密度因式分解⇒协方差逆的结构)。 - 假设(0:36–0:37):对于词典中随机抽取的单词,因果可分离的概念(如性别、语种)是统计独立的(“词典词的稀疏性切断自然语言中的虚假关联”)。 - 结果:在此假设下,因果内积可估计为 ⟨γ, γ'⟩_C = γ^T Cov(γ)^{-1} γ' —— 即 Mahalanobis 内积基于词汇协方差矩阵的逆。

Section 7: 实验验证(LLaMA-2-7B)[0:40–0:45] - 数据集:来自 Big Analogy Test(BAT)的 27 个概念(country→capital, male→female, English→French……)。 - 子空间存在性(0:40–0:41):对于 26/27 概念,反事实词对的差确实高度平行于一个公共方向,验证了子空间表示是真实存在的。 - 正交性实验(0:41–0:43):用估计的因果内积计算 27 个概念对的绝对内积 → 热图显示因果可分离的概念正交(如性别 vs 语种),而非因果可分离的概念(如 German vs lowercase)有较大内积(因德语大写约定不同)。欧几里得/随机内积显示不出这种结构。 - 干预实验(0:44–0:45):将“male→female”方向向量加到“long live the king”的嵌入后 → 输出概率大幅偏向 “queen”,且不改写 “capitalization” 概念。

Section 8: 推广到文本到图像(概念代数)[0:45–0:47] - 核心:把 prompt 当作概念分布(而非确定的概念赋值),把表示扩展到分布的表示 Rep(Q)。 - 在基于得分的扩散模型中,定义了中心化得分表示 s̄[Q]。 - 算数组合性定理:若概念 WZ 因果可分离,则 s̄[Q_W Q_Z] = s̄[Q_W] + s̄[Q_Z](嵌入子空间表示自然成立)。 - 这解释了线性结构源于概率分解(条件独立性),而非模型架构。

小结:讨论(Francesco Locatello)
- Locatello 把本工作与之前的 解缠绕表示学习作对比:
- 解缠绕追求轴对齐的独立因子(每个维度对应一个概念)——这是更强的要求,需要特殊训练/假设。
- 本工作只要求概念对应子空间(方向),不需要是坐标轴——更容易成立,而且语义几何由因果内积决定。
- 核心差异:连续 vs 离散概念观。线性表示假设认为语义空间是连续的,概念是几何上的方向,而不是一组硬编码的离散潜变量。
- 未解决问题:如何自动发现有意义的概念子空间(而不需人工定义反事实对)?稀疏自编码器可能提供一个途径。


四、对应论文与开放问题

这场报告对应的论文

  1. Zihao Wang, Lin Gui, Jie Negrea, Victor Veitch (2023). “Concept Algebra for (Score-Based) Text-Controlled Generative Models” —— 报告前半部分关于“概念代数 / 分布表示推广”。
  2. arXiv / 合作者:来自幻灯片(时间:0:01,可靠);该论文是“混合的”前半部分。

  3. Kiho Park, YJ Choe, Victor Veitch (2023). “The Linear Representation Hypothesis and the Geometry of Large Language Models” —— 报告后半部分(主要)关于线性表示假设的因果形式化和因果内积。

  4. 这是报告主要基于的论文(从幻灯片和讲者 0:01–0:03 确认)。

开放问题(每条源自转写中的特定位置)

  1. 内部层的内积与因果内积 [0:53–0:54]:当前因果内积只在最后一层(softmax 层)有定义(使用词汇协方差矩阵),但中间层也观察到了线性表示。中间层的因果内积如何定义和估计?讲者承认“卡住了”。
  2. 自动发现概念 [0:55–0:56]:现在需要人工定义反事实对(如 king/queen)来锚定概念子空间。但理想情况下,系统应能自动将变化分解成数百万个可解释的概念——稀疏自编码器(sparse VAE)可能是个方向,但如何将其与本工作的几何结构连接?
  3. 非概念结构(事实性)[0:58–0:59]:有些问题(如事实正确性)不容易映射到一组离散潜概念,现有的“概念=可干预潜变量”框架可能无法覆盖。如何扩展?
  4. 得分表示与LLM默认表示的连接 [0:55]:报告中展示推广到扩散模型时用了 Stein 得分表示,但对 LLM 本身的表示,它与默认的 softmax 表示的关系(即为什么 LLM 学了得分表示之外的一种表示?)未解决。
  5. 对中间层干预(ROME等)的意义 [0:50–0:52]:当前结果对中间层预测“在哪里干预”的冲突性结论(ROME 找到的干预位置不是最优的)如何解释?能否把线性结构的结果推广到中间层并给出定理?

所有开放问题的描述严格基于转写中讲者/讨论者的原意(时间点已标),不替研究者判断可行性


Maintained by 陈星宇 · Homepage · Source on GitHub

评论