Linear Structure of High-Level Concepts in Text-Controlled Generative Models, and the role of Causality¶

讲者: Victor Veitch
讨论人: Francesco Locatello
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-01-23
主题: 因果推断
视频: https://youtu.be/uA19kr95zG8 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：用因果语言为预训练生成式模型（LLM / 文本到图像）中的“线性表示假设”提供严格的数学基础。

该方向追问的核心问题是：在高维表示空间中，语义概念（如“性别”“语种”）为什么以及如何以线性子空间（平行向量差）的形式出现？ 这个现象的物理存在（词向量类比 · 线性探针 · 干预向量）自词嵌入以来就被广泛报道，但缺乏一个统一的数学定义与解释。

奠基/主流路线：
经典词向量工作（Mikolov 2013, Pennington 2014）展示了“king – queen ≈ man – woman”类型的线性结构，但只发生在静态词嵌入上，且未解释为何这种结构会出现。
后续在LLM（如GPT / LLaMA）上，多项实证工作（Alain & Bengio 2016；Conneau et al. 2018；Li et al. 2022）发现：在表示空间的任一方向上训练一个线性逻辑回归（“线性探针”），就能高精度地预测语义标签；用方向向量加上或减去表示甚至还能干预输出（“雄性→雌性”等）。然而三种现象（子空间平行、线性探测、干预操作）的关系完全不清——它们是同一个东西吗？
当前frontier：
该报告（Veitch, 2024）是首次 将因果形式化引入线性表示假设：把语义概念定义为潜在+可干预的变量（“因果可分离性”），再证明子空间表示 ⇒ 线性探测表示 和 子空间表示 ⇒ 干预表示 两个定理，从而统一三个现象。
进一步，注意到软最大化模型（softmax）的不可识别性：表示空间的内积不是由训练目标决定的（任意可逆线性变换保持 logits 不变），因此欧几里得内积不必然有语义意义。报告提出因果内积（causal inner product）——要求因果可分离的概念正交——并在“词典词随机采样下独立”的假设下证明了可通过词汇协方差矩阵的逆来估计该内积。
最后向文本到图像扩散模型的推广：证明得分表示（score representation） 自然具备算数组合性（arithmetic compositionality），即线性结构源于概率论本身结构，而非架构细节。

关键工作（有把握的）：
- Park et al. (2023) “The Linear Representation Hypothesis and the Geometry of Large Language Models” —— 本报告主要对应论文，提出了因果内积与统一三个线性概念的定理。
- Wang et al. (2023) “Concept Algebra for (Score-Based) Text-Controlled Generative Models” —— 报告推广部分对应的论文，把线性子空间概念推广到扩散模型。
- 参考性比较：
- Nanda et al. (2023) “Concept Algebra via Causal Abstraction” ——方法不同但目标相近（用因果抽象理解概念线性结构）。
- 发言者提到的“disentanglement literature”（Locatello et al. 2019）——强调轴对齐（axis-aligned）的独立潜在因子，与本文的“连续几何”观点形成对比。

报告站在“把散装的线性表示实证碎片拼成一个因果推理框架”这条线上。

二、最小内核 / 一个最简例子¶

符号与设定：

可观测数据：输入 prompt x（如“he is the”），输出 token y（如“king”）。
潜在概念：二元概念 W（如性别：male=0, female=1）和 Z（如语种：English=0, French=1）。概念是人为定义的、可干预的潜变量。
分布设定：x 定义一个条件分布 p(y | z, w)，但观测时看不到 z, w。
因果可分离性：如果对于所有组合 (w, z)，反事实 Y(w,z) 有定义，则 W 和 Z 是因果可分离的（例如“性别”和“语种”显然可被自由干预）。
两个表示空间：
嵌入表示：LLM 将序列 x 映射到向量 λ(x) ∈ ℝ^d（最后一层的隐层输出）。
去嵌入表示：每个 token y 有其固定向量 γ(y) ∈ ℝ^d（softmax 层的权重矩阵的行）。

核心思想——用一个最简二元例子（d=2）说明：

设 W = 性别（male/female），Z = 语种（English/French）。给定四对反事实词对：

词对（反事实，仅差W）	去嵌入差
king – queen	γ(king) – γ(queen)
man – woman	γ(man) – γ(woman)
roi – reine	γ(roi) – γ(reine)
homme – femme	γ(homme) – γ(femme)

子空间假设宣称：所有这四对差是近似平行的，定义了一个一维子空间 span(γ̄_W)，其方向即为 W 的去嵌入表示。

同样，对于提示 x1 = “he is the” 和 x2 = “she is the”（反事实差仅 W），嵌入差 λ(x1) – λ(x2) 应平行于某个嵌入表示 λ̄_W。

报告的核心定理（对 d=2 这个例子直观显示）： 1. 去嵌入表示 ⇒ 线性探测：任意句子 x 的嵌入 λ(x) 与 γ̄_W 的内积正比于 log P(W=male | x) – log P(W=female | x)——所以一个线性逻辑回归（方向=γ̄_W）就能预测性别。 2. 嵌入表示 ⇒ 干预向量：若所有反事实提示对（如 “She is the” – “He is the”）平行于 λ̄_W，则把 λ̄_W 加到任意句子 x 的嵌入上，在孤立地把输出性别翻转大部分概率且不影响语种。 3. 因果内积统一两者：如果取一个内积 ⟨·,·⟩_C 使得因果可分离的概念（这里 “性别” 与 “语种”）正交，那么 λ̄_W 和 γ̄_W 的关系就是 Riesz 同构（λ̄_W = ⟨γ̄_W, ·⟩_C）——即它们是对偶空间中的同一方向。

三、报告主体：讲者讲了什么¶

Section 0: 背景与动机 [0:06–0:12] - 把“生成式AI行为是涌现的”作为根本动机：训练代理目标（next-word prediction）→ 涌现出高级理解（翻译、数学）。需要科学地理解这些模型的内部过程，而非仅仅工程改进。 - 提出三个问题：① 什么是线性表示？② 为什么欧几里得几何会编码语义？③ 线性结构从哪里来？

Section 1: 三个现象 vs 一个定义 [0:12–0:19] - 子空间 notion（0:14–0:15）：反事实词对的差平行（king–queen ∥ man–woman）。这是最早的观察。 - 测量 notion（线性探针）（0:15–0:17）：用 logistic 回归（线性分类器）在激活上预测语义标签，居然奏效。 - 干预 notion（0:17–0:19）：添加一个向量到句子的嵌入上就能改变输出的概念（king→queen）。 - 关键问题：这三个现象是同一个假设吗？不一定。

Section 2: 用因果语言定义概念 [0:19–0:21] - 把 LLM 的输出过程抽象成一个潜变量因果模型：prompt x ⇒ 定义分布 over 潜概念 (W, Z) ⇒ 生成 Y。 - 因果可分离性：W 和 Z 可分离，如果所有 (w,z) 组合的反事实 Y(w,z) 有定义。 - 将概念定义为反事实对：概念 = 可干预的潜变量（不用它是“真实”或“本体论”的，只要求你能有意义地说“如果这里换成男/女”）。

Section 3: 定义两种子空间表示 [0:21–0:24] - 去嵌入子空间表示（0:22–0:23）：所有反事实对（差 γ(y1)–γ(y2)）平行于一个公共方向（称作 γ̄_W）。 - 嵌入子空间表示（0:23–0:24）：所有反事实提示对的嵌入差平行于 λ̄_W。 - 注意事项：严格定义 “反事实提示对” 需要控制关于其他概念的条件分布不变。

Section 4: 两种子空间表示 ⇒ 测量 / 干预 [0:24–0:27] - 定理 1（0:24–0:25）：若去嵌入子空间表示 γ̄_W 存在，则 γ̄_W 本身就是一个线性探测：对于任意 prompt x，⟨γ̄_W, λ(x)⟩ 正比于关于 W 的 log odds。 - 证明思路：直接来自 softmax 的定义和对数线性形式。 - 定理 2（0:25–0:27）：若嵌入子空间表示 λ̄_W 存在，则 λ̄_W 是一个干预向量：将 λ̄_W 加到句子 x 的嵌入上会仅改变关于 W 的 log-odds 而不影响其他概念。 - 证明思路：利用嵌入和去嵌入之间的 Riesz 表示定理（但此时隐含着假定了某个内积）。 - 至此：三个现象被统一成两个（去嵌入→测量；嵌入→干预），但它们之间是什么关系？ 需要引入因果内积。

Section 5: 因果内积：统一两个表示 [0:27–0:35] - 首先使用时差成立：模型中的不可识别性（0:28–0:31）——任意可逆线性变换 A 作用于去嵌入 γ(y)，同时用 A^{-T} 作用于嵌入 λ(x)，softmax logits 不变 → 表示空间的内积不被训练数据唯一确定。 - 因果内积的定义（0:32–0:34）：找一个内积 ⟨·,·⟩_C，使得对所有因果可分离的概念对 (W, Z)，⟨γ̄_W , γ̄_Z⟩_C = 0。 - 关键定理（0:34–0:35）：在因果内积下，嵌入表示和去嵌入表示通过 Riesz 同构统一：λ̄_W = ⟨γ̄_W, ·⟩_C。
- 直观：选对内积后，同一个方向既可以用作去嵌入表示（作为列向量），也可用作嵌入表示（作为行向量）。

Section 6: 如何在实际中找到因果内积 [0:35–0:42]
- 思路：如果在某个分布上，因果可分离的概念在统计上独立，那么协方差矩阵 Cov(γ) 就编码了独立的结构（联合密度因式分解⇒协方差逆的结构）。 - 假设（0:36–0:37）：对于词典中随机抽取的单词，因果可分离的概念（如性别、语种）是统计独立的（“词典词的稀疏性切断自然语言中的虚假关联”）。 - 结果：在此假设下，因果内积可估计为 ⟨γ, γ'⟩_C = γ^T Cov(γ)^{-1} γ' —— 即 Mahalanobis 内积基于词汇协方差矩阵的逆。

Section 7: 实验验证（LLaMA-2-7B）[0:40–0:45] - 数据集：来自 Big Analogy Test（BAT）的 27 个概念（country→capital, male→female, English→French……）。 - 子空间存在性（0:40–0:41）：对于 26/27 概念，反事实词对的差确实高度平行于一个公共方向，验证了子空间表示是真实存在的。 - 正交性实验（0:41–0:43）：用估计的因果内积计算 27 个概念对的绝对内积 → 热图显示因果可分离的概念正交（如性别 vs 语种），而非因果可分离的概念（如 German vs lowercase）有较大内积（因德语大写约定不同）。欧几里得/随机内积显示不出这种结构。 - 干预实验（0:44–0:45）：将“male→female”方向向量加到“long live the king”的嵌入后 → 输出概率大幅偏向 “queen”，且不改写 “capitalization” 概念。

Section 8: 推广到文本到图像（概念代数）[0:45–0:47] - 核心：把 prompt 当作概念分布（而非确定的概念赋值），把表示扩展到分布的表示 Rep(Q)。 - 在基于得分的扩散模型中，定义了中心化得分表示 s̄[Q]。 - 算数组合性定理：若概念 W 和 Z 因果可分离，则 s̄[Q_W Q_Z] = s̄[Q_W] + s̄[Q_Z]（嵌入子空间表示自然成立）。 - 这解释了线性结构源于概率分解（条件独立性），而非模型架构。

小结：讨论（Francesco Locatello）
- Locatello 把本工作与之前的 解缠绕表示学习作对比：
- 解缠绕追求轴对齐的独立因子（每个维度对应一个概念）——这是更强的要求，需要特殊训练/假设。
- 本工作只要求概念对应子空间（方向），不需要是坐标轴——更容易成立，而且语义几何由因果内积决定。
- 核心差异：连续 vs 离散概念观。线性表示假设认为语义空间是连续的，概念是几何上的方向，而不是一组硬编码的离散潜变量。
- 未解决问题：如何自动发现有意义的概念子空间（而不需人工定义反事实对）？稀疏自编码器可能提供一个途径。

四、对应论文与开放问题¶

这场报告对应的论文：

Zihao Wang, Lin Gui, Jie Negrea, Victor Veitch (2023). “Concept Algebra for (Score-Based) Text-Controlled Generative Models” —— 报告前半部分关于“概念代数 / 分布表示推广”。
arXiv / 合作者：来自幻灯片（时间：0:01，可靠）；该论文是“混合的”前半部分。
Kiho Park, YJ Choe, Victor Veitch (2023). “The Linear Representation Hypothesis and the Geometry of Large Language Models” —— 报告后半部分（主要）关于线性表示假设的因果形式化和因果内积。
这是报告主要基于的论文（从幻灯片和讲者 0:01–0:03 确认）。

开放问题（每条源自转写中的特定位置）：

内部层的内积与因果内积 [0:53–0:54]：当前因果内积只在最后一层（softmax 层）有定义（使用词汇协方差矩阵），但中间层也观察到了线性表示。中间层的因果内积如何定义和估计？讲者承认“卡住了”。
自动发现概念 [0:55–0:56]：现在需要人工定义反事实对（如 king/queen）来锚定概念子空间。但理想情况下，系统应能自动将变化分解成数百万个可解释的概念——稀疏自编码器（sparse VAE）可能是个方向，但如何将其与本工作的几何结构连接？
非概念结构（事实性）[0:58–0:59]：有些问题（如事实正确性）不容易映射到一组离散潜概念，现有的“概念=可干预潜变量”框架可能无法覆盖。如何扩展？
得分表示与LLM默认表示的连接 [0:55]：报告中展示推广到扩散模型时用了 Stein 得分表示，但对 LLM 本身的表示，它与默认的 softmax 表示的关系（即为什么 LLM 学了得分表示之外的一种表示？）未解决。
对中间层干预（ROME等）的意义 [0:50–0:52]：当前结果对中间层预测“在哪里干预”的冲突性结论（ROME 找到的干预位置不是最优的）如何解释？能否把线性结构的结果推广到中间层并给出定理？

所有开放问题的描述严格基于转写中讲者/讨论者的原意（时间点已标），不替研究者判断可行性。

Maintained by 陈星宇 · Homepage · Source on GitHub

Linear Structure of High-Level Concepts in Text-Controlled Generative Models, and the role of Causality¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论