跳转至

Identifiable Deep Generative Models for Rich Data Types with Discrete Latent Layers

讲者: Yuqi Gu
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-11-28
主题: 因果推断
视频: https://youtu.be/ZXV5KE6g3FI · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告位于潜变量模型的可识别性(identifiability)这一子方向,再具体一点,是离散潜变量深度生成模型的严格可识别性

这个方向在追问什么:给定观测数据 \( Y = (Y_1,\dots,Y_p) \) 的联合分布,能否唯一地恢复出背后的潜变量结构(潜变量的个数、取值、相互间的条件依赖关系、以及从潜变量到观测变量的生成机制)?没有可识别性,任何对潜变量的实质性解释(如“这个技能被掌握了”、“这个因子代表人格特质”)都是虚的。统计推断(估计、假设检验)也因参数悬而未决而失去根基。

奠基与主流路线: - 经典的奠基工作是 Kruskal (1977) 关于三阶张量 CP 分解唯一性的代数结果。奠基性地证明了,在较弱的秩条件下,三路张量的 CP 分解是唯一的(除平凡的排列和缩并模糊性外)。 - 在潜变量模型语境中,Allman, Matias & Rhodes (2009, Annals of Statistics) 用 Kruskal 定理系统证明了有限混合模型(包括无约束潜类模型)的严格可识别性,以及它向非参数测度乘积的推广。 - 另一条线是线性结构方程模型(Spirtes, Pearl, Shimizu, Drton 等人),主要处理连续潜变量、线性关系,可识别性多依赖于图拓扑的 t-规则(t-rule)叁指标规则(three-indicator rule)(如 Bollen 1989; Anderson & Rubin 1956)。这些分析工具是协方差矩阵上的多项式方程,而非张量分解。 - 针对离散潜变量的认知诊断模型(cognitive diagnostic models)在心理测量学中有大量工作,但通常是验证性的(Q 矩阵由专家给定),且深度结构(多于一层潜变量)几乎未被正式研究过

当前 frontier:机器学习的深度潜变量生成模型(VAE, GANs, Deep Belief Networks, Deep Boltzmann Machines, VQ-VAE)虽然在应用中强大,但可识别性基本被忽略——这是一个公认的盲区。近年来有少数工作开始探索(如 Khemakhem et al. 2020 关于非线性 ICA 的可识别性,但依赖连续潜变量),但针对深度、离散潜层的严格可识别性结果几乎没有。

这场报告站在哪:它处在“为深度离散潜变量模型建立可识别性”这条线的起点,核心是一套充分且具有透明图论解释的条件——每个潜变量(无论在哪一层)至少需要两个或三个独占子节点(exclusive children),依赖于响应类型和父-子交互形式。这个条件不要求图是树(允许任意边),能处理混合类型响应(分类、计数、连续、非参数),并且通过“任意依赖性的祝福(blessing of dependence)”实现了层递式的深度可识别性证明。报告同时提出了一种比经典 Kruskal 定理更精细的代数技术,以处理复杂图约束下的个体参数可识别性。

关键引用(有把握的): - Kruskal (1977):三叉张量唯一分解。报告的核心工具之一。 - Allman, Matias & Rhodes (2009):有限混合模型可识别性,以及向非参数测度乘积的推广(在报告中被明确提及并用于非参数扩展)。 - Gu & Dunson (2023, JRSSB):报告人的上一篇,对应分类响应的 Bayesian pyramid 模型。本场报告在此基础上扩展到了任意响应类型并放松了条件。 - Gu (2022):作者自己的技术报告,提出“任意依赖性的祝福”以将独占子节点数从 3 降到 2。(转写中零星提及,[0:24:30] 附近)


二、最小内核 / 一个最简例子

我们来构造一个最简短但完全映射报告核心思想的例子。

可观测数据\( Y = (Y_1, Y_2, Y_3) \) 是三个二值观测(例如三道简答题的对/错)。

模型结构(一层潜变量): - 潜变量 \( \mathbf{A} = (A_1, A_2) \in \{0,1\}^2 \) 是二值技能向量(如“会加法”、“会乘法”)。 - 允许 \( A_1, A_2 \) 任意相关,即参数 \( \nu_{\alpha} = P(\mathbf{A} = \alpha) , \alpha \in \{00,01,10,11\} \) 无约束,只需和为 1、全 >0。 - 条件独立:给定 \( \mathbf{A} \)\( Y_1, Y_2, Y_3 \) 独立。 - 图结构(G 矩阵)

\[G = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{pmatrix}\]
含义:\( Y_1 \) 只依赖 \( A_1 \)\( Y_2 \) 只依赖 \( A_2 \)\( Y_3 \) 同时依赖 \( A_1, A_2 \)。 - 条件概率\( \theta_{j,c,\alpha} = P(Y_j = c \mid \mathbf{A} = \alpha) \)。由 G 矩阵施加等式约束:因为 \( Y_1 \) 只看 \( A_1 \)
\[P(Y_1 = 1 \mid A_1=0, A_2=0) = P(Y_1 = 1 \mid A_1=0, A_2=1)\]
(即 \( \alpha = 00 \)\( \alpha = 01 \) 共享同一个 \( Y_1 \) 条件概率);同理 \( \alpha = 10, 11 \) 共享同一个 \( Y_1 \) 条件概率。对 \( Y_2 \) 同理;\( Y_3 \) 无约束(四个潜类各自不同条件概率)。

参数化: - \( \boldsymbol{\nu} \in \Delta^3 \)(四个潜类的概率,自由参数 3)。 - 条件概率表:对 \( Y_1 \) 有 2 个自由参数(\( \theta_{1,\cdot,\text{no A1}}, \theta_{1,\cdot,\text{has A1}} \));对 \( Y_2 \) 类似 2 个;对 \( Y_3 \) 有 4 个全自由。总共最多 \( 3 + 2 + 2 + 4 = 11 \) 个自由参数(不含和为1的约束)。

核心思想:这个模型可以被视为一个带等式约束的潜类模型(constrained latent class model),潜变量是 \( Z \) 取 4 个值(对应四个 \( \alpha \) 组合),但 \( Y_1 \)\( Y_2 \) 的列之间有约束——恰恰是这种约束使得可识别性条件与图结构挂钩。若 \( G \) 矩阵包含三个单位矩阵(这里每列恰好有一个独占子节点,但总共只有 2 个潜变量,不满足“三个”条件),则不可识别;报告的条件要求至少有 三个 行(观测变量)作为“模块”,每个模块中潜变量的列向量完全不同。在这个例子中,如果我们只有 \( Y_1, Y_2, Y_3 \)(且 \( K=2 \)),条件不满足——所以讲者的定理要求每层潜变量至少要有 3 个独占子节点(或 2 个,在“任意依赖性祝福”下)。

为什么这个例子能提升直觉: - 展示了 G 矩阵 → S 矩阵 → 等式约束 的传递机制。 - 展示了非平凡依赖(\( A_1, A_2 \) 可以任意相关)如何使得该浅层潜变量分布足够复杂,从而允许层递式识别更深层次(虽然本例只有一层,但概念可扩展)。 - 这是去理解后续“每个潜变量至少三个独占子节点”这一图论条件的起点。


三、报告主体:讲者讲了什么

[0:00–0:07] 开场、介绍与动机 - 主持人介绍讲者 Yuqi Gu(哥伦比亚大学统计系),讨论人 Qingyuan Zhao(剑桥)。 - Yuqi 开场说明自己的工作不直接做因果推断,但阅读因果推断文献受启发。 - 快速过潜变量模型分类表(幻灯第2-4页):按潜变量(连续/离散)× 观测变量(连续/分类)分为因子分析、IRT、潜类模型等;递进到多变量潜变量、稀疏图依赖、深度结构

[0:07–0:12] 二元潜变量模型与 Q 矩阵 - 核心模型:观测 \( Y_j \) 是 P 道考试题的对/错,潜向量 \( \mathbf{A} = (A_1,\dots,A_K) \in \{0,1\}^K \) 是 K 个技能。允许 \( A_1,\dots,A_K \) 任意相关。 - Q 矩阵(幻灯第7-8页):教育测量学核心概念(Tatsuoka, 1985),二进制矩阵 \( Q = (q_{jk}) \)\( q_{jk}=1 \) 当且仅当观测 \( j \) 依赖技能 \( k \)。举 TIMSS 数学测试为例(几何×应用/知识/推理等)。 - 转化为图表示:改称 G 矩阵(graphical matrix)以示一般性。

[0:12–0:17] 约束潜类模型(Constrained LCM)与张量分解视角 - 展示从多元潜变量到单变量潜类模型的“展平”过程:\( \mathbf{A} \in \{0,1\}^K \) 所有 \( 2^K \) 种组合对应潜类 \( Z \)\( k = 2^K \) 个类别。 - 约束潜类模型定义(幻灯第12页):分布 \( P(Y_1,\dots,Y_p) = \sum_{h=1}^k \nu_h \prod_{j=1}^p \theta_{j, c_j, h} \),但潜类之间可能有等式约束——约束由二进制矩阵 \( S_{p\times k} \) 描述:若 \( S_{j, h_1} = S_{j, h_2} \),则 \( \theta_{j, \cdot, h_1} = \theta_{j, \cdot, h_2} \)。 - 张量 CP 分解联系(幻灯第13-14页):分布写作 p 阶概率张量的 CP 分解(\(\sum_h \nu_h \bigotimes_{j} \theta_{j,\cdot,h}\))。可识别性问题等价于受约束张量分解的唯一性。 - 中间命题(幻灯第15页):若 \( S \) 列向量互不相同,则 Khatri-Rao 积满秩;若 \( S \) 有重复列,则可能亏秩。

[0:17–0:21] 严格可识别性的主定理(约束 LCM) - 定义(幻灯第16页):两组参数 \( (\Theta,S,\nu) \)\( (\tilde{\Theta}, \tilde{S}, \tilde{\nu}) \) 生成相同观测分布当且仅当它们经潜类重排相同,则称严格可识别。 - 定理(幻灯第16页):若 \( k \) 已知、\( \nu_h > 0 \),且存在观测变量的一个三分割 \( [p] = A_1 \cup A_2 \cup A_3 \),使每块对应的子矩阵 \( S_{A_i,:} \) 列向量互不相同,则 \( (\nu, \Theta, S) \) 严格可识别(除潜类重排外)。 - 翻译为 G 矩阵条件(幻灯第17页):因为 S 与 G 一一对应,条件等价于 G 纵向堆叠三个单位矩阵(即每个潜技能至少有三个独占子节点)。 - 用之前的 3×2 G 矩阵例子展示对应关系。

[0:21–0:26] Q&A 中断(如何处理过度规定)、深度模型:Bayesian Pyramid - [0:23:10] 讲者回应部分可识别性与一般可识别性(generic identifiability)的区分:严格可识别要求在整个参数空间都成立;一般可识别只需在几乎处处(除零测集外)成立。 - [0:25:00] 详细解释道模型参数:\( \theta_{j,c,h} \) 是给定潜类 \( h \)\( Y_j \) 取类别 \( c \) 的概率;\( \nu_h \) 是潜类比例;S 编码约束。 - 深度模型结构(幻灯第18-20页):D 层,每层由二进制 G 矩阵连接。联合分布分解为马尔可夫链:

\[P(Y \mid A^{(1)}) = \prod_j P(Y_j \mid A^{(1)}_{pa(j)}), \quad P(A^{(m)} \mid A^{(m+1)}) = \prod_{k=1}^{K_m} P(A^{(m)}_k \mid A^{(m+1)}_{pa(A^{(m)}_k)}).\]
顶层潜变量 \( Z \) 具有任意分布。

[0:26–0:35] 可识别性结果:从分类响应到一般响应 - 分类响应版本的定理(幻灯第21页):每个 G 矩阵(\( m = 1,\dots,D-1 \))形式如下(经行置换后):

\[G^{(m)} = \begin{pmatrix} I_{K_m} \\ I_{K_m} \\ G^{(m),\star} \end{pmatrix},\]
其中 \( I_{K_m} \) 是单位矩阵、\( G^{(m),\star} \) 任意。则以下可识别:顶层分布 \( \tau(Z) \);每一变量的条件概率表;所有 G 矩阵(除平凡重排外)。数量约束:\( K_1 \leq p/3 \)\( K_2 \leq K_1/3 \),...。 - “任意依赖性的祝福”(blessing of dependence):因为浅层潜变量可任意相关,经过第一步识别后其联合分布被识别,相当于观测到,然后上层可被类似处理——这种层递策略只有依赖于离散且任意相关的潜变量才可行。如果潜变量连续或具有 Markov 结构,这种方法失效。 - [0:28:00] 报告人将此要求解释为图论语言:每个潜变量(无论在哪层)至少有三个独占子节点(即该子节点只有这一个父变量)。 - 一般响应扩展(幻灯第23-27页):底层 \( Y_j \) 可来自任意完备可分度量空间(R、N、{0,1} 等),甚至是非参数测度。条件概率不必参数化——只需族满足某些正则性(如指数族)。关键技巧:对一般响应空间进行分箱(binning),构造替代分类变量,先证明分类情况的可识别性,再反推原分布。 - 一般可识别性定理(幻灯第27页):对于主效应模型,G 矩阵条件放松为只需两个“几乎单位矩阵”的子块(对角线为1,非对角线元素可任意),不再要求三个独占子节点。这允许更密集的图连接。例如 \( G = \begin{pmatrix} G_1 \\ G_2 \\ G_\star \end{pmatrix} \),其中 \( G_1, G_2 \) 对角线为 1 且每行至少有一个 1。 - [0:32:00] 强调了生成机制主体的灵活性:主效应(对数线性)、布尔分解、任意解析函数形式的链接都可行。

[0:35–0:42] 技术路线与证明思路 - 关键工具:Kruskal (1977) 三阶张量分解唯一性定理的全局秩条件。 - 自己的精细代数技术(未命名):不是全局检查 Kruskal 秩条件,而是逐参数分析。将可识别性问题转化为张量切片上的多项式方程解的唯一性。这允许处理更复杂的图约束(非树、非全局秩满)。 - 可识别性的核心来源:约束张量 CP 分解在强加等式约束后,解的歧义性被消除——约束从那些一列对一列(G→S)的关系中得来。正是“哪些潜类共享同一个条件概率”这个图约束打破了潜变量混合固有的置换和分布退化歧义。 - [0:40:00] 指出浅层潜变量任意依赖允许层递式识别:先识别底部两层,得到 \( A^{(1)} \) 的联合分布,然后将其作为“观测数据”凭空移上一层——这在连续潜变量或可分解(如树结构)潜变量情况下不可行。

[0:42–0:47] 估计与实证验证 - 估计框架:对于严格可识别模型,MLE 一致且贝叶斯后验一致(若先验在真值处有质量)。 - 具体实施(幻灯末尾、[0:43:00]): - 分类响应:贝叶斯收缩先验 + 数据增广 MCMC(Gibbs)。 - 一般响应(主效应模型):组套索惩罚 + EM 算法(把 G 矩阵结构转化为零系数模式)。 - 仿真结果([0:44:00]): - \( p=20, d_j=4 \) 的分类响应,样本量 100–1000,G 矩阵估计误差精度高(图中显示平均估计误差迅速下降)。 - 连续参数 RMSE 以 \( O(1/\sqrt{n}) \) 收敛,符合理论预期。 - 真实数据: 1. 核苷酸序列数据(分类响应,[0:45:30]):无监督学习的潜变量表示可预测(下游分类准确率与调优 CNN 持平)。 2. 教育评估反应时间数据(连续响应,[0:46:00]):模型揭示出7个潜技能(4个内容技能×3个认知技能)的相关结构,与直觉一致(内容间高度相关;认知间高度相关;跨类别相关较弱)。

[0:47–0:48] 因果推断连接大脑风暴(结束部分) - [0:47:15] 讲者初步提出三个连接方向: 1. 潜变量间的因果发现(因为已识别出联合分布,加上离散因果发现方法可推断因果图); 2. 与因果表示学习(causal representation learning)的关系; 3. 未观测混淆下的因果推断(潜变量作为混杂因子)。 - 讨论人 Qingyuan Zhao 随后补充([0:49:37–1:01:22]):联系到线性 SEM 的叁指标规则、非参数因果图的 do 演算 / ID 算法 / 近端推断(proximal inference)、以及下游的因果表示学习。

[1:01:22–结束] Q&A(截取) - 讨论人询问 S 矩阵的二进制性质是否足够([0:55:00])。讲者解释 S 仅是一种中间工具——它完全编码了 G 矩阵所施加的条件概率等式约束,因为“是否要约束”本身就二进制;更精细的依赖(如梯度式约束)不由 S 捕获,但目前的图独立性假设已足够。 - 讨论人将“三个独占子节点条件”与连续因子分析中的叁指标规则类比([1:00:40])。讲者承认形式相似,但数学根源不同:连续情形靠协方差矩阵多项式方程,离散情形靠高阶张量多项式方程;未来或许有统一代数视图。


四、对应论文与开放问题

(a) 对应论文

这场报告的信息在以下可查论文中有完整处理(按转录与幻灯片确认):

  1. Gu & Dunson (2023, JRSSB):”Bayesian Pyramids: Identifiable Deep Generative Models with Discrete Latent Layers”
    — 对应报告的分类响应部分(幻灯第18–21页)。提供了严格可识别性条件(三个独占子节点)、贝叶斯估计、教育数据应用。报告在此基础扩展。

  2. Gu (2022, arXiv / 技术报告):”Blessing of Dependence: Identifiable Deep Latent Variable Models with Binary Latent Layers”
    — 对应报告中“任意依赖性的祝福”及将独占子节点数从 3 降到 2 的结果。报告在 [0:24:30] 附近提到此文件名(转写为 “Gu (2022)”),幻灯片第27页有引用标记但未列全标题。待核实精确标题与 arXiv ID。

  3. Gu & Lee (正在投稿 / 准备中)
    — 对应报告的一般响应扩展、非参数分箱技巧、一般可识别性定理、以及主效应模型的宽松 G 矩阵条件。报告标题页注明“joint partly with Seunghyun Lee”,但无精确引用。待讲者确认是否已有 arXiv 或会议版本。

(b) 开放问题(以转写中的具体提及或讨论为基础)

  1. 从严格可识别到部分可识别 / 无穷混合([0:23:10] 与 [0:48:40] 两次提及):
    讲者回应部分可识别性时提到 generic identifiability;另一观众提问“能否是无穷混合”。当前结果假设 \( K_m \) 已知、有限。开放方向:如何界定在 \( K_m \) 未知 / 超饱和(overfitted)时的可识别性;是否可以通过贝叶斯非参数先验自动退化为有限混合。

  2. 从相关性到因果关系:潜变量间的因果发现([0:47:15]):
    当前方法识别的是潜变量的联合分布(相关性),但并未给出有向因果图。开放问题:能否结合离散因果结构学习(例如 PC 算法或得分匹配方法)从联合分布中提取出潜变量间的 DAG?需要什么样的额外假设(faithfulness, minimality, 无反馈)?

  3. 未观测混杂下的因果推断([0:47:15] 末尾):
    如果潜变量作为混杂因子作用于处理 X 和结局 Y,当前的深度潜变量模型能否用于识别因果效应?需要把 G 矩阵扩展到包含处理变量作为观测节点,并需要有类似 Proximal Causal Inference 的不变量条件。报告期冀这是未来工作。

  4. 与因果表示学习的衔接([1:00:50] 讨论人提出):
    问题:在构造深度神经网络时,是否应该强制每个隐层神经元至少有 2–3 个独占子节点以换取可识别性?这在实际计算中是否可行 / 有用?当前 deep learning 社区通常不关心可识别性,如果引入,会给架构设计带来何种限制或增益?

  5. 计算可行性问题(报告未详述,但研究者依据自身兴趣可以追问):
    在深度结构下,EM 的局部最优和 MCMC 的收敛性如何?当潜层数增加时,“识别 + 估计”的计算代价如何随层数和潜变量数增长?是否有统计—计算折中(statistical-computational tradeoff)问题——即某些结构在统计上可识别,但需要指数级时间才能从有限样本中恢复?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论