Identifiable Deep Generative Models for Rich Data Types with Discrete Latent Layers¶

讲者: Yuqi Gu
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-11-28
主题: 因果推断
视频: https://youtu.be/ZXV5KE6g3FI · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告位于潜变量模型的可识别性（identifiability）这一子方向，再具体一点，是离散潜变量深度生成模型的严格可识别性。

这个方向在追问什么：给定观测数据 \( Y = (Y_1,\dots,Y_p) \) 的联合分布，能否唯一地恢复出背后的潜变量结构（潜变量的个数、取值、相互间的条件依赖关系、以及从潜变量到观测变量的生成机制）？没有可识别性，任何对潜变量的实质性解释（如“这个技能被掌握了”、“这个因子代表人格特质”）都是虚的。统计推断（估计、假设检验）也因参数悬而未决而失去根基。

奠基与主流路线： - 经典的奠基工作是 Kruskal (1977) 关于三阶张量 CP 分解唯一性的代数结果。奠基性地证明了，在较弱的秩条件下，三路张量的 CP 分解是唯一的（除平凡的排列和缩并模糊性外）。 - 在潜变量模型语境中，Allman, Matias & Rhodes (2009, Annals of Statistics) 用 Kruskal 定理系统证明了有限混合模型（包括无约束潜类模型）的严格可识别性，以及它向非参数测度乘积的推广。 - 另一条线是线性结构方程模型（Spirtes, Pearl, Shimizu, Drton 等人），主要处理连续潜变量、线性关系，可识别性多依赖于图拓扑的 t-规则（t-rule）或叁指标规则（three-indicator rule）（如 Bollen 1989; Anderson & Rubin 1956）。这些分析工具是协方差矩阵上的多项式方程，而非张量分解。 - 针对离散潜变量的认知诊断模型（cognitive diagnostic models）在心理测量学中有大量工作，但通常是验证性的（Q 矩阵由专家给定），且深度结构（多于一层潜变量）几乎未被正式研究过。

当前 frontier：机器学习的深度潜变量生成模型（VAE, GANs, Deep Belief Networks, Deep Boltzmann Machines, VQ-VAE）虽然在应用中强大，但可识别性基本被忽略——这是一个公认的盲区。近年来有少数工作开始探索（如 Khemakhem et al. 2020 关于非线性 ICA 的可识别性，但依赖连续潜变量），但针对深度、离散潜层的严格可识别性结果几乎没有。

这场报告站在哪：它处在“为深度离散潜变量模型建立可识别性”这条线的起点，核心是一套充分且具有透明图论解释的条件——每个潜变量（无论在哪一层）至少需要两个或三个独占子节点（exclusive children），依赖于响应类型和父-子交互形式。这个条件不要求图是树（允许任意边），能处理混合类型响应（分类、计数、连续、非参数），并且通过“任意依赖性的祝福（blessing of dependence）”实现了层递式的深度可识别性证明。报告同时提出了一种比经典 Kruskal 定理更精细的代数技术，以处理复杂图约束下的个体参数可识别性。

关键引用（有把握的）： - Kruskal (1977)：三叉张量唯一分解。报告的核心工具之一。 - Allman, Matias & Rhodes (2009)：有限混合模型可识别性，以及向非参数测度乘积的推广（在报告中被明确提及并用于非参数扩展）。 - Gu & Dunson (2023, JRSSB)：报告人的上一篇，对应分类响应的 Bayesian pyramid 模型。本场报告在此基础上扩展到了任意响应类型并放松了条件。 - Gu (2022)：作者自己的技术报告，提出“任意依赖性的祝福”以将独占子节点数从 3 降到 2。（转写中零星提及，[0:24:30] 附近）

二、最小内核 / 一个最简例子¶

我们来构造一个最简短但完全映射报告核心思想的例子。

可观测数据：\( Y = (Y_1, Y_2, Y_3) \) 是三个二值观测（例如三道简答题的对/错）。

模型结构（一层潜变量）： - 潜变量 \( \mathbf{A} = (A_1, A_2) \in \{0,1\}^2 \) 是二值技能向量（如“会加法”、“会乘法”）。 - 允许 \( A_1, A_2 \) 任意相关，即参数 \( \nu_{\alpha} = P(\mathbf{A} = \alpha) , \alpha \in \{00,01,10,11\} \) 无约束，只需和为 1、全 >0。 - 条件独立：给定 \( \mathbf{A} \)，\( Y_1, Y_2, Y_3 \) 独立。 - 图结构（G 矩阵）：

\[G = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{pmatrix}\]

含义：\( Y_1 \) 只依赖 \( A_1 \)；\( Y_2 \) 只依赖 \( A_2 \)；\( Y_3 \) 同时依赖 \( A_1, A_2 \)。 - 条件概率：\( \theta_{j,c,\alpha} = P(Y_j = c \mid \mathbf{A} = \alpha) \)。由 G 矩阵施加等式约束：因为 \( Y_1 \) 只看 \( A_1 \)，

\[P(Y_1 = 1 \mid A_1=0, A_2=0) = P(Y_1 = 1 \mid A_1=0, A_2=1)\]

（即 \( \alpha = 00 \) 和 \( \alpha = 01 \) 共享同一个 \( Y_1 \) 条件概率）；同理 \( \alpha = 10, 11 \) 共享同一个 \( Y_1 \) 条件概率。对 \( Y_2 \) 同理；\( Y_3 \) 无约束（四个潜类各自不同条件概率）。

参数化： - \( \boldsymbol{\nu} \in \Delta^3 \)（四个潜类的概率，自由参数 3）。 - 条件概率表：对 \( Y_1 \) 有 2 个自由参数（\( \theta_{1,\cdot,\text{no A1}}, \theta_{1,\cdot,\text{has A1}} \)）；对 \( Y_2 \) 类似 2 个；对 \( Y_3 \) 有 4 个全自由。总共最多 \( 3 + 2 + 2 + 4 = 11 \) 个自由参数（不含和为1的约束）。

核心思想：这个模型可以被视为一个带等式约束的潜类模型（constrained latent class model），潜变量是 \( Z \) 取 4 个值（对应四个 \( \alpha \) 组合），但 \( Y_1 \) 和 \( Y_2 \) 的列之间有约束——恰恰是这种约束使得可识别性条件与图结构挂钩。若 \( G \) 矩阵包含三个单位矩阵（这里每列恰好有一个独占子节点，但总共只有 2 个潜变量，不满足“三个”条件），则不可识别；报告的条件要求至少有三个行（观测变量）作为“模块”，每个模块中潜变量的列向量完全不同。在这个例子中，如果我们只有 \( Y_1, Y_2, Y_3 \)（且 \( K=2 \)），条件不满足——所以讲者的定理要求每层潜变量至少要有 3 个独占子节点（或 2 个，在“任意依赖性祝福”下）。

为什么这个例子能提升直觉： - 展示了 G 矩阵 → S 矩阵 → 等式约束 的传递机制。 - 展示了非平凡依赖（\( A_1, A_2 \) 可以任意相关）如何使得该浅层潜变量分布足够复杂，从而允许层递式识别更深层次（虽然本例只有一层，但概念可扩展）。 - 这是去理解后续“每个潜变量至少三个独占子节点”这一图论条件的起点。

三、报告主体：讲者讲了什么¶

[0:00–0:07] 开场、介绍与动机 - 主持人介绍讲者 Yuqi Gu（哥伦比亚大学统计系），讨论人 Qingyuan Zhao（剑桥）。 - Yuqi 开场说明自己的工作不直接做因果推断，但阅读因果推断文献受启发。 - 快速过潜变量模型分类表（幻灯第2-4页）：按潜变量（连续/离散）× 观测变量（连续/分类）分为因子分析、IRT、潜类模型等；递进到多变量潜变量、稀疏图依赖、深度结构。

[0:07–0:12] 二元潜变量模型与 Q 矩阵 - 核心模型：观测 \( Y_j \) 是 P 道考试题的对/错，潜向量 \( \mathbf{A} = (A_1,\dots,A_K) \in \{0,1\}^K \) 是 K 个技能。允许 \( A_1,\dots,A_K \) 任意相关。 - Q 矩阵（幻灯第7-8页）：教育测量学核心概念（Tatsuoka, 1985），二进制矩阵 \( Q = (q_{jk}) \)，\( q_{jk}=1 \) 当且仅当观测 \( j \) 依赖技能 \( k \)。举 TIMSS 数学测试为例（几何×应用/知识/推理等）。 - 转化为图表示：改称 G 矩阵（graphical matrix）以示一般性。

[0:12–0:17] 约束潜类模型（Constrained LCM）与张量分解视角 - 展示从多元潜变量到单变量潜类模型的“展平”过程：\( \mathbf{A} \in \{0,1\}^K \) 所有 \( 2^K \) 种组合对应潜类 \( Z \) 的 \( k = 2^K \) 个类别。 - 约束潜类模型定义（幻灯第12页）：分布 \( P(Y_1,\dots,Y_p) = \sum_{h=1}^k \nu_h \prod_{j=1}^p \theta_{j, c_j, h} \)，但潜类之间可能有等式约束——约束由二进制矩阵 \( S_{p\times k} \) 描述：若 \( S_{j, h_1} = S_{j, h_2} \)，则 \( \theta_{j, \cdot, h_1} = \theta_{j, \cdot, h_2} \)。 - 张量 CP 分解联系（幻灯第13-14页）：分布写作 p 阶概率张量的 CP 分解（\(\sum_h \nu_h \bigotimes_{j} \theta_{j,\cdot,h}\)）。可识别性问题等价于受约束张量分解的唯一性。 - 中间命题（幻灯第15页）：若 \( S \) 列向量互不相同，则 Khatri-Rao 积满秩；若 \( S \) 有重复列，则可能亏秩。

[0:17–0:21] 严格可识别性的主定理（约束 LCM） - 定义（幻灯第16页）：两组参数 \( (\Theta,S,\nu) \) 与 \( (\tilde{\Theta}, \tilde{S}, \tilde{\nu}) \) 生成相同观测分布当且仅当它们经潜类重排相同，则称严格可识别。 - 定理（幻灯第16页）：若 \( k \) 已知、\( \nu_h > 0 \)，且存在观测变量的一个三分割 \( [p] = A_1 \cup A_2 \cup A_3 \)，使每块对应的子矩阵 \( S_{A_i,:} \) 列向量互不相同，则 \( (\nu, \Theta, S) \) 严格可识别（除潜类重排外）。 - 翻译为 G 矩阵条件（幻灯第17页）：因为 S 与 G 一一对应，条件等价于 G 纵向堆叠三个单位矩阵（即每个潜技能至少有三个独占子节点）。 - 用之前的 3×2 G 矩阵例子展示对应关系。

[0:21–0:26] Q&A 中断（如何处理过度规定）、深度模型：Bayesian Pyramid - [0:23:10] 讲者回应部分可识别性与一般可识别性（generic identifiability）的区分：严格可识别要求在整个参数空间都成立；一般可识别只需在几乎处处（除零测集外）成立。 - [0:25:00] 详细解释道模型参数：\( \theta_{j,c,h} \) 是给定潜类 \( h \) 时 \( Y_j \) 取类别 \( c \) 的概率；\( \nu_h \) 是潜类比例；S 编码约束。 - 深度模型结构（幻灯第18-20页）：D 层，每层由二进制 G 矩阵连接。联合分布分解为马尔可夫链：

\[P(Y \mid A^{(1)}) = \prod_j P(Y_j \mid A^{(1)}_{pa(j)}), \quad P(A^{(m)} \mid A^{(m+1)}) = \prod_{k=1}^{K_m} P(A^{(m)}_k \mid A^{(m+1)}_{pa(A^{(m)}_k)}).\]

顶层潜变量 \( Z \) 具有任意分布。

[0:26–0:35] 可识别性结果：从分类响应到一般响应 - 分类响应版本的定理（幻灯第21页）：每个 G 矩阵（\( m = 1,\dots,D-1 \)）形式如下（经行置换后）：

\[G^{(m)} = \begin{pmatrix} I_{K_m} \\ I_{K_m} \\ G^{(m),\star} \end{pmatrix},\]

其中 \( I_{K_m} \) 是单位矩阵、\( G^{(m),\star} \) 任意。则以下可识别：顶层分布 \( \tau(Z) \)；每一变量的条件概率表；所有 G 矩阵（除平凡重排外）。数量约束：\( K_1 \leq p/3 \)，\( K_2 \leq K_1/3 \)，...。 - “任意依赖性的祝福”（blessing of dependence）：因为浅层潜变量可任意相关，经过第一步识别后其联合分布被识别，相当于观测到，然后上层可被类似处理——这种层递策略只有依赖于离散且任意相关的潜变量才可行。如果潜变量连续或具有 Markov 结构，这种方法失效。 - [0:28:00] 报告人将此要求解释为图论语言：每个潜变量（无论在哪层）至少有三个独占子节点（即该子节点只有这一个父变量）。 - 一般响应扩展（幻灯第23-27页）：底层 \( Y_j \) 可来自任意完备可分度量空间（R、N、{0,1} 等），甚至是非参数测度。条件概率不必参数化——只需族满足某些正则性（如指数族）。关键技巧：对一般响应空间进行分箱（binning），构造替代分类变量，先证明分类情况的可识别性，再反推原分布。 - 一般可识别性定理（幻灯第27页）：对于主效应模型，G 矩阵条件放松为只需两个“几乎单位矩阵”的子块（对角线为1，非对角线元素可任意），不再要求三个独占子节点。这允许更密集的图连接。例如 \( G = \begin{pmatrix} G_1 \\ G_2 \\ G_\star \end{pmatrix} \)，其中 \( G_1, G_2 \) 对角线为 1 且每行至少有一个 1。 - [0:32:00] 强调了生成机制主体的灵活性：主效应（对数线性）、布尔分解、任意解析函数形式的链接都可行。

[0:35–0:42] 技术路线与证明思路 - 关键工具：Kruskal (1977) 三阶张量分解唯一性定理的全局秩条件。 - 自己的精细代数技术（未命名）：不是全局检查 Kruskal 秩条件，而是逐参数分析。将可识别性问题转化为张量切片上的多项式方程解的唯一性。这允许处理更复杂的图约束（非树、非全局秩满）。 - 可识别性的核心来源：约束张量 CP 分解在强加等式约束后，解的歧义性被消除——约束从那些一列对一列（G→S）的关系中得来。正是“哪些潜类共享同一个条件概率”这个图约束打破了潜变量混合固有的置换和分布退化歧义。 - [0:40:00] 指出浅层潜变量任意依赖允许层递式识别：先识别底部两层，得到 \( A^{(1)} \) 的联合分布，然后将其作为“观测数据”凭空移上一层——这在连续潜变量或可分解（如树结构）潜变量情况下不可行。

[0:42–0:47] 估计与实证验证 - 估计框架：对于严格可识别模型，MLE 一致且贝叶斯后验一致（若先验在真值处有质量）。 - 具体实施（幻灯末尾、[0:43:00]）： - 分类响应：贝叶斯收缩先验 + 数据增广 MCMC（Gibbs）。 - 一般响应（主效应模型）：组套索惩罚 + EM 算法（把 G 矩阵结构转化为零系数模式）。 - 仿真结果（[0:44:00]）： - \( p=20, d_j=4 \) 的分类响应，样本量 100–1000，G 矩阵估计误差精度高（图中显示平均估计误差迅速下降）。 - 连续参数 RMSE 以 \( O(1/\sqrt{n}) \) 收敛，符合理论预期。 - 真实数据： 1. 核苷酸序列数据（分类响应，[0:45:30]）：无监督学习的潜变量表示可预测（下游分类准确率与调优 CNN 持平）。 2. 教育评估反应时间数据（连续响应，[0:46:00]）：模型揭示出7个潜技能（4个内容技能×3个认知技能）的相关结构，与直觉一致（内容间高度相关；认知间高度相关；跨类别相关较弱）。

[0:47–0:48] 因果推断连接大脑风暴（结束部分） - [0:47:15] 讲者初步提出三个连接方向： 1. 潜变量间的因果发现（因为已识别出联合分布，加上离散因果发现方法可推断因果图）； 2. 与因果表示学习（causal representation learning）的关系； 3. 未观测混淆下的因果推断（潜变量作为混杂因子）。 - 讨论人 Qingyuan Zhao 随后补充（[0:49:37–1:01:22]）：联系到线性 SEM 的叁指标规则、非参数因果图的 do 演算 / ID 算法 / 近端推断（proximal inference）、以及下游的因果表示学习。

[1:01:22–结束] Q&A（截取） - 讨论人询问 S 矩阵的二进制性质是否足够（[0:55:00]）。讲者解释 S 仅是一种中间工具——它完全编码了 G 矩阵所施加的条件概率等式约束，因为“是否要约束”本身就二进制；更精细的依赖（如梯度式约束）不由 S 捕获，但目前的图独立性假设已足够。 - 讨论人将“三个独占子节点条件”与连续因子分析中的叁指标规则类比（[1:00:40]）。讲者承认形式相似，但数学根源不同：连续情形靠协方差矩阵多项式方程，离散情形靠高阶张量多项式方程；未来或许有统一代数视图。

四、对应论文与开放问题¶

(a) 对应论文

这场报告的信息在以下可查论文中有完整处理（按转录与幻灯片确认）：

Gu & Dunson (2023, JRSSB)：”Bayesian Pyramids: Identifiable Deep Generative Models with Discrete Latent Layers”
— 对应报告的分类响应部分（幻灯第18–21页）。提供了严格可识别性条件（三个独占子节点）、贝叶斯估计、教育数据应用。报告在此基础扩展。
Gu (2022, arXiv / 技术报告)：”Blessing of Dependence: Identifiable Deep Latent Variable Models with Binary Latent Layers”
— 对应报告中“任意依赖性的祝福”及将独占子节点数从 3 降到 2 的结果。报告在 [0:24:30] 附近提到此文件名（转写为 “Gu (2022)”），幻灯片第27页有引用标记但未列全标题。待核实精确标题与 arXiv ID。
Gu & Lee (正在投稿 / 准备中)：
— 对应报告的一般响应扩展、非参数分箱技巧、一般可识别性定理、以及主效应模型的宽松 G 矩阵条件。报告标题页注明“joint partly with Seunghyun Lee”，但无精确引用。待讲者确认是否已有 arXiv 或会议版本。

(b) 开放问题（以转写中的具体提及或讨论为基础）

从严格可识别到部分可识别 / 无穷混合（[0:23:10] 与 [0:48:40] 两次提及）：
讲者回应部分可识别性时提到 generic identifiability；另一观众提问“能否是无穷混合”。当前结果假设 \( K_m \) 已知、有限。开放方向：如何界定在 \( K_m \) 未知 / 超饱和（overfitted）时的可识别性；是否可以通过贝叶斯非参数先验自动退化为有限混合。
从相关性到因果关系：潜变量间的因果发现（[0:47:15]）：
当前方法识别的是潜变量的联合分布（相关性），但并未给出有向因果图。开放问题：能否结合离散因果结构学习（例如 PC 算法或得分匹配方法）从联合分布中提取出潜变量间的 DAG？需要什么样的额外假设（faithfulness, minimality, 无反馈）？
未观测混杂下的因果推断（[0:47:15] 末尾）：
如果潜变量作为混杂因子作用于处理 X 和结局 Y，当前的深度潜变量模型能否用于识别因果效应？需要把 G 矩阵扩展到包含处理变量作为观测节点，并需要有类似 Proximal Causal Inference 的不变量条件。报告期冀这是未来工作。
与因果表示学习的衔接（[1:00:50] 讨论人提出）：
问题：在构造深度神经网络时，是否应该强制每个隐层神经元至少有 2–3 个独占子节点以换取可识别性？这在实际计算中是否可行 / 有用？当前 deep learning 社区通常不关心可识别性，如果引入，会给架构设计带来何种限制或增益？
计算可行性问题（报告未详述，但研究者依据自身兴趣可以追问）：
在深度结构下，EM 的局部最优和 MCMC 的收敛性如何？当潜层数增加时，“识别 + 估计”的计算代价如何随层数和潜变量数增长？是否有统计—计算折中（statistical-computational tradeoff）问题——即某些结构在统计上可识别，但需要指数级时间才能从有限样本中恢复？

Maintained by 陈星宇 · Homepage · Source on GitHub

Identifiable Deep Generative Models for Rich Data Types with Discrete Latent Layers¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论