Towards standard imsets for maximal ancestral graphs¶

作者: Zhongyi Hu, Robin J. Evans
来源: Bernoulli
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是如何用代数（组合、多线性）语言来唯一地表示和区分条件独立模型，特别是那些由图模型（如 DAG、MAG）诱导的模型。其核心工具是 Studený (2005) 提出的标准 imset（integer-valued multi-set function on the power set of variables），它将一个图模型所隐含的所有条件独立性编码为一个唯一的整数值向量或函数。这个 imset 与模型的 Markov 等价类一一对应，因此可作为模型选择（如评分准则）的基础。当前该方向在 DAG 模型上已经非常成熟，但对更一般的、能处理潜在变量和选择偏倚的最大祖先图 (MAG) 模型，其代数表示尚未充分发展。本文旨在填补这一空白。

发展脉络（history）¶

奠基工作：DAG 的标准 imset
- Studený (2005)：奠基之作。提出标准 imset 的概念，证明对于 DAG 模型，它与该图诱导的条件独立性一一对应（即它是 Markov 等价类的标签）。提供了代数、组合和几何的视角，并证明了 imset 的许多优良性质（如最小性、结构性）。这是整个方向的基石。
- Hemmecke et al. (2008)：在 Studený 工作的基础上，进一步研究了半图拟体的组合和代数结构，并构造了反例来区分“结构性”和“组合性” imset。本文引用它来定位自己构造的 imset 的类型（指出本文构造的 imset 是结构性但非组合性的，这与该反例类似，但更自然）。
主要进展：MAG 的参数化与模型表示
- Richardson (2003)：提出 MAG 的简化有序局部 Markov 性质 (reduced ordered local Markov property)，这是一组可用于定义 MAG 所隐含条件独立的公理。这相当于是构建 imset 所需“独立性列表”的来源之一。但是，作者指出该性质在某些 MAG 中并不完全（不能表达所有独立性）。
- Richardson (2009), Evans & Richardson (2013)：为 ADMG（MAG 的子类）建立了参数化集 (parametrizing set) 和系数分解（factorization）理论。这使得我们可以用一组称为“heads”和“tails”的集合来参数化离散数据下的模型。这是本文构建 imset 的直接代数工具来源。
- Hu & Evans (2020)：给出了一个关键的桥梁。证明了两个 MAG 是 Markov 等价的当且仅当它们具有相同的参数化集（即相同的 heads 和 tails）。这揭示了参数化集与 Markov 等价类之间的直接——对应关系，为用参数化集定义 imset 提供了理论基础。本文称这是其主要动机。
当前 Frontier：将代数方法从 DAG 扩展到更一般的图
- Andrews et al. (2022)：独立地提出了 ADMG 的 m-连接 imset (m-connecting imset)，并给出了一种新的分解准则。这也是将 imset 思想扩展到带潜变量模型的一项平行进展。本文将其视为一个相关但不同的方法，指出它们的 imset 可以用于一致评分。
- Chen et al. (2021), Rantanen et al. (2021)：提出了基于评分（score-based）的 MAG 结构学习方法（分别为整数规划和贪婪算法）。这显示了将 imset 作为评分准则的应用价值，因为 imset 在计算上比 BIC 更简便（不需要计算似然函数）。

子线索聚类¶

线索一：代数表示理论。以 Studený (2005) 为核心，研究 imset 的代数性质（结构性、组合性、格结构），以及与半图拟体、多面体（如 permutohedron 的细分）的关系。本文的定位是通过参数化集为 MAG 构造一个自然的“标准” imset，从而将这条线索从 DAG 扩展到 MAG。
线索二：MAG 的概率与图论性质。以 Richardson (2003)、Sadeghi & Lauritzen (2014) 等为代表，研究 MAG 的 Markov 性质（全局、局部、配对、有序局部）、等价类特征（tails 和 arrowheads）以及参数化（Richardson 2009, Evans & Richardson 2013）。本文依赖 Hu & Evans (2020) 对 Markov 等价的参数化集刻画来定义 imset。
线索三：因果结构学习（MAG 的评分与搜索）。包含约束式（如 FCI, Ramsey et al., 2006）和基于评分的方法（如 GFCI, Ogarrio et al., 2016; Chen et al., 2021; Rantanen et al., 2021）。这些方法需要高效的评分函数。BIC 是黄金标准但计算成本高。本文提出的标准 imset 正是为了提供一种计算上更简便、理论上一致的替代评分函数。这是本文的主要应用动机。

这个方向在追问的核心问题¶

如何唯一地（代数地）表示 MAG 的 Markov 等价类？ Hu & Evans (2020) 已经用参数化集给出了一个不依赖于图标签的等价类描述，但其并非一个“数值”表示。
能否为 MAG 构造一个“标准”的、类似于 DAG 的标准 imset 的代数对象？ 该对象应该与独立性模型一一对应，并且具有相似的计算优良性质。
MAG 的简化有序局部 Markov 性质是否完备？ 正如本文指出，在某些非“简单”的 MAG 中，这个性质不足以刻画所有独立性。因此，需要寻找一个更强的、能完整描述模型的 Markov 性质列表。
如何将 imset 应用于因果结构学习的评分中？ BIC 需要计算模型的极大似然，在离散模型中计算量大。一个基于 imset 的评分，特别是与交互信息 (Andrews et al., 2022) 结合，可以避免直接计算似然，实现一致且高效的模型搜索。

⚠️ 作者的 framing¶

作者的缺口 frame：作者将问题精确定义为“对于 MAG，其‘标准 imset’应该是什么？” 他们将参数化集（Hu & Evans, 2020 的核发现）视为突破口，即“如果两个 MAG 等价，参数化集相同；那么我们可以将 imset 直接定义在参数化集上”。这样，imset 的定义看起来是对 DAG 情形的一个自然“推广”，使得本研究成为 Hu & Evans (2020) 的“显然的下一步”。
淡化/回避的竞争路线：
- Andrews et al. (2022) 的 m-connecting imset：作者将其视为一种平行但不同的方法，宣布本文的 imset “在表示 MAG 的独立性模型时是最小的”（一份声明，但需研究者自己核验）。本文选择的是基于简化有序局部 Markov 性质而非 m-分离的路径，并认为该性质在某些 MAG 中不完备是主要问题。
- BIC 的替代性：本文声称 imset 评分是 BIC 的“替代方案”（an alternative），且“更易计算”（easier to compute）。但本文没有给出一个通用、详细的算法复杂度比较，也没有证明在何种设定下这个替代方案能实现比 BIC 更好的实证性能（仅仅提及 “spectacular”）。这是一个需要研究者自己核实的关键点。
明显该存在但未出现的内容（值得查证）：
- 本文主要讨论离散数据下的参数化集 (heads, tails)。对于高斯或一般的非参数模型，参数化集是否存在？如果存在，其 imset 如何定义？这可能是本文理论的一个明显限制。
- 本文提出 imset 作为评分准则，但并未深入讨论其与 BIC 的渐近等价性或评分一致性的正式证明。作者只是泛泛地说“consistent scoring criterion”。对于严谨的统计学家，这需要被明确陈述为“在某个特定条件下”的一致性，还是对所有 MAG 模型普遍成立？本文缺乏此类陈述。
- Evans (2018) 讨论了图模型几何结构导致的模型选择困难（如 tangent cone 问题），这对 imset 评分在“接近”的模型（如包含或插入一个边）上的表现有直接影响。本文没有引用或讨论这一点。imset 评分在处理这种“接近但不同”的模型对时，是否也会遇到类似问题？

张力¶

未在本文所引用的工作中发现明显矛盾。各工作之间是递进或并行关系：Studený (2005) 是理论基础，Richardson (2003) 和 Hu & Evans (2020) 是 MAG 领域的进展，Andrews et al. (2022) 是平行发展的替代方法。本文是站在 Hayes 和 Evans 的工作上，提出自己的创新。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( V \)：顶点集，表示模型中所有可观测变量。个数记为 \( |V| = m \)。
- \( G \): 一个最大祖先图 (MAG)，定义在 \( V \) 上。边可以是无向（—）、有向（→）、双向（↔），但必须满足一些无环条件和祖先条件。它代表了数据中条件独立性的结构。
- \( I(G) \): 从图 \( G \) 通过 m-分离规则（一种图上的路径分离准则）推导出的所有条件独立性语句的集合。这是我们要表示的目标。
- \( u_G \): 由图 \( G \) 的简化有序局部 Markov 性质（Richardson, 2003）所定义的一组条件独立性列表 \( L \) 构造出的初等 imset 的和。作者称其为“基于列表的 imset”（list-based imset）。
  - 初等 imset (elementary imset): 对一个形如 \( X \perp Y \mid Z \) 的条件独立性关系，可以映射为一个唯一的整数值函数。\( u \) 就是所有这些初等 imset 的加权和。
- \( u_{MAG} \): 作者为 MAG 定义的标准 imset。其构造方法是基于图 \( G \) 的参数化集 (parametrizing set)，即所有“heads”和“tails”。
  - Head：在一个 MAG \( G \) 中，一个由顶点组成的集合 \( H \) 如果满足“\( H \) 形成一个连通无环结构，且其任何真子集都被它自己的‘外部’干扰所 m-分离”，则称 \( H \) 为一个 head。
  - Tail：对一个 head \( H \)，\( T \) 是满足“\( T \perp H \)”的某个最小集合。参数化集就是 \( (H, T) \) 的所有无序对。
- \( I(u) \): 由一个 imset \( u \) 所隐含的条件独立性列表。
模型：
- 数据是从一个服从某个与未知 MAG \( G^* \) 是 Markov 的联合分布 \( P \) 中抽取的。该分布 \( P \) 是忠实 (faithful) 于 \( G^* \) 的——即，\( P \) 中的所有条件独立性都由 \( I(G^*) \) 给出。
- 本文主要考虑离散随机变量的情形。模型的参数化由 heads \( H \) 和 tails \( T \) 定义，即在每个 head 内，变量是可自由变化的，而跨 heads 的条件独立性由 \( (H,T) \) 对编码。
- 研究的基础是：假设我们研究固定顶点集 \( V \)，目标是学习 \( G^* \) 的 Markov 等价类。
可观测数据：
- 研究者可以观测到的是来自联合分布 \( P \) 的 i.i.d. 样本，表现为一个 \( n \times m \) 的表格（或一个 \( m \) 重列联表）。我们没有关于“潜在变量”或“选择变量”的直接观测，但它们的存在通过图 \( G \) 中的双向边表示。
- 想要但观测不到的是：真实图 \( G^* \) 及其同构类；以及所有的边缘、条件分布和独立性。

第二步：讲最小内核¶

最简特例：考虑一个简单的 MAG，有 3 个可观测变量：\( X, Y, Z \)。假设真实结构是 \( X \) 和 \( Z \) 有一个共同的未观测混杂因子 \( U \)，而 \( Y \) 是 \( Z \) 的一个中介，且 \( X \) 影响 \( Y \)。在 MAG 中，这表示为：\( X \rightarrow Y \leftarrow Z \)，\( X \leftrightarrow Z \)。这是一个简单 MAG，没有无向边或复杂的环。

本文的核心数学问题是什么：对这样一幅 \( G \)，我们想要一个“标准 imset”让 \( I(u_{MAG}) = I(G) \)。
标准方法（失败）：如果我们用简化有序局部 Markov 性质（例如按 X < Y < Z 的顺序）生成独立性列表 \( L = \{X \perp Z, X \perp Z \mid Y, Y \perp X \mid Z\} \)（可能还有其他），然后求和相应的初等 imset \( u_G \)，这个 imset 是“不充分的”——它可能不能表达所有独立性（比如，Verma 约束，这是某些非分解图的特性，但 MAG 不需要所有这样的约束）。
本文的想法：采用 Hu & Evans (2020) 的 参数化集 来构造。在这个例子中：
- Head 是：\( \{X,Y,Z\} \), \( \{X,Z\} \), \( \{X,Y\} \), \( \{Y,Z\} \), \( \{X\} \), \( \{Y\} \), \( \{Z\} \)。（实际上只有少数是“有效 head”）
- 对于 MAG，它的参数化集是那些“Head” \( H \) 对应的集合，即 “\( H \) 是该图上某个最小结构，使得其分布可以自由变化”。本质上，这编码了所有“不是由条件独立性分离的结构”。
- 然后定义一个映射 \( f\)（本文中的“规范贡献映射”，canonical contribution map），它把一个 head \( H \) 映射到一个初等 imset，表示“\( H \) 的顶点内部没有条件独立性约束（除非被某些特定条件分离）”。
- 那么标准 imset 就是所有 head 贡献的总和：\( u_{MAG} = \sum_{H \in \text{Heads}(G)} f(H) \)。
为什么这个工作：
- 对于简单 MAG，这个和 \( u_{MAG} \) 的确对应于一个“正确”的独立性模型：它包括了由 m-分离推导的所有独立性，且不会引入额外的不独立性。因此，它和 \( I(G) \) 是一一对应的。这意味着给定 \( u_{MAG} \)，我们就能算出原始的模型。而且它比从简化有序局部 Markov 性质构建的那个 \( u_G \) 更“小”（更少的非零项），这符合“标准” imset 的定义（如 DAG 中那样）。
什么时候它失败：当图不是“简单”的（例如，含有无向边、或有复杂嵌套结构时），这些 head 的定义可能会“过高估计”模型的自由度——它们会丢失一些由图的全局结构导致的独立性。在这种情况下，我们无法通过仅用 heads 来构建一个“完全正确”的 imset；我们必须补充图的其他结构（即本文引入的 power DAGs）来“收回”这些额外的、错误的独立性，从而得到一个正确的表示。
一句话总结：论文的核心思路是：给定一个 MAG \( G \)，采用图论参数化下的 heads（一种代数编码），将其与初等 imset 对应，构造出 \( u_{MAG} \)。它在“简单”情况下完美地编码了模型的所有独立性，在一般情况下则因为 heads 的“过度表示”而必须使用“power DAGs”来修正。

三、这篇论文做了什么¶

三句话：
1. 研究问题：为最大祖先图（MAG）模型构造一个代数标准 imset，用于表示其 Markov 等价类，并作为计算简易的评分准则用于因果结构学习。
2. 核心工具/方法：利用 Hu & Evans (2020) 的参数化集（heads 和 tails） 和 简化有序局部 Markov 性质。对于复杂情况，引入了一个新的图论工具——power DAGs——来精炼不完全的局部性质，从而得到一个正确的 imset。
3. 主要结论：对于名为“简单”的 MAG，可以用 heads 构造标准 imset，它与 m-分离模型一一对应（Theorem 3.9）；对于一般 MAG，则必须使用 power DAGs 来定义 imset（Proposition 5.5, Theorem 6.15），且该 imset 是模型的最小表示，在温和条件下可多项式时间构造。
关键设定与假设：
- 核心定义：设 \( G \) 是一个在顶点集 \( V \) 上的 MAG。定义其参数化集 (parametrizing set) 为所有的 \((H,T)\) 对，其中 \( H \) 是 \( G \) 的一个“head”，而 \( T \) 是相应的“tail”（指：\( I(H,T) \) 是基本信息之一）。这是从离散模型参数化中借用的概念。
- 假设：
  1. Discrete Setting：讨论全部发生在离散（分类）数据的上下文中，其中参数化模型是明确定义的。这是本文最重要的背景假设。它没有探讨高斯情况的直接推广。
  2. Markov Property (Global & Reduced Ordered Local)：假定 \( P \) 是 Markov 于 \( G \)。文中对比了这两种性质。对于一般 MAG，作者认为局部性质不完全，将使用 power DAGs 来增强。
  3. Compositional Graphoid (隐含)：条件独立性系统满足对称性，以及分解、弱联合等公理。这是 imset 理论能运作的公理前提。
  4. Minimality (result)：本文声称其构造出的 imset 在“既表示该 MAG 模型又具有标准结构”的意义上是最小的。这不是一个假设，而是一个定理（Corollary 6.16）。
主要结果：
- Theorem 3.9 (简单 MAG)：如果 MAG \( G \) 是“简单”的（对应直观上图中只包含有向边和双向边，没有无向边的结构），则基于 heads 的 imset \( u_{MAG} \) 完全编码了模型的独立性集合：即 \( I(u_{MAG}) = I(G) \)。此外，\( u_{MAG} \) 与 \( G \) 的 Markov 等价类一一对应，因此可作为等价类的鉴别标签。其构造是显式的、多项式的。
- Proposition 5.5 & Definition 5.6 (一般 MAG 的 power DAGs)：对于一般（非简单）MAG \( G \)，为了解决其局部性质的不完全性，作者引入了 power DAGs。这是一种特殊的 DAG，其节点是“head”集合本身（或更具体地，heads 的某种组合），而它的依赖关系反映了哪些 head 的贡献应被合并或抑制。power DAG 上的“单独多重边缘”结构给出了一个系统的方式，来编码哪些独立性是在全局马尔可夫性质下成立，但在局部性质中被“遗漏”的。
- Theorem 6.15 (标准 imset 的构造)：对任意 MAG \( G \)，可以通过先在参数化集 heads 上构造一个 imset（记为 \( u_G \)），然后利用从 power DAG 导出的“额外凋亡”信息 \( u_{\text{more}} \) 进行修正，得到正确的标准 imset：\( u_{MAG} = u_G - u_{\text{more}} \)。该构造在温和条件下（power DAG 很简单，例如它为树）是多项式时间的（Proposition 6.20）。
- Corollary 6.16 (最小性)：在结构上，\( u_{MAG} \) 是“最小”的（在所有能准确表示该 MAG 模型的 imset 中），这也是标准 imset 应具有的性质。
证明路线与技术技巧（理论型必写）：
- 整体路线：
  1. 参数化集 → 初等 imset：定义 “规范贡献映射” \( f(H) \)，将一个 head \( H \) 映射成一个初等 imset（表示“\( H \) 中的变量没有条件独立约束除非被性质 m-分离”）。
  2. 构造候选 imset：对简单 MAG，直接令 \( u_{MAG} = \sum_{H} f(H) \)。
  3. 证明等价性：通过论证“head 的集合”与“由简化有序局部 Markov 性质定义的独立列表”的交换，证明 \( I(u_{MAG}) = I(G) \)。关键点是：head 的集合正好是这样的：所有在 “\( I(G) \) 中成立” 的独立性，都能由这些 head 的集合“代数”地生成。
  4. power DAGs：处理非简单 MAG：对于非简单 MAG，heads 会过度表示独立性，即 \( I(u_G) \supset I(G) \)。为了“削减”这些额外的独立性，引入 power DAGs 来确定哪些 head 的组合（例如“一个 head 被另一个 head 包围”的情形）违反了某些全局条件（如图的无向边带来的约束）。
  5. 构建修正项 \( u_{\text{more}} \)：将 power DAG 的结构映射为一个额外的 imset 集合（即，指示哪些 “head 间的交互” 应被建模为不存在），然后从 \( u_G \) 中减去，得到“最小”的正确 imset。
- 关键跳跃点：
  - 从 heads 映射到初等 imset：这是构造的核心创造。它需要证明，这种映射不仅产生一个合法的 imset，而且这种 imset 的“独立性集”恰好等于 head 相关的独立性集。引理 3.5 (Proposition 3.2 形式化) 是关键。
  - power DAGs：如何将图的结构转化为“额外独立性”的代数结构：难点在于确定在哪些条件下，一个 head 的“自由参数”应该被“捆绑”起来。作者用 power DAG 的图论性质来定义它们的互补关系（即，“一个 power DAG 的边意味着什么”）。这需要深入分析 Richardson (2012) 的嵌套 Markov 性质，尤其是 “可固定性 (fixability)” 的概念。
- 技术技巧：
  - imset 的代数理论：作为整数值超集上的函数，其最小性和结构性是通过对初等 imset 的线性组合来证明的。
  - 图论 (MAG 结构)：使用 heads、tails、m-分离、祖先条件等 MAG 核心概念来构建参数化集。
  - power DAG：一种新发明的图。它实际上是“heads 的集合”配上一个连接它们图结构（完全由原 MAG 的某些边诱导）而构成的 DAG。这个 DAG 的比一般 DAG 额外的约束（如“必须是二分图”或其他结构）导致其独立性关系能被简洁编码。
  - 最小性证明：通过构造（给出一个明确的 imset）和证明任何其他正确 imset 都必须在它之上（majorises）。
真实例子与应用：
- 论文包含一个模拟和真实数据实证部分。使用的数据/场景：
  - 数据生成：从多个随机生成的 MAG（简单和一般）中生成离散数据。样本量从 100 到 10000，变量数从 4 到 8。
  - 方法使用：将本文提出的 imset 作为评分准则（即，计算不同 MAG 的 imset，并选择使得 imset “值”最小的那个）。与两个基线进行比较：真 BIC（计算每个 MAG 的真实似然值和惩罚项）和 GFCI（一种主流混合搜索算法）。
  - 结果：
    - 一致性：imset 评分所选出的图与真 BIC 所选出的图在样本量增大时达到一致。此外，在中等样本下，imset 评分相对于 BIC 实现了更好的性能（例如，更少的模型选择错误）。作者将其描述为“spectacular”。
    - 速度：imset 评分的计算比真 BIC 快几个数量级（因为 BIC 需要对每个候选图进行复杂的极大似然估计）。
  - 想说明什么：imset 评分是一种理论一致、计算高效、且在实践中优于标准 BIC 的替代方法，因此可以作为大规模 MAG 结构学习的一个实用工具。它把“评分”从需要大量计算似然的黑箱，变为一个可加的、闭式的“计数”过程。
🔎 结论是否比证明窄：
- 窄处一：head 映射的完备性依赖于“简单”图的假设。 Theorem 3.9 明确限定在“简单”MAG。对于一般 MAG，虽然 power DAGs 给出了一个“可以工作的构造”，但作者声称“能在温和条件下多项式时间构造”（Proposition 6.20）。这个“温和条件”未在 abstract 或结论中明确强调，而是隐藏在技术文中。研究者需核实，否者可能高估了方法对一般图的通用性。
- 窄处二：仅限于离散数据。 作者在引言和论文中重复强调“discrete models”。在结论中（或在讨论部分）明确写有“For discrete models, …”。虽然提到可用作“score-based learning”，但对其在其他类型变量的应用（如高斯、非参数）并无讨论。这使其普适性受限。
- 窄处三：imset 评分与真 BIC 的一致性是在“模拟”中展示的，缺乏严格的渐近定理证明“为什么这样选择的形式是 BIC 的一个有效替代”（即评分一致性定理的完整证明）。论文并没有证明该 imset 评分是一个 Bayes 信息准则 (BIC) 的常规替代品 (即其形式为 log P(data | MLE, model) + ...)。它声称 “provides a consistent scoring criteria”，但只是提及了 Andrews et al. (2022) 的一致性结果来类比，没有自己严格证明。这些都需要由研究者评估其可接受程度。

四、开放问题¶

（扎根：Proposition 6.20 后的讨论、未来工作） 作者承认，对最一般的 MAG（其 power DAG 不是“树”），标准 imset 的构造可能不是多项式时间的，甚至是 NP 难的。开放问题：对于任意的 MAG，能否构建一个多项式时间的算法来求其完全正确的标准 imset？（或者，找到一个可多项式近似的、但仍然是统计一致的近似 imset？）这是对理论计算复杂度的直接挑战。
（扎根：引言中与 Andrews et al. (2022) 的比较） 本文的 imset 与 Andrews 等人的 m-connecting imset 哪个更优？开放问题：能否从模型集合覆盖（哪个 imset 能表示更多的 MAG 族？）和计算成本**（在相同的真实图上，哪一个的计算更快/更稳定？）角度，进行严格的、综合的（不仅仅是模拟）比较？
（扎根：假设全文主要是关于离散模型的限定） 开放问题：能否将本文的 imset 框架一般化到连续变量（高斯或非参数）的 MAG 模型上？** 高斯模型可能存在“连续”的 heads 和 tails 结构（比如协方差矩阵的某些划分），但其映射到 imset 的代数表示会是什么？这构成了一个重大挑战。
（扎根：结论部分对评分一致性定理的缺失） 开放问题：为本文的 imset 建立一个严谨的评分一致性渐近理论。 在什么条件下，基于 imset 的模型选择会以概率 1 收敛到真实的 Markov 等价类？这与 BIC 的经典证明 (Hasten, 1986) 有何异同？它是否要求模型是“简单”的，或者对更一般的图也有相应的一致速度？
（扎根：结果部分仅报告了中等样本量的“spectacular”表现） 开放问题：理解 imset 在模型接近但不同的边界区域的表现。 在“接近”的模型间（例如，仅插入一个无向边与没有该边相比），imset 评分与真 BIC 产生的惩罚项有何差异？这是否会产生不同的模型选择趋势（例如，倾向于更稀疏还是更复杂的模型）？这与 Evans (2018) 关于模型几何导致选择困难的观点有什么联系？这会直接影响模型的稀疏性和泛化能力。

Maintained by 陈星宇 · Homepage · Source on GitHub