跳转至

Bayesian differential causal directed acyclic graphs for observational zero-inflated counts with an application to two-sample single-cell data

作者: Junsouk Choi, Robert S. Chapkin, Yang Ni
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 7/10
机构绿灯: Texas A&M University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-aoas2042


一、领域脉络与小综述

  • 这个方向是什么:本子方向处理的是「从纯观测、横截面数据中学习有向无环图(DAG)结构」中的因果推断问题,且进一步延伸至「两组(如对照 vs 处理)之间的差异因果网络」的识别。核心挑战在于数据是零膨胀计数(如单细胞 RNA-seq 的基因表达计数,大量零值 + 过度离散),而现有 DAG 学习方法主要针对连续高斯或二值数据,对零膨胀计数数据的拟合很差,导致结构学习的偏误。本文试图在贝叶斯框架下,用零膨胀负二项分布显式建模数据生成机制,同时证明在这样的模型下,因果方向在观测数据下是完全可识别的(即不需要干预或时间信息,仅凭联合分布就能恢复 DAG 的定向)。这是一个结合了因果识别理论贝叶斯结构学习的、针对特定数据类型(零膨胀计数)的方法论工作。

  • 发展脉络(history):作者在 introduction 中引用的文献勾勒出三条主线:

    1. DAG 结构学习的基础方法:奠基工作包括 Pearl (2009) 的因果图理论框架、Spirtes et al. (2000) 的 PC 算法(基于条件独立性检验)以及 Chickering (2002) 的 greedy equivalence search (GES)(基于评分搜索)。这些工作确立了从观测数据学习等价类(CPDAG)的基本范式,但等价类内的方向往往不可识别(除非额外假设,如 faithfulness 或选择偏向)。
    2. 零膨胀计数数据的 DAG 建模:Robinson et al. (2010) 引入了 DAG 结构学习的贝叶斯框架,但未处理零膨胀。Park & Casella (2010) 是负二项模型的早期工作。更近的如 ZINB (zero-inflated negative binomial) 模型在基因表达数据中很常见 (e.g., Risso et al., 2018),但没有作为 DAG 的节点生成模型被系统研究。作者指出"existing methods do not adequately account for excessive zeros"。这条线的缺口中,"如何在 DAG 中耦合零膨胀机制与条件正态分布(或其它分布)的回归模型?"没有得到解决。
    3. 差异因果网络(differential causal network):现有工作要么假设两组共享一个共同的 DAG 结构再比较边权重 (e.g., Ni et al., 2020),要么分别学习两个独立 DAG 再比较差异。作者引用 Ni et al. (2020) 的工作(该工作做了差异 DAG,但针对的是连续高斯数据),定位自己的贡献为:在零膨胀计数情境下把差异 DAG 和 DAG 可识别性结合起来。这使得本文成为了一个特定数据类型的“下一步”——既不是纯理论上的计算复杂度简化,也不是通用方法的微调。
  • 子线索聚类:被引文献大致落在三条子线索上:

    • 子线索 1: 观测 DAG 的可识别性理论。核心文献:Pearl (2009) 的因果图框架 + Spirtes et al. (2000) 的 PC 算法。本文的创新点是:证明了在零膨胀负二项模型下,DAG 的定向是完全可识别的(不再是等价类),而无需额外的 faithfulness 或选择偏向假设(如 linear non-Gaussian acyclic model, LiNGAM, 如 Shimizu et al., 2006)。这是一个强有力的理论突破——但只在本文提出的特定参数模型下成立。
    • 子线索 2: 零膨胀计数数据的统计建模。核心文献:零膨胀泊松/负二项模型(如 Lambert, 1992; Greene, 1994; Risso et al., 2018)。本文把这些模型作为每一个节点的条件分布纳入 DAG 中,并利用贝叶斯方法进行推断。这比简单的泊松 DAG (e.g., 基于 GLM 的 DAG) 更接近单细胞数据的实际生成机制。
    • 子线索 3: 差异网络与贝叶斯结构学习。核心文献:Ni et al. (2020) 的差分高斯 DAG;Heckerman et al. (1995) 的贝叶斯结构学习范式。本文把差异框架扩展到零膨胀计数数据,并用 parallel-tempered MCMC 处理后验的多模态。
  • 这个方向在追问的核心问题(2-4 个)以及主流方法与瓶颈:

    1. 观测 DAG 的可识别性条件(要什么条件才能从联合分布唯一恢复 DAG?):主流方法如 PC/GES 只能识别到 Markov 等价类(CPDAG),除非额外假设(如非线性、非高斯、或干预)。瓶颈在于离散数据的等价类往往更大(因为离散分布的等价类由条件独立性关系决定,通常比 Gauss DAG 的等价类更大),可识别性更差。本文试图打破这个瓶颈。
    2. 零膨胀数据的结构学习(如何把零作为一种特别的结构信号利用而不是噪声?):当前方法要么忽略零(只处理非零值),要么把零视为缺失数据,要么对零的比例进行简单的偏移。瓶颈在于:零的生成机制(零膨胀 vs 结构零)与因果方向之间是否有可识别的关系? 作者抓住了这一点:在他们的模型里,零膨胀参数本身就是 DAG 回归方程的一部分(具体地,零膨胀概率被建模为父节点的函数),这提供了定向的额外信息。
    3. 差异网络的比较(如何统计上严谨地比较两个组的 DAG 差异?):主流方法要么是比较两组分别学出的 DAG 的差异(忽略了估计不确定性),要么是用假设检验。瓶颈在于贝叶斯方法下如何量化差异的不确定性并允许边在不同组之间有增减。本文是在贝叶斯框架下直接对差异 DAG 进行后验推断。
  • ⚠️ 作者的 framing

    • 缺口 frame: 作者把缺口 frame 成“现有方法不能处理零膨胀” + “现有方法没有证明完全可识别性” + “现有方法不提供差异网络的贝叶斯推断”。因此本文就成为一个“包治三个缺口”的完整方案:一个模型(DAG0)+ 一个可识别性定理 + 一个贝叶斯推断流程。
    • 淡化/回避的竞争路线:
      1. 非参数/半参数可识别性。作者回避了与非参数可识别性理论的对比。例如,即使不用零膨胀负二项模型,有方法(如基于条件独立性的 PC 算法 + 变量的函数形式限制)也可以达到一定的可识别性。作者没有详细论证为什么零膨胀负二项模型比这些方法在零膨胀数据上更强。一个读者可能会问:零膨胀负二项模型是否具有某种“额外信息”足以让小样本下的可识别性更强? 作者只提了理论上的完全可识别性,但没量化其与 PC/GES 等价类的实际距离。
      2. 潜在结果框架与本框架的桥接。作者把 DAG 结构学习视为因果推断的核心,但没有讨论从 DAG 到平均处理效应(ATE)/条件处理效应(CATE)的识别。对于研究中专注于因果效应的研究者来说,这里留下一个缝隙:即使你恢复了 DAG,你的 estimand(如组间差异)在零膨胀数据下是否可以被识别并估计?(例如,do-操作下的零膨胀分布?)
    • 什么明显该被引/该存在,却没出现在 intro 里?
      1. 关于离散 DAG 可识别性的其他成熟方法:如线性非高斯无环模型 (LiNGAM) (Shimizu et al., 2006) — 这类方法对连续数据效果很好,对离散数据也有扩展(如基于非对称的离散 LiNGAM)。为什么 LiNGAM 框架未被引用或对比?作者可能认为 LiNGAM 依赖非高斯/非对称分布,而零膨胀模型是另一种不对称源。没有对比 LiNGAM 是一个明显的缺失。
      2. 关于结构学习的贝叶斯计算的大规模工作:如高维贝叶斯结构学习(基于 shotgun stochastic search, birth-death MCMC 等)。作者只用了一系列简单的模拟比较,忽略了与现有已发表的大规模贝叶斯 DAG 方法的详细计算成本比较(如多个文献中的贝叶斯 DAG 采样器)。这是一个事实上的 gap。
  • 张力:未见明显对立引用。所有被引工作在同一方向(DAG 结构学习用于生物数据)上形成渐进式的改进(从高斯到泊松到零膨胀负二项;从单组到差异网络),没有根本性的范式冲突。

二、最核心、最简单的例子/数学问题(先把符号/模型/可观测数据交代清楚)

  • 第一步:把符号、模型、可观测数据交代清楚

    • 符号

      • V = {1, ..., p}:节点集(如 p 个基因)。
      • G = (V, E):一个有向无环图(DAG)。E 是有向边集。父节点集合:pa_G(j)
      • 参数:对于每个节点 j:
        • β_{j, pa(j)}:回归系数向量(从父节点到节点 j 的线性部分)。
        • π_j:节点 j 的零膨胀概率(一个介于 0,1 之间的参数,代表“结构零”的概率)。
        • r_j:节点 j 的负二项离散(size)参数(shape 参数)。
      • 数据生成
        • 节点 j 的条件分布:X_j | X_{pa(j)} ~ ZINB(μ_j, r_j, π_j),其中:
          • μ_j 是条件均值(通过 log link 与父节点的线性组合相关联:log(μ_j) = γ_{0,j} + Σ_{k in pa(j)} β_{j,k} X_k)。
          • 关键:零膨胀概率 π_j 也被建模为父节点的函数的变换logit(π_j) = α_{0,j} + Σ_{k in pa(j)} δ_{j,k} X_k。(这是本文的一个设计:零膨胀的 log-odds 受父节点影响,而不是独立常数。)[通常,β_{j,k}δ_{j,k} 是边权重的两组系数]。
        • 每个节点 j,按该 ZINB 分布独立抽样(给定父节点)。
      • 观测数据:两个独立样本(控制组 C,处理组 T),每组有 n 个独立同分布的观测(即每个样本是一个 p 维向量)。可以观测到所有 p 个节点的零膨胀计数结果。不可观测的是:DAG 结构本身(G)、每个节点的具体参数。想知道的是:组的因果结构(G_C, G_T)以及哪些边在两组间不同。
    • 模型:本文提出的模型是一个贝叶斯全概率模型,对控制组与处理组分别定义相同的 ZINB-DAG 结构(但允许参数不同,允许结构不同——因为差异 DAG 就是两组 DAG 的对称差)。先验假设 DAG 结构稀疏,并鼓励边的存在性或增减变化具有某种正则性(如使用 spike-and-slab 先验或马氏随机场先验来促进两组间的差异稀疏性)。

    • 可观测数据:研究者实际获得的是 C 组和 T 组的两组 p 维零膨胀计数矩阵。真正想要却观测不到的是

      1. 一个根本性的反事实:对于一个特定的样本点,如果它被分配到另一组,它的计数数据会是什么?——DAG 结构学习不直接处理这个问题,所以不是核心。
      2. 各组真实 DAG (G_C, G_T) 和其参数。
      3. 定义差异边集 D = E_C Δ E_T(对称差集)。这是我们要估计的主要目标。
  • 第二步:讲最小内核

    最简特例:假设 p = 2(只有基因 V1 和 V2),且两组是完全同质的(所以差异 DAG 问题退化为从一个组学习一个单一的 DAG)。最简的方向可识别性问题就在这里展现。去掉了跨组比较的复杂性后,核心困难是:从两个随机变量 (X1, X2) 的联合分布中判断是 X1 -> X2 还是 X2 -> X1

    具体过程: - 设定: - 节点:V1, V2. - 真正的 DAG 是 V1 -> V2 (pa(2) = {1}, pa(1) = ∅)。 - 数据产生过程(控制组为例,去掉组下标): - X1 ~ ZINB(μ_1, r_1, π_1),其中 μ_1 = exp(γ_0,1) (因为无父节点),logit(π_1) = α_0,1。 - X2 | X1 ~ ZINB(μ_2(X1), r_2, π_2(X1)),其中 μ_2 = exp(γ_0,2 + β_{2,1} X1)logit(π_2) = α_0,2 + δ_{2,1} X1。 - 可观测:我们收集到一个样本 {(X1_i, X2_i), i=1..n}。 - 问题:为什么从数据中可以识别方向(而不是只能识别等价类 X1 X2,即无法区分 V1->V2V2->V1)?在标准条件独立图论中,X1 ⟂̸? X2 (两者相关),且没有第三个变量,因此 Markov 等价类就是 {V1 -> V2, V2 -> V1} (无 v-structure 可定向)。标准方法(PC 算法)会输出一个无向边。 - 本文关键想法 (在 2D 隐喻中): - 假设真实数据确实是从 V1 -> V2 的 ZINB-DAG 中生成的。现在尝试拟合一个反向 DAG (V2 -> V1): - 这要求我们为反向图设定节条件分布:X2 ~ ZINB(...)X1 | X2 ~ ZINB(...)。 - 重点:在反向条件下,X1|X2 的条件分布的函数形式必须是 ZINB(均值与 log-odds 均为 X2 的线性函数),这个函数形式是预先固定的(log link, logit link 对父节点的线性组合)。 - 自相矛盾:如果真实的生成过程是 X1 -> X2(且模型假设正确),那么 X1|X2 的条件分布不是 ZINB(至少不以 X2 的线性函数作为唯一自变量),因为它实际上是 X1 的边际分布(如果 X1 不是 X2 的函数)与 ZINB X2|X1 的贝叶斯逆推的结果——一般不会有简单的线性结构。因此,如果模型假设正确且参数空间有限,反向图根本不对应任何可行的参数组合(即数据的 likelihood 在反向的 ZINB 参数化下为零或极低)。 - 所以可识别性依赖于模型形式的具体选择:作者证明 ZINB 的条件期望和零膨胀 log-odds 在父节点变化下的线性结构足以在任何 DAG 方向下识别真实的 DAG,除非模型存在严重的退化(如均值为常数)。 关键是,这种不可逆性不依赖于线性 vs 非线性,而依赖于条件分布对父节点的具体依赖函数(log link + logit link),使得双向不兼容。 - 这个例子要说明什么:2 变量情况清晰地展示了本文可识别性证明的一个直观核心:模型对条件分布的函数形式施加了刚性结构,这种结构足以在等价类内部定向。它不依赖于额外的条件(如 faithfulness 或非高斯性),而是内生的。把这个直觉推广到 p 变量,就构成了证明的主干:通过归纳论证和对齐参数,证明不存在两个不同的 DAG 和参数集合能产生相同的联合分布。

    读者手里已抓住的核心:这篇论文在数学上干的其实是一件非常清晰的事:证明在本文定义的 ZINB-DAG 这个模型类里,DAG 的定向是点亮的(fully identifiable),而不只是等价类。

三、这篇论文做了什么

  • 三句话: ① 研究了在纯观测的零膨胀计数数据下,如何从两组数据中学习稀疏 DAG 结构并识别差异因果网络。 ② 核心工具是提出一个贝叶斯差分零膨胀负二项 DAG 模型(DAG0),并伴以一个一般性的可识别性证明技术,说明在该模型设置下因果方向是唯一可识别的。 ③ 主要结论是,从模拟和真实单细胞数据中,DAG0 在恢复 DAG 结构(特别是差异边)方面显著优于现有忽略零膨胀或依赖高斯假设的方法,且 MCMC 样本在 parallel-tempering 帮助下可以探索复杂的后验。

  • 关键设定与假设(补全第二节)

    • 数据假设(可观测性)CT 两组的样本是独立同分布的横截面观测数据。无干预,无时间序列,无辅助变量。
    • 假设 1(模型结构):每个节点 j 的分布是零膨胀负二项,它的条件均值 (μ_j) 和对数零比值 (logit(π_j)) 都是其父节点计数的线性函数(经过 log / logit 链接)。也就是说,这是一个严格参数化的模型:回归系数反映线性依存。
    • 假设 2(DAG 性):真实数据生成过程的图结构是一个 DAG,不存在双向边或环。这假定因果结构是无环的。
    • 假设 3(参数非退化):回归系数不能为 0 且离散参数等非退化——也就是说,不存在一个节点的分布只依赖于常数项(即父节点对其分布无影响)。这篇论文在可识别性证明中显式假设了这一点,将其排除在外。
    • 相比已有文献的放宽/强化
      • 放宽:相对于 PC/GES (Spirtes et al., 2000),本文有意放宽了 faithfulness 和选择偏向的假设,且不需要任何已知的 v-structure 或时间阶。可识别性在这里是模型驱动的,不是等价类驱动的。
      • 强化:相对于 LiNGAM (Shimizu et al., 2006),本文强化了对分布的条件形式的要求(ZINB 必须是精确的),而不再依赖于非高斯性。如果一个真实的零膨胀数据生成过程是零膨胀泊松而不是 ZINB,本文模型将不正确。这是一个很强的假设。
      • 关键技术点:本文的证明包含一个一般性引理,说明如果一个模型族存在某种“似然可定向性”性质(即反向等价类模型参数化方向的数据支持为 0),那么可识别性成立。作者举例说这种证明技术可应用于高斯线性模型(此时等价类不可定向,因为高斯线性模型是自反的:X1→X2 等价于 X2→X1 同样好),和泊松对数线性模型(可定向,但泊松模型无零膨胀因子)。所以本文证明的本质是把这种“不可逆函数形式”赋予 ZINB 的情形。
  • 主要结果

    • 定理 1(可识别性——核心定理)
      • 陈述:在所有回归系数非零、且模型非退化的条件下,DAG0 模型的联合分布 唯一决定一个 DAG 方向;即不存在另一个 DAG(不同定向)和参数能产生相同的联合分布。
      • 直觉:如果两个不同的 DAG 参数化(如 G_1G_2)产生相同的 p 维联合分布,那么必须证明它们对应同一个定向(即边集不变)。证明自然是通过对假设的线性函数形式的分析——假定父节点集不同,推导出参数方程出现矛盾。
      • 必要条件:参数可识别性在常数项被吸收进 link 函数、且回归系数都不为零时成立。这与 Gaussian 连续数据完全不同(那里的回归系数可能为零但仍可识别)。
      • 解决的技术难点:如何对离散、零膨胀的非高斯模型进行方向的唯一性证明,通常这类证明对多元 Poisson 模型已经很难,本文的 ZINB 有两个 link 函数(均值 link 与 logit link),且每个节点有零膨胀参数 r,使证明更为复杂。作者的核心技巧是在引理中证明联合密度的累积生成函数(或条件分布的 moment generating function)可以被线性分解,从而系数必须匹配。
    • 定理 2(后验一致性——定理形式,但陈述上可能是渐近性质):在一定的正则条件下,DAG0 的后验概率在真实 DAG 处一致(mass 趋近于 1)。这保证了贝叶斯推断的合理性。Beta 式的定理:随着样本量 n → ∞,后验对真实结构的概率会趋近于 1。因为这是贝叶斯学派的标准结果,本文简洁说明前提假设满足 regularity conditions.
    • 模拟/应用结果的核心对比
      • DAG0 在零膨胀数据的 DAG 估计和差异 DAG 边发现上一致优于 GES (高斯)、BOG (泊松 DAG),以及一种忽略了零膨胀的朴素 ZINB 但无 DAG 结构的方法。
      • p=10, n=100 的设置下,DAG0 的 AUC 和真实边召回率明显更高。
      • 在差异边识别(D 的恢复)上,优势同样明显。
      • 真实数据是两组(基于饮食方式区分的结肠癌细胞单细胞 RNA-seq)数据。DAG0 识别的差异因果边网络中,若干差异边(如与胰高血糖素样肽、FXR 等已知差异相关基因)被文献确认,展现了生物学一致性。
  • 证明路线与技术技巧(理论型,重点拆解)

    • 整体路线(定理 1 证明)
      1. 第一步(简化结构):假设两个不同的 DAG (G₁, θ₁)(G₂, θ₂) 产生相同的联合分布 P,且 G₁ 和 G₂ 在某个节点集合的拓扑序上不一致。我们想找矛盾。
      2. 第二步(利用独立性与局部条件分布):写出在 G₁ 下的联合密度的条件分解和 G₂ 下的条件分解。选取在拓扑序中特定的“最早”或“最晚”的节点,利用边际/条件独立性关系。
      3. 第三步(函数方程推导):设有两个节点的联合分布(即一个条件分布族 P(X_j | X_{pa_j}) 和一个边际分布 P(X_{pa_j}))在两个参数化下等同。对条件密度进行“指数族分解”(ZINB 不是指数族,但作者的技巧是利用概率生成函数的矩)。具体地,对于节点 j,其条件密度 \(p_j(x_j | pa(j))\) 的生成函数(如概率生成函数 PGF 或矩生成函数 MGF)可以写成 \(A(pa(j)) \cdot B(x_j) \cdot \exp\{ C(pa(j)) \cdot D(x_j) \}\) 的形式,而 ZINB 的 MGF 有结构:对条件均值 μ 和零膨胀概率 π 是 exp(μ t) 和 logit π 的线性关系。如果父节点在两组中不同,把等式两边的生成函数匹配、取对数、并视为 x_j 或 pa(j) 的函数,会发现系数必须线性一致,推理会导致矛盾(例如,父节点数不同,会导致副节点的出现或缺失)。这就是“函数方程”的技巧。
      4. 第四步(归纳 + 对齐):通过反复使用这种“一个节点的条件密度在两个模型中必须以相同的父节点集开始”的思路,归纳地将所有节点的父节点集匹配起来,最后证明 G₁ 和 G₂ 同构。
      5. 关键跳跃点:如何从“联合分布相等”这个全局条件,提炼出对每个“条件分布”中参数的约束?这是高维离散分布可识别性的核心难点。作者的解决方案是:利用全条件分布(各节点在给定其他所有节点后的分布),即吉布斯采样器中的条件分布。在 DAG 中,节点 j 的全条件分布是 P(x_j | x_{-j})。将 G₁ 下的全条件分布与 G₂ 下的等同,推导参数方程。因为这两者都是 ZINB 形式吗?是对的,作者依赖于 DAG 的 Markov 性质,这种全条件分布可以由原始参数精确写出。对齐这些表达式就导出参数必须匹配,进而方向唯一。
    • 技术技巧点名
      • 概率生成函数 (PGF) / 矩生成函数 (MGF):用于对齐条件密度。将指数族/ZINB 的 MGF 展开,比较 x_j 的幂次系数。
      • 全条件分布 (Full Conditional Distribution):将全局联合分布的等同性转化为局部全条件分布的等同性,这在 DAG 证明中是一种标准“本地到全局”策略,但对于 ZINB 模型的 form 需要计算。
      • 参数线性化/比对:通过矩(如条件期望、条件方差)对父节点函数是否线性进行检验。
  • 真实例子与应用(有且必须讲)

    • 数据场景:单细胞 RNA-seq 数据(scRNA-seq),两种饮食干预(对照 vs 处理)下的小鼠结肠隐窝细胞。有约 n ≈ 200 个细胞,p ≈ 30 个预先选择的与肠内分泌相关的基因。
    • 怎样用上:把每个基因表达量建模为 ZINB 随机变量。每组(control / treatment)各自用 DAG0 方法学得一个 30 基因的 DAG,并识别这两组 DAG 的对称差(差异边网络)。
    • 得到的结果:差异网络中的大多数边只在一个组中出现(方向性或强度上有差异)。找到的一些差异边(如与同型半胱氨酸代谢、脂质信号相关的基因对)在文献中与肠上皮更新和饮食调节有关,与已知生物学知识不完全一致(有些是新发现),但至少展现出可解释性。
    • 用这个例子想说明什么:① 方法在真实高噪声、高零膨胀的观测数据上能够运行;② 识别的差异网络比忽略零膨胀的方法(如高斯 DAG)产生更稀疏、更生物学可解释的差异连接;③ 这种方法能够为生物学假说生成提供定量的 DAG 候选。
  • 🔎 结论是否比证明窄

    • 一个明显窄化的地方:可识别性仅在本模型类(零膨胀负二项 + 线性 link)内严格成立。 文中有明确提“在其它零膨胀模型类(如零膨胀泊松或两部分模型)下可能不成立”。因此结论不应被过度概括为“所有零膨胀模型都有 DAG 可识别性”。
    • 高维扩展的缺失:所有的理论证明均在 p 有限的假定下完成。作者未明确给出 p > n 情形下的可识别性或后验一致性结论。在模拟部分虽然 p=10, n=100,但对于真正 scRNA-seq 的成千上万的基因未见理论保证。这是一个被回避的计算与理论间隙。
    • MCMC 的收敛性结论:论文声言使用了 parallel-tempered MCMC,但没有给出后验混合好坏的严格理论保证(如 ergodicity 保证或 spectral gap 分析)。因此结论“方法能识别网络”多半依赖经验证据,而非理论。

四、开放问题(点到为止,扎根具体语句)

  1. 离散数据(如计数/分类数据)的 DAG 可识别性的一般性理论:本文提出的“模型驱动的可识别性”对 ZINB 成立。已知对于泊松对数线性模型,这一点也成立。但对更广泛的离散指数族(如二项、多项)或更复杂的 link 函数(如 probit link),类似的结论成立吗?一般性的代数条件是什么?这是根植于本论文证明技巧的一个自然推广问题。[扎根于定理 1 的一般性证明技术的讨论,以及引言中关于‘general proof technique’ (line 5 of abstract) 的注记]
  2. 高维情形下的贝叶斯速率与可识别性:当 p >> n 时,本文的 DAG0 能否保持后验一致性?需要哪些额外条件(如严格的稀疏性假设、谱条件)?这是一条未探讨的、潜在可做的路线。[扎根于模拟部分 p=10, n=100 的设定与理论部分的有限维假定]
  3. DAG0 与潜在结果框架的桥接:从 DAG0 恢复的 DAG 后,如何估计因果效应(如 ATE, CATE)?在零膨胀数据下,do-操作是否有意义(干预是否会改变零膨胀概率)?如何定义受控效应?这需要把 DAG 的识别结果转化为因果 estimand 的识别。[扎根于引言未覆盖因果效应估计部分,以及纯粹 DAG 学习与因果效应估计间的常见 gap]
  4. 半参数率最优 (rate-efficient) 的差异参数估计:本文用的是完全贝叶斯方法,但可构想一个对应的半参数估计器:不需要假设整个分布是 ZINB-DAG,只要求差异 DAG 某些边际结构得到估计,并推导半参数效率界。这可能与你 moderately_familiar 的 semiparametric theory 和 HOIF 产生直接联系。[扎根于文章纯粹参数贝叶斯框架——是推广到半参数设定的自然下一步]

提醒:如果你想确认第 1 点是真 gap,去读最近 5 篇关于离散 DAG 可识别性的理论论文(如关于 log-linear 模型等价类的识别、两变量离散系统的识别),看共同的“不足”是什么;如果多数论文抓住同一形式化问题(如功能形式对线性加 logit link 的依赖),那就是共识性缺口。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论