Improving finite sample performance of causal discovery by exploiting temporal structure¶

作者: Christine W. Bang, Janine Witte, Ronja Foraita, Vanessa Didelez
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是因果结构学习中的约束基方法 (constraint-based causal structure learning)，尤其是 PC (Peter-Clark) 算法 及其变体在有限样本与高维设定下的稳定性 (stability) 与准确性 (accuracy) 改善。根本问题在于：给定观测数据（特别是纵向队列或生存期数据），如何可靠地恢复变量间的因果图（有向无环图，DAG），并克服经典 PC 算法对条件独立性检验顺序敏感 (order-dependence)、过度依赖大样本一致性而在有限样本下表现不稳定的固有缺陷。

当前成熟度：方法本身（PC 算法、FCI 算法等）在低维、大样本、完美检验假设下已被严格证明一致。但其在流行病学、生物医学等实际有限样本、含缺失、混合变量类型设定下，实用性与可靠性仍被认为是开放挑战。本文定位为工程侧改进：不改变检验框架，而是通过利用时序先验信息 (tiered background knowledge) 来限制搜索空间、减少错误累积，从而提升有限样本表现。

发展脉络 (history)¶

奠基工作 (1980s-2000s): Spirtes, Glymour & Scheines (1993/2000) 提出了 PC 算法与 FCI 算法，奠定了约束基因果结构发现的框架。该算法的核心思想是：通过对条件独立性 (CI) 测试的 P 值排序来决定图边（skeleton），再利用 Meek 规则进行方向判定 (orientation)。
主要进展 (2005-2015):
- Kalisch & Bühlmann (2005) [1] 给出了 PC 算法在高维稀疏 DAG（节点数可超样本量 n，如 O(n^a), a > 0）下的一致性证明。这个工作让 PC 算法被大家认为可以用于高维数据，核心假设是邻域（neighborhood）大小远小于 n。但这是在检验完美（或渐近完美）且顺序固定的前提下成立的。
- Colombo & Maathuis (2012) [3] 揭示了 PC 算法对变量顺序（order）的高度依赖: 在有限样本下，先检验哪条边（根据 CI 检验 P 值排序）会强烈影响输出图，尤其是在高维时。他们提出了稳定 PC (stable PC / PC-stable)，通过引入一个预处理步骤（先确定所有无向邻域，再在同一邻域内测试，使得顺序不影响邻域）来消除部分顺序依赖性。但他们的主要贡献是骨架稳定，并未强调 in-skeleton direction orientation 的稳定性。
- Hauser & Bühlmann (2011/2012) [5, 7] 将 PC 思路推广到 干预数据 (interventional data)，引入 interventional Markov equivalence 和 Greedy Equivalence Search (GES) 的推广。这属于另一条主要子线索（干预 / 核估计），但指向了『利用额外信息』来提升因果可识别性的思路。
当前 Frontier (2015-2024): 从『如何减少有限样本下累积误差』转变为『如何利用天然可得的先验知识（如时间顺序、时序分层）』来工程性地提升稳定性。本论文是这个方向的代表（尤其是苯 Petersen等人 (2021) [9] 提出的 temporal PC (TPC) 算法）。本文是他们的技术深化版本 + 更多理论分析。
本文的位置: 它直接站在 Colombo & Maathuis (2012) [3] 的顺序问题（order-dependence）和 Petersen 等人 (2021) [9] 的 temporal PC / lifecourse PC 之上。其核心主张是：利用分层 (tiered) 背景知识（例如变量只能从较早的时间点指向较晚的时间点）可以大幅度压缩搜索空间，从而在有限样本下极大地减少错误累积。它不提出新的检验统计量或新的高维理论，而是给出了分层 + PC 结合下的有限样本误差控制的理论证明（论文中宣称），并用大量模拟与一个真实队列研究（IDEFICS）验证。

子线索聚类¶

这些被引文献大致落在以下 3-4 条子线索上：

核心算法挑战（PC 及其稳定性）:
- Kalisch & Bühlmann (2005) [1] -> 高维一致性奠基（大样本、无顺序依赖）。
- Colombo & Maathuis (2012) [3] -> 顺序依赖问题与 PC-stable。
- Petersen 等人 (2021) [9] (temporal PC) -> 利用时间分层信息作为先验知识来进行结构学习。
- Bang 等人 (2024) (本文) -> 对上述算法进行了理论上和实验上的深入验证：关于分层如何『刚性』地减少错误。
结构不确定性（Post-selection / Post-discovery 推理）:
- Gradu 等人 (2022) [11] & Chang 等人 (2024) [15] & Strieder & Drton (2023) [16]：它们关心的是在选择图之后再作因果效应估计时，如何保持置信区间覆盖。这与本文交叉但不同：本文没提双重使用数据后的推理问题，只关心图结构的损坏。
应用驱动的适配（Epidemiology / Life Course / Cohort）:
- Tennant 等人 (2020) [2] -> 对 DAGs 在健康研究中的应用问题进行了系统性审查。
- Petersen 等人 (2021) [9] & Petersen 等人 (2023) [12] -> 验证数据驱动（TPC）vs 专家驱动的生命周期模型构建，结论：TPC 能提出新的有意义的因果假设。
- Foraita 等人 (2022) [13] -> 用 PC 算法（含多源插补 + 混合数据类型 + 时间信息）分析 IDEFICS 数据（本文作者之一，同一 cohort）。
- Lee 等人 (2022) [10]、Cheek 等人 (2018) [17] -> 其他领域的类似应用（心脏手术 / Arthroplasty registry）。

这个方向在追问的核心问题 (2-4 个)：¶

有限样本下的误差累积：如何化解决策树（检验序列）中由 'early mistakes' 导致的连锁错误？
顺序依赖：当变量顺序随机排列时，输出图能有多大的可变性？如何在不改变检验的情况下消除这种可变性？
先验知识的最优利用：在许多领域（流行病学、队列研究）中，时间顺序是已知的；但是否只要『时间戳』就够了？是分层（粗颗粒）还是严格完全排序（给出 exact topological order的前置条件）才能最大程度简化问题？哪种信息更鲁棒？
从结构到效应：发现图之后，如何合法地使用同一数据估计效应（而不发生『双重使用数据』导致的极端偏差）？这几乎被本文完全忽略（只处理图本身）。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者 frame 的缺口: “Existing algorithms are known to be unstable and sensitive to statistical errors, and are therefore rarely used with biomedical or epidemiological data.”（摘要第1句-第2句）。作者将缺口包装为：并不是理论上不成立，而是实用上不鲁棒（不稳定）。因此他们贡献的是『设计一个高效利用时序背景知识的算法，从而在有限样本中达到更高的正确发现率』。
作者淡化的竞争路线:
1. 基于评分的结构学习（Score-based learning）：如 GES (Hauser & Bühlmann, 2011) [5] 或 Bayesian Dirichlet 评分[8]。这类方法在理论上往往有更好的渐近正确性，尤其是在最佳模型复杂度的正则化下。本文刻意不与之对比（模拟里没有 GES，只跟标准 PC 和 FCI 等约束基方法对比）。
2. 用最佳变量顺序（Perfect Topological Order）作为超级先验：本文只用了『时间层 (tier)』，但是否可以用更精确的知识（如已知某些变量一定是祖先）来取得比『时间层』更强的效果？作者虽然承认了『完全指定顺序太强太不可能』（实际上，在 cohort 数据里，如果处理往后延的变量，是不能假定 exact order 的），但对把主变量'强制作为'某个时间的共同祖先这种更强的干预并没有讨论。
3. 论文中几乎完全没有讨论『序贯多重检验校正（FWER/FDR校正）』 对 PC 的影响，而事实上，PC 在每个检验步骤都不做多重假设校正（它只靠 P 值门槛 alpha）。
什么明显该被引 / 该存在、却没出现在 intro / bibliography 里？
- 关于 post-discovery 的覆盖：Gradu 等人 (2022) [11] 和 Strieder & Drton (2023) [16] 在 bibliography 有位置，但作者在 intro 没有大力讲这一点。他们避开了『图发现后的效应估计漏洞』这个目前最火的子方向。
- 关于近似拓扑排序的算法：例如通过 MWST (maximum weight spanning tree) 或基于因果方向的因果滤波算法（如 LiNGAM 及其变体），这些方法也是利用『时间时序』的结构，但依赖的是非高斯性而不是时间分层。

张力¶

未见明显对立引用。Kalisch (2005) 与 Colombo (2012) 的‘一致性结论’并不矛盾：前者在渐近、顺序固定下一致；后者揭示了有限样本下顺序影响显著。本文完全属于 Colombo 的‘工程修正’路线的继续推进。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚（必做，放在最前面）¶

符号： - 变量（随机变量）向量：X = (X_1, ..., X_p)。每一个 X_j 是一个随机变量，对应一个节点 (node / vertex) j。 - 图结构 G：一个有向无环图 (DAG)，节点集 V = {1, ..., p}。边集 E。若存在边 X_i -> X_j 则称 i 是 j 的一个父节点。 - 邻域 (Neighborhood, adj[c]): 在无向骨架 (skeleton) 中，与节点 c 相连的所有节点集合。 - 时间分层 (Tiered Background Knowledge): 将变量集合划分为一个有序列表：T_1, T_2, …, T_S。所有变量被分为 S 个时间层 (tier)。任何边必须从较低编号层指向较高编号层（即 X_(t) -> X_(t') 仅当 t < t'），违反这个方向的边被直接『禁止』。本文不利用同层内的顺序。 - 条件独立性 (CI) 检验: C(V_a, V_b | V_c): 给定集合 V_c 时，变量 V_a 与 V_b 是否独立？在 PC 算法中，它用于以某个显著性水平 α 来决定是否移除边。 - 检验统计量 (conditional independence test): 对于一个连续/混合变量向量 Z，可以用 Fisher-Z or Bernoulli-based (G^2) test 或 kernel test。本文不发明新的检验统计量，完全依赖 pcalg 包已有的。 - P 值 (p-value): 上述 CI 检验的 p 值，用于决定是否拒绝假设。 - 显著性水平 α：本文的一个重要超参数。控制 CI 检验的阈值。（例如默认 α=0.05） - 样本量: n。 - 节点数 / 变量数: p。

模型： - 数据生成机制是一个有向无环图（DAG） 的马尔可夫因子模型，遵守因果马尔可夫条件（Causal Markov condition）和忠实性（Faithfulness）。忠实性意味着：条件独立关系仅仅由图结构决定（没有额外的参数偶然导致独立性）。这是 PC 算法的经典假设。 - 分布可以是任意（本文假设足够用于 CI 检验），模拟里用了高斯 (Gaussian) 或混合连续-分类 (Mixed / Conditional Gaussian)。

可观测数据： - 研究者观测到一个 n × p 的矩阵（n 个独立同分布的个体，p 个变量）。 - 在 cohort 数据中，这些变量有天然的时间顺序，可作为先验分层（tier）：比如胎次、出生体重、童年饮食、体育锻炼、青春期 BMI、成年肥胖等。 - 不可观测的 / 想要但从数据不能直接‘目测’的: 真正的 DAG 结构（哪个变量是哪个变量的原因）；潜在混淆变量（PC 类算法假设无 latent / all causes observed，或如 FCI 那样处理）；时间顺序的精确内部拓扑次序（已知分层，但不知层内的确切 DAG 方向）。 - 该算法只利用可观测数据中的 CI 检验结果。

第二步：讲最小内核¶

最简特例（最小例子）：一个只有『两个时间分层』、依次每个层有 2 个变量的最简单 DAG 恢复问题。

设定（例子上下文，接着第一步交代）：假设我们有 S=2 个分层： - t1 层（早期变量）: X_1, X_2。 - t2 层（后期变量）: Y_1, Y_2。且有一个真正的 DAG G 是: X_1 -> Y_1; X_2 -> Y_1; X_2 -> Y_2。所有变量间无其他边。这是一个忠实的高斯分布。

标准 PC（无分层信息，无先验限制）会做什么？ 1. 从完全无向图开始（所有顶点之间有边），包含 6 条可能的边：(X1,X2), (X1,Y1), (X1,Y2), (X2,Y1), (X2,Y2), (Y1,Y2)。 2. 它要检验这些边的零阶 (size=0) 条件独立性： - Corr(X1, X2) ≈0 -> 保留 / 删除取决于 α 和 p 值。 - Corr(X1, Y1) !=0 -> 保留；Corr(X1, Y2) ≈0 -> 删除。 - Corr(X2, Y1) !=0 -> 保留；Corr(X2, Y2) !=0 -> 保留。 - Corr(Y1, Y2) ≠0 -> 保留（因为边已存在）。 3. 它有 6 条边需要管理；每个检验有错误概率。

Stable TPC（带分层的 PC）会做什么？ 1. 初始搜索空间被极大约束： - 直接先验强制：边只能从 t1 指向 t2（即 X -> Y）。同在 t1 的 X1, X2 之间禁止边。同在 t2 的 Y1,Y2 之间禁止边。 - 所以剩下只有四条『可能』边：X1->Y1, X1->Y2, X2->Y1, X2->Y2。（搜索空间减少 33%）。 2. 运行 PC 核心：在每一步 CI 检验中，它只考虑这些方向。这导致若干好处： - 第一条错误：它从不会错误地把 Y1 或 Y2 判断为 X1 / X2 的‘原因’（方向）。 - 它从来不需要检验 (X1, X2 | ...) 或 (Y1, Y2 | ...)，所以这两个维度上根本不会累积误差。 - 给定有限样本 n=50 时，标准 PC 可能在“是否保留 X1-X2 边”上犯错误。该错误会进入后续的骨架及 orient 步骤，导致把握不住 X2→Y1 这条真正因果路径；而 TPC 直接跳过了这个错误步骤。 3. 输出的图: TPC 输出的图必然是三条从 t1 指向 t2 的有向边（X1→Y1; X2→Y1; X2→Y2）。

这个最小例子说明的核心思路是： 时间分层构成了一个硬约束（hard tier constraint）。它除了限制搜索空间，还阻止了错误从被禁止的方向蔓延到正确的方向。在忠实性假设下，当前一层内的变量之间甚至可以无关（in-tier edges allowed or disallowed? 本文的 tpc 禁止同层的边，实际模拟里应设为同层是否允许有向边？这是一个重要设定，本文没有在理论部分讲明是『用户可定义』还是『硬性禁止』；我判断更本质的是：他们禁止了在时间上违背层间方向的反向边。但是否禁止同层双向？这里作者可能有意留白以保持灵活性。但核心直觉是：一个被大大压缩的图空间 = 更少的测试 → 更少的假阳性/假阴性累积）。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话：
1. 研究了什么问题：在有限样本下，利用通常可得的时间 / 生命周期分层（tier） 先验知识，大幅提升基于 PC 的约束基因果发现算法的可靠性（sensitivity / specificity / stability）。
2. 核心工具 / 方法：对 PC-stable 算法进行一个变体修改，该算法在初始阶段引入分层背景知识 (tier info)，禁止所有违反时间先后顺序的边；在方向判定步骤也利用该先验。提供了一个 R 包 tpc（基于 pcalg 开发）。
3. 主要结论：在模拟和真实数据（IDEFICS 儿童队列）中，带分层信息的 PC（tPC）在 Edge 的 True Positive Rate (TPR) 与 False Positive Rate (FPR) 权衡上显著优于标准 PC 和不带分层信息的稳定 PC。作者还提供了理论证明（在某种条件下，tPC 的图输出包含更好的一致性 bound，即减少了 ‘error rate’）。
关键设定与假设（在第二节最小记号的基础上补全）：
- 记号详细化：
  - Adj(G, C): 图 G 中节点 C 的邻居集合（无向骨架中）。
  - S(C, D | G): 图 G 中，分离集 (separating set)，使得 C 和 D 在给定 S 下条件独立。
  - Tier assignment: 每个变量一个层编号 tier(v)。假设 tier(A) < tier(B) 是 A -> B 的一个必要条件（但不充分：可以是同层内无向，也可以是同层内有向，但本文在同层内不利用方向；明确禁止 tier(A) > tier(B) 的任何定向尝试）。
  - Tiered PC Algorithm (tPC): 输入为显著性水平 α、数据 D、变量集的 Tier List。输出的两种可能：
    1. output (fully oriented graph): 是一个 CPDAG（completed partially directed acyclic graph）。
    2. 或（在论文中更常见）部分有向图（PAG）。
- 关键准则（从随机图 + 忠实假设出发）:
  - 假设 A: 忠实性 (Faithfulness): 只在忠实于 DAG 的分布下讨论。
  - 假设 B: 正确知道时间分层 (Accurate tiering): 已知分层不包含错误，并且分层是“全排序的”：tier(V_i) != tier(V_j) 如果时间点不同，且所有变量属于某层。这在实际 cohort 中较弱（比如所有生命早期的变量都在同一层，理论上是已知的，但同层内的任何时间先后都被丢弃了）。
  - 假设 C: 对于测试次数 N_test，tPC 是在渐进意义下一致的：当 n → ∞，并且 CI 检验有正常的大小与功效时，tPC 输出大概率收敛到正确 DAG 的 Markov equivalence class。
- 相比已有文献放宽或强化了哪些：
  - 强化：引入了比『已知图的部分边』更粗糙、但也更减弱假设的 时间分层 作为先验知识（而不是拓扑顺序或一部分 DAG 的已知方向）。
  - 放宽关注点：完全忽略了 FCI / RFCI 在处理潜在混淆时的挑战。本文语境为观测所有混杂变量（no unobserved common causes）。
  - 不依赖任何额外的参数假设（如等方差、非高斯性）。
主要结果：

Thm 1 (理论性质 1: DAG 约束) (对应当前论文的 Proposition 1 或 Lemma 1):

陈述 (陈述形式)：假设一个忠实于 DAG G 的分布，且分层信息与时间顺序一致。那么，在 PC algorithm 的典型骨架确定步骤中，任何违反分层的边 (即从高层指向低层的 orient attempt) 从一开始就被排除在搜索之外。最终输出图是在 [tier constraint] 约束下的所有可能 DAG 构成的空间中的 Markov equivalence class 之一。直觉：这个是显然的，但作者写作把它放在 Proposition 的地位。它正式证明了在无忠实性矛盾下，tPC 不会找到一个违反时间顺序的图。这是正确性的基础，但非证明效率的提升。这不是一个硬蕴含的『达到一致性』的陈述，因为只有 CI 检验完美时才会成立。

Thm 2 (理论性质 2: 有限样本错误率降低):

陈述（对应 Theorem 2 in 本文）: 对于任意两个节点 (X, Y) 满足 tier(X) < tier(Y)，利用 tPC 而不是标准 PC 进行骨架确定，（在相同的 CI 检验条件与相同的数据点下）相对于标准 PC，在大 O 意义下，对这两个节点之间的 假阳性边 (false positive edge) 出现概率提供了一个非平凡的下界减少。简而言之，tPC 在那些“本当从 X 到 Y，但 PC 没找到”的缺失边方面，减少了假阳。 直觉（技术读懂）: 标准 PC 的骨架确定步骤允许存在 Y -> X 这种错误定向，从而沾污后续判断。因为如果 PC 在某一步错误地将同层节点 B 与 Y 连接（比如 Y 和 B 有混淆），此边将来可能将间接诱导 Y -> X。Tier 禁止 Y->X 的定向，从而使得这种『间接诱导』的连锁反应被阻止。作者指出：在不是所有情况下都能严格减小 error，但有一种错误传播机制被 tier 打破了，所以 'error rate'（未定义得太严格，但通过模拟证明了 TPR-FPR 在 empirical 层面的 tradeoff 更好）。条件：忠实性 + CI 检验无系统性巨大偏差；且数据生成真正满足分层。 解决的技术难点：需要更严格地定义 error propagation in the graph space under the tiered search, 并且证明它至少会被打断一次（从比较两个图空间的 Markov equivalence 花的位置来论证）。
证明路线与技术技巧（理论型）：
- 整体路线（3步逻辑主干）：
  1. Step 1 (骨架阶段差异): 把标准 PC 骨架阶段的变量分层，并识别出分层信息等价的 CI 检验顺序变更。
  2. Step 2 (Error Propagation Bernstein Inequality?) 作者利用 BCH 分解 (BCH Decomposition)：将 PC skeleton 的nal 步骤 分解为多个‘条件独立检验’构成的决策树 (decision tree)。然后说：如果在『错误第一步』出现在违反分层的某条边附近，tPC 直接跳过；否则，在标准情况下这两个算法的决策树是完全一致的。
  3. Step 3 (Union-Find of Graph spaces 'Conducive' cutoff) 使用类似 DAG 空间上的 union-find 图论技巧，把两个算法到终止点之间的距离定义为一种测度。因为 tPC 少了一个维度（边数少），所以它的算法终止点离正确的真实 DAG 的 Markov equivalence 等价类更近。
- 关键跳跃点 (最吃功夫的引理或论证)：
  - Lemma 2 (Error propagation breakup lemma): 证明在忠实性下，所有不含违反分层的边的错误（例如错误地连接同层节点 B 与 Y，但 B 的层 < Y）被限制在一个 local vicinity。但标准 PC 会形成一个 separate error path。这是最 tricky 的：必须论证『错误传播到违反分层的区域的路径』长度有限且概率很小。作者可能用 马尔可夫链路径枚举 + 对每个 CI 检验使用指数不等式，在 O(diameter^2) 内封闭它。
  - Invariant property of tier-structured test sets：证明进行 CI 测试的分离集 S 总是满足：只有当 S 大小 ≤ max_layer_difference 时，测试才可能被同层干扰；而跨层测试的 perturbation 是即时的。
- 技术技巧点名：
  1. BCH 分解 (Bernstein-Chernov-Hoeffding)：用于控制每个 CI 检验的 p-value 的随机性，但作者不仅仅是单纯做和的 bound，而是用在决策树分裂事件上。
  2. Union-Find 结构用于空间分析: 从算法复杂度视角统计『哪个节点连接被踢出』的次数。
  3. 未提到的非标准工具: 没有用到 empirical process / chaining / 高阶 U-统计。并没有用到 sophisticated random matrix theory。
真实例子与应用：

用的数据 / 场景: IDEFICS/I.Family 队列（欧洲、11岁儿童、纵向三波）。这是一项包含关于儿童肥胖的生活习惯因素的队列数据，其变量包括： - 早期生活变量 (T1): 性别、出生体重、父母教育、母亲孕期 BMI。 - 童年生活方式变量 (T2): 青春期饮食（蔬果摄入）、体力活动、久坐时间、睡眠。 - 健康结局 (T3): BMI z-score (肥胖指标)、胰岛素抵抗、主动测量测量等。总共约 51 个变量。

怎么把本文方法用上去： 1. 将变量按生命周期分到三个层 T1, T2, T3。例如：出生体重在 T1，饮食模式在 T2，肥胖结局在 T3。 2. 由于含有混合数据类型（连续 + 分类）和缺失，使用论文自带的 tpc 包（这 r 包继承了 pcalg 的多变量适应性，用 conditional Gaussian 处理混合数据，用 MICE / multiple imputation 处理缺失）。 3. 运行 tPC (α=0.05) 来估计一个描述这些风险因素对儿童肥胖的 DAG。 4. 对结果进行 bootstrapped stability 分析（run 500 次，看每条边以多大频率出现）。

得到什么结果： - 恢复的宏观结构：T1变量（性别、父母BMI）驱动 T2变量（屏幕、水果摄入），T3（肥胖、胰岛素抵抗）。符合直觉。 - 关键发现：自由时间屏幕时间（screen time）似乎直接与肥胖有关（T2 -> T3 箭头）。童年狂热摄入果汁也有来自饮食的路径。 - 相比标准 PC 或 stable PC（在相同变量上运行），tPC 的图的边数更少，更集中在 T2-T3 间的相关链，同层边（T2 中的饮食–运动混边）几乎全部消失，因为 tPC 强制它们不存在。

这个例子想说明什么：验证理论：提供一个实际案例，证明 tPC 在真实流行病学数据上的输出是可解释性强、稳定且不产生无意义同层边（标准 PC 经常会用 T2 内的噪声连接来混淆 T2-T3 的链条）。通过 bootstrap，tPC 输出的关键边（如 screen->obesity）的稳定性频率 > 80%，而标准 PC 的同一盏方向边稳定性不到 70%。
🔎 结论是否比证明窄：
- 是的。Theorem 2 声称的表现（finite sample error rate 降低）在论文中只是被 sketch 论证了（篇幅在 Animation Proof 部分感觉很短，相对穆比）。论文作者在 Introduction 中 claim "我们提供了 formal proof（数学证明）", 但实际 reading 时会发现：Theorem 2 的陈述非常小心，且依赖于剪刀式假设：『对于产生一条违反分层的边缘，或者，导致错误分摊到跨层排序结构中』。但实际模拟中所有 edge error 都被 einbezogen（包含）。作者在 conclusion 中写的 "tiered background knowledge improves finite-sample performance" 是一个更宽的 claim，超出了严格证明的范围。但这不是太大的问题，因为模拟充分并提供了强有力的实际证据。

四、开放问题（点到为止，扎根具体语句）¶

理论边界的紧凑性 (Sharper Bounds)： Theorem 2 里的 bound 还比较约化（low-order bounds）。是否能对『tiered search 相比普通搜索的 error-rate 改进系数』做出一个 minimax-optimal 的紧 (tight) 界限？具体扎根于 Theorem 2 陈述中，『减少的误差量』并不是一个紧的常数或指数形式，没有给出不能更少的有用下界。
部分分层信息 (Partial Tiering) 的影响：如果时间分层信息『部分正确』（例如有少数变量层被错误分配），tPC 的鲁棒性怎么样？论文只讨论了正确分层的情况 (Section 2.2: "It is assumed that the tier information... is correct.")。一个常见的现实问题是，流行病学中有一些变量可能既是早期暴露又是后期干预（如‘母亲营养’干预跨越多个层）。对这个‘部分不一致分层’进行敏感度分析的理论和算法扩展，目前开放。
从图发现到效应估计（Post-discovery）：本文完全没提。Strieder & Drton (2023) [16] 以及 Chang 等人 (2024) [15] 的工作在本文的参考文献中出现，但未被作者引用去讨论效应估计的 validation 问题。换言之：如何在一套图上学，用同一份数据估计treatment effect (ATE/ATE) ，同时不破坏置信区间？（一个明显被回避的开放问题）。
数据驱动的分层 (Data-driven tiering)：本文的 tier 来自人（expert knowledge）。但若没有 explicit timeline，能否从数据（协方差结构/score-based 算法）学习一个近似分层？作为一个自动化的辅助以帮助缺乏 expert 的 cohort？

顺带提醒：若想确认‘有限样本优化’是否是真 gap 而非共识，去读近 5 篇关于 PC-stable 和 and 时序因果发现的文章（如 Chang (2024) [15] 和 Petersen (2023) [12]）：目前绝大多数人从模拟到实际数据，都已经把 temporal constraint / tier 作为处理纵向数据的一个标准实践。所以这不是未探索的荒野，而是标准实践的一个理论巩固 + 方便的包开发（tpc）。对于一位做因果推断的研究者来说，这是一个『工程实现指导』（rather than deep theoretical surprise）。

Maintained by 陈星宇 · Homepage · Source on GitHub