A case study of causal mediation using Bayesian nonparametrics and semiparametric corrections¶

作者: Yuhua Zhang, Michael J. Daniels
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.20148

一、领域脉络与小综述¶

这个方向是什么¶

因果中介分析试图将处理变量 \( Z \) 对结果 \( Y \) 的总效应分解为两条路径：自然直接效应 (NDE) 和处理通过中介变量 \( M \) 施加的自然间接效应 (NIE)。一个长期存在的技术挑战是后处理混杂因子 (Post-treatment Confounder) 的存在 —— 即一类受处理影响、又同时混杂中介与结果关系的变量 \( V \) —— 因为它会违反标准中介分析所依赖的序贯可忽略性假设。本文想解决的核心问题正是：在存在后处理混杂因子 \( V \) 的情况下，如何对 NDE 和 NIE 进行既灵活又具有可靠频率性质的估计与推断。

该子方向的成熟度：方法上已有单一框架（Bae et al. 2024）从贝叶斯非参数角度解决了“建模与识别”问题，但尚未解决“推断统计性质”（后验的 BvM 定理）问题。本文正是在 Bae et al. (2024) 的基础上，填补了这一推断理论缺口。

发展脉络¶

奠基工作：Robins and Greenland (1992) 和 Pearl (2022) 奠定了 NDE/NIE 分解与识别的概念基础，定义了反事实框架下的直接与间接效应。留下的口子：这两个奠基工作均假设了不存在后处理混杂因子（即序贯可忽略性）。
针对后处理混杂的策略：
- Tchetgen et al. (2012) 和 VanderWeele et al. (2014)：提出了不完全依赖 NDE/NIE 分解的替代估计量，尝试回避因后处理混杂导致的识别困难。留下的口子：这类方法改变了目标估计量，不适合需要直接估计 NDE/NIE 的机制分析。
- Hong et al. (2023)：提出了一种频率学派方法（RMPW，权重的中介概率比），通过敏感性分析来处理后处理混杂。这是本文和 Bae et al. (2024) 直接继承的识别框架。作者引用如下：“who relies on a Gaussian copula model to link the unobserved joint potential outcomes…”。本文假设集 (A1)-(A4) 完全来自 Hong et al. (2023)。
贝叶斯非参数路线：
- Kim et al. (2017)：用狄利克雷过程混合正态分布 (DPMN) 对联合分布进行灵活建模，但模型本身未设计成可容纳后处理混杂因子 \( V \)（作者原话是：“not designed to accommodate post-treatment confounders”）。
- Bae et al. (2024)：明确提出使用富集狄利克雷过程混合模型 (EDPM) 来描述 \( P(Y, M, V, Z, C) \)，并沿用 Hong et al. (2023) 的识别假设（A1–A4）。作者引用如下：“This model is well-suited for the problem, as its nested structure allows for greater flexibility…”。留下的口子：该方法仅解决了“建模与点估计”问题。作者在 intro 中明确指出了缺口：“it does not formally establish the semiparametric efficiency and frequentist validity of the posterior inference for the causal estimands”。
频率学派半参数效率理论：
- Laan et al. (2006); Chernozhukov et al. (2018)：提出了 TMLE、DML 等双稳健估计框架。其核心是高效影响函数 (EIF, Efficient Influence Function)，它能确保即使以慢于 \( n^{-1/2} \) 的速率估计了复杂的高维冗余参数，目标参数的估计量仍能达到 \( \sqrt{n} \)-相合和渐近正态性。这些工作是本文“单步后验矫正”步骤的理论源泉。
- Yiu et al. (2025)：提出了贝叶斯后验的 EIF 矫正框架，并将该技术应用于半参数模型。这直接构成了本文“单步后验矫正”的具体操作模板。
本文的位置：本文是 Bae et al. (2024) 在理论上的“升级版”——保留了其 EDPM 的灵活建模能力，但通过引入 Yiu et al. (2025) 的后验矫正方法，解决了标准贝叶斯后验在复杂因果估计量（NDE, NIE）上不能自动满足 BvM 定理的缺陷，从而使后验结论具备频率置信区间的正确覆盖性质。

子线索聚类¶

线索一（识别策略）：Hong et al. (2023)、Bae et al. (2024) — 处理后处理混杂因子的识别问题，使用高斯 Copula 建立交叉世界联合分布。
线索二（贝叶斯非参数建模）：Kim et al. (2017)、Bae et al. (2024)、本文 — 用狄利克雷过程或其富集版 (EDPM) 对联合分布进行灵活建模。
线索三（半参数矫正/效率理论）：Laan et al. (2006)、Chernozhukov et al. (2018)、Hines et al. (2022)、Yiu et al. (2025) — 使用 EIF 矫正以消除灵活模型带来的正则化偏差，达到 \( \sqrt{n} \)-相合。

这个方向在追问的核心问题¶

核心问题 1（识别）：后处理混杂因子破坏了标准识别的序贯可忽略性，如何利用新的假设（如交叉世界独立性 + 高斯 Copula）恢复 NDE/NIE 的可识别性？
核心问题 2（灵活性与推断的权衡）：贝叶斯非参数模型对联合分布的建模极其灵活，但其后验对特定因果泛函（如 NDE）在频率意义下往往产生下偏的置信区间（覆盖不足）。如何纠正这一偏差？
核心问题 3（实际实现）：在包含缺失数据、后处理混杂的非参数模型中，如何设计可行的 MCMC 采样和 EIF 评估算法？

⚠️ 作者的 framing (必须明确标注为“作者的说法”)¶

作者把缺口 frame 成：Bae et al. (2024) 做完了“建模与估计”，但没做“推断性质的理论保证”。因此本文是“显然的下一步”：保留 EDPM 的灵活性，同时利用 Yiu et al. (2025) 的 EIF 后验矫正来使贝叶斯后验满足 BvM 定理，从而确保正确的频率覆盖。作者直言其方法是“semiparametric Bernstein-Von Mises theorem”。
被淡化/回避的竞争路线：作者将频率学派的双稳健方法 (DML, TMLE) 定位为“理论基础和benchmark”（说是 “serve as a theoretical benchmark for analogous corrections within the Bayesian framework”），而没有把它们作为可直接替代的竞争者去比较其有限样本表现。这实质上是回避了与 DML 计算效率的直接对比。
⚠️ 什么是明显该存在、却没被引的：
- Robins, Rotnitzky, and Zhao (1994) 在 supplementary 中出现来处理缺失数据的 EIF 转换（Theorem A.4 直接引用），但在正文 intro 中并未提及。这对于一个以缺失数据处理为核心的问题（MAR）而言是不可缺少的引用。
- Ghosal, Ghosh, and van der Vaart (2000) 和 Shen, Tokdar, and Ghosal (2013) 关于狄利克雷过程混合模型的后验收缩率工作，在 theoretical supplement 的 Lemma E.12 和 Theorem E.4 中有大量引用，但正文中也未提及。这是该理论依赖的 核心支撑工作。
- 没有引用任何关于计算效率或可扩展性的文献（比如 Variational Bayes for DP mixtures、流数据的 MCMC 加速）。这是可理解的，因为论文重心是理论；但这意味着其实际应用的上限可能受 MCMC 扩展性限制。

张力¶

未见明显对立引用。该领域内不同作者通常都使用类似的识别假设（A1–A3），主要分歧在于对交叉世界分布的处理（高斯 Copula vs 其他方式）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( Z \)：二元处理变量（治疗 vs 对照）。
- \( M \)：中介变量（如出勤率）。
- \( V \)：后处理混杂因子（如 6 个月体重变化）。
- \( C \)：基线混杂向量（如基线 BMI、年龄）。
- \( Y \)：结果变量（如 24 个月体重变化）。
- 潜在结果（counterfactual）符号：\( V_z, M_{z, V_z}, Y_{z, V_z, M_{z', V_{z'}}} \)——这在对 NDE/NIE 的因果定义中很重要，简化时常用 \( Y_{z, M_{z'}} \)。
- \( S \)：(0/1) 是否观测到完全数据（即 \( Y \) 和 \( V \) 都未缺失）。
- \( \pi(W) \)：缺失机制倾向性得分 \( P(S=1 | M, Z, C) \)；\( e(C) = P(Z=1|C) \) 为处理倾向性得分。
- \( f(v|z,c) \)：后处理混杂因子的密度函数。
- \( f(m|v,z,c) \)：给定 \( V, Z, C \) 下的中介密度。
- \( \mu_1(m; v, z, c) = E[Y | M=m, V=v, Z=z, C=c] \)。
- \( \mu_2(v'; v, c) \)、\( \mu_3(v; c) \) 和 \( \mu_4(c) \)：依次嵌套的中间期望。
- \( \dot{\chi}_{P_f} \)：全数据下的 EIF；\( \dot{\chi}_{P_{O'}} \)：观测数据下的 EIF。
模型：数据生成机制在 A1–A4 下识别。模型的核心是用 EDPM 拟合 \( P(Y, M, V, Z, C) \)，其中关键的交叉世界分布 \( P(V_{z'}|V_{z}, Z, Z', C) \) 通过高斯 Copula 参数化（关联参数为 \( \rho \)）。
可观测数据：研究者观测到三元组 \( (R_Y Y, M, R_V V, Z, C, R_Y, R_V) \)。不可观测量是单次因果中的 反事实：比如 \( Y_{1, M_0} \)（治疗组中，将中介固定到对照组水平的结果）。识别是靠假设 A1–A4 将这些反事实与观测数据关联起来。

第二步：讲最小内核¶

把这篇论文的“最小内核”剥离出来，本质上是对一个带缺失数据的半参数模型的贝叶斯后验进行 EIF 矫正，其中矫正的核心困难来自那个 cross-world 项 \( \mu_2(v'; v, c) = E[Y_{z, M_{z'}} | V_{z}=v, C=c] \)——因为它涉及到两个世界的后处理混杂因子 \( V_z \) 和 \( V_{z'} \) 的联合分布。

最简特例：假设中连续 \( V \)、线性期望、无缺失数据，\( z=0, z'=1 \)，并进一步假设： - 处理完全随机（\( e(C)=0.5 \)）。 - 核函数为 \( V_z \perp V_{z'} \)（即 \( \rho=0 \)）。 - \( Y \) 与 \( M \) 是线性的：\( \mu_1(m; v, z, c) = \beta_0 + \beta_M m + \beta_v v + \beta_z z + \gamma' c \)。

在这个极简场景下，本文的关键数学运作是：

识别下的 Cross-world 项简化：\( E[Y_{1, M_0} | V_1=v, C=c] = \int E[Y_{1, m'} | M_0=m', V_0, C=c] d F_{M_0|V_0=v', Z=0, C=c}(m') \)。因为 \( \rho=0 \)，所以 \( V_0 \) 和 \( V_1 \) 独立，则 \( P(V_0 | V_1) = P(V_0) \)。因此 cross-world 嵌套积分就退化为一个 可加变量替换：将 \( V_1 \) 和 \( V_0 \) 分开。
EIF 的结构：IF(χ) = [Z / e(C)]·[Y - μ_3(C)] + μ_3(C) - χ。这里的 \( μ_3(C) = ∫ E[Y|M=m, V=v, Z=1, C] dP(m|v, z=0, c) P(v|c) \)。整个 EIF 其实只是一个处理倾向性加权的残差项 + 中心项。之所以简单，是因为在独立 copula 下，cross-world 项的识别退化为可加性。

本文的关键想法是：当贝叶斯 EDPM 估计出来的 \( \mu_3(C) \) 和倾向性得分有偏时，即使用这个简化 EIF 对后验进行一步矫正，也能恢复频率覆盖。如果在这里不矫正，贝叶斯后验的点估计其实不会坏（因为光滑泛函收敛），但其方差会被低估，导致后验区间不够宽，覆盖不足。矫正本质上就是在贝叶斯后验中加入了一个 EIF 的线性系数项，把被低估的方差补回来。

如果从纯理论层面看：论文证明的核心问题就是：在 EDPM 的可行条件下，能否证明这个 EIF 矫正后的贝叶斯后验渐近正态、均值等于有效估计量、方差等于 EIF 方差。证明本质上是一个 von Mises 展开和 BvM 定理的结合应用：先验证二阶余项消失（A9a），再验证 EIF 函数的 L2 连续性和经验过程收敛（A9b, A9c），然后用 Yiu et al. (2025) 的框架推导 BvM 定理。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：存在后处理混杂因子 \( V \) 和观测缺失时，对因果中介分析中的 NDE 和 NIE 进行稳健且有频率保证的贝叶斯推理。
核心工具/方法：富集狄利克雷过程混合模型 (EDPM) 用于灵活联合分布建模，结合基于高效影响函数 (EIF) 的一步后验矫正。
主要结论：在 EDPM 模型下，经过 EIF 一步矫正后的后验满足半参数 Bernstein–von Mises 定理，即渐近正态、中心位于有效估计量，且后验可信区间的频率覆盖性质正确。

关键设定与假设¶

除了一般的符号外，本文依赖一组逐步累加的假设：

Assumptions (A1)–(A4) (Bae et al. 2024; Hong et al. 2023)
- (A1) Ignorable treatment assignment: \( (Y_{z,m}, M_z, M_{z'}, V_z, V_{z'}) \perp\!\!\!\perp Z | C \) —— 由于处理是随机分配的，所以自动满足。
- (A2) Ignorable mediator value assignment: \( Y_{z,m} \perp\!\!\!\perp (M_z, M_{z'}) | V_z, Z=z, C \) —— 给定后处理混杂因子和基线变量，潜在结果与潜在中介值无关。这是核心的、un-testable 的排除性假设。
- (A3) Conditional cross-world independence: \( M_{z'} \perp\!\!\!\perp V_z | V_{z'}, Z=z', C \) —— 跨世界独立性假设，保证了反事实 \( M_{z'} \) 与 \( V_z \) 在被给定 \( V_{z'} \) 后条件独立。
- (A4) Gaussian Copula: \( F_{V_z, V_{z'}}(v_z, v_{z'} | C=c) = \Phi_2( \Phi^{-1}[F_{V_z}(v_z|c)] ), \Phi^{-1}[F_{V_{z'}}(v_{z'}|c)]); \rho) \) —— 用高斯 Copula 来参数化两个世界后处理混杂因子的联合分布。这是本文实际估计中最大的建模假设。
Assumptions (A5)–(A7) (标准的缺失数据处理假设)
- (A5) Propensity score positivity: \( \delta < P(Z=z | C) < 1-\delta \) a.s. —— 保证处理臂之间的重叠。
- (A6) Missing At Random (MAR): \( S \perp\!\!\!\perp (Y, V) | M, Z, C \) —— 缺失机制是可忽略的。这是数据缺失处理的核心假设。
- (A7) MDM positivity: \( \pi(W) = P(S=1 | M, Z, C) > \delta_\pi \) a.s. —— 保证“完全观测”的概率不为零。

与已有文献相比，相比于 Bae et al. (2024)：本文没有改变识别假设本身（完全沿用A1–A4） 和 EDPM 模型结构。真正的变化在于：在模型估计完成后，引入了一个额外的频率学派矫正步骤（EIF-based posterior correction）。因此，本文实际上是 Bae et al. (2024) 在“推断理论”上的增强。

主要结果¶

核心定理：Theorem 4.3 “Under Assumption (A9), the one-step posterior satisfies the semiparametric BvM theorem…d_BL( · , N(0, ||\dot{\chi}{P_0}||^2{P_0})) → 0”。

定理陈述：经过 EIF 矫正后的后验 \( \sqrt{n}(\tilde{\chi} - \hat{\chi}_n) \) 在分布上收敛到均值为 0、方差为半参数有效界 \( ||\dot{\chi}_{P_0}||^2_{P_0} \) 的 Gaussian 分布。
直觉：这保证了矫正后的贝叶斯可信区间（如 95% HPD 区间）在频率意义下具有渐近正确的置信区间覆盖（例如，在 95% 的正态置信下，真实参数被包含的概率趋近于 0.95）。
必要条件 (Assumption A9)：
- (a) No second-order bias: 要求 \( \sqrt{n} r_2(P_{O',0}, P_{O'}) \to 0 \)，其中 \( r_2 \) 是 von Mises 展开中的二阶余项。这实质上要求 EDPM 估计的冗余参数（倾向性得分、条件密度等）的速度足够快，使得高阶偏差消失。
- (b) L2-convergence: \( \|\dot{\chi}_{P_{O'}} - \dot{\chi}_{P_{O',0}}\|_{P_0} \to 0 \)，要求 EIF 的估计收敛到其真实值。
- (c*): 经验过程的收敛条件和包络条件——确保 EIF 函数的均匀收敛性。
解决的技术难点：难点主要在于二阶余项的形式 (Lemma E.6, E.10) 非常复杂——涉及到 8 个冗余参数（\( e, g_{V_z}, g_{z'|z}, g_M, \mu_1, F_{V_{z'}}, F_{V_z}, \pi \)）的二次交叉项。证明的关键在于展示这些二次项在 EDPM 筛集的收缩率下消失了 \( (n^{-2/3}) \)，乘以 \( \sqrt{n} \) 后仍然收敛到 0。

模拟结果 (Table 2)： - 核心数据：6 个不同的数据生成场景（S1–S6），涵盖了线性、非线性、交互、高维基线、非正态后处理混杂等情景。 - 关键定量结论： - 覆盖概率 (CP)：未矫正的 G-Computation 估计量的 95% 区间覆盖概率在许多场景下严重偏低（如 S1 的 ATE 只覆盖了 84.2%）。经过 EIF 矫正后，CP 被拉回到名义水平（经常在 94–97% 之间）。 - 区间长度 (CIl)：矫正后的后验区间更长（例如 S2 中 NIE 从 3.809 变为 9.017），这正是论文想强调的“合适地量化了因灵活建模而引入的不确定性”。 - 偏差 (Bias)：越来越小或略有变化，主要变化在区间长度上。

证明路线与技术技巧¶

整体证明路线 (4步逻辑，从假设到结论)：

Step 1: 构造增广筛集 \( \tilde{H}_n \)。将参数空间切割成一个“好”的集合，包含两个子集：\( \mathcal{S}_n \)（结构筛集：限制成分个数、参数范围，确保 EDP 模型的可控性）和 \( \mathcal{H}_n \)（速率筛集：限制冗余参数的 L2 误差以 \( \epsilon_n = n^{-1/3}(\log n)^{1/3} \) 被控制）。附录 E.1 建立此筛集。
Step 2: 后验收缩到筛集。证明 EDPM 的后验确实以概率趋于 1 地落在这个 \( \tilde{H}_n \) 上 (Theorem E.4)。这一步主要用到了 Ghosal et al. (2000) 的后验收缩理论——验证了缩的两种关键条件：筛集的熵条件（将其拆分到各密度类的熵）和先验在 KL 邻域内的质量条件。
Step 3: 推导 EIF 并验证 A9 的三个子条件。先在 Theorem A.4 中推导了观测数据的 EIF（= IPW 权重 × 全数据 EIF - 投影项）。然后，逐一验证 A9：
- (a) No second-order bias: 通过 Lemma E.6 和 E.10 将余项分解为各冗余参数误差的二次型，然后套用筛集 \( \mathcal{H}_n \) 的速率（\( \epsilon_n = n^{-1/3}(\log n)^{1/3}) \)）从而证明 \( \sqrt{n} r_2 \to 0 \)。
- (b) L2-convergence: 利用 Lemma E.7 的 Lipschitz 连续性，EIF 的差异 ≤ 所有冗余参数误差的线性组合，由筛集速率保证。
- (c*): 经验过程收敛 + 包络条件: 通过 Lemma E.12 证明 EIF 类 \( \mathcal{F}_n \) 的 log-bracketing 熵受控，从而可以使用 Dudley 中央极限定理证明经验过程一致收敛。
Step 4: 应用 Yiu et al. (2025) 的框架推导 BvM。在验证了 A9 后，直接引用 Theorem 4.3（实质上是 Yiu et al. 2025 的定理），得到 \( \sqrt{n}(\tilde{\chi} - \hat{\chi}_n) \) 渐近正态。

关键跳跃点： - 从全数据 EIF 到观测数据 EIF 的转换 (Theorem A.4, Lemma E.10)：引入了逆概率加权 (\( S / \pi(W) \)) 和投影项 (\( (S-\pi(W)) / \pi(W) \cdot b(W) \))。证明的关键在于推导投影项 \( b(W) \) 的形式——它是全数据 EIF 在 \( S=1 \) 下的条件期望。这一推导是纯代数化的，但非常巧妙（利用 MAR 更直白地计算了 \( b(W) \)）。 - 二阶余项的 Bound (Lemma E.10)：这是整个证明中最技术性的部分。它将余项拆成了全数据部分（Lemma E.6）和AIPW 投影附加部分，然后通过 Cauchy-Schwarz 和筛集重叠条件（\( \pi > \delta_\pi \)）将每个附加项ϵ转化为冗余误差的二次型。其中最核心的困难来源于 copula-based cross-world 项 \( \mu_2 \)，Lemma E.8 证明了 copula 密度的 Lipschitz 连续性，从而将 copula 的偏差转化为边缘分布 CDF 的偏差。

技术技巧点名： - Bracketing entropy 控制 (Lemma E.12)：将 EDPM 的熵拆分给各个密度族（\( F_{C}, F_{Z|C} \) 等），并利用参数化空间维度的上限来证明熵主要受 log(n) 的控制。 - 先验质量下界 (Theorem E.4)：利用 stick-breaking 权重在 Beta 先验下的体积下界（Lemma E.14 对应 Bernoulli 参数）、以及回归系数在 Normal 先验下的体积下界，证明先验落在目标 KL 邻域的概率至少为 \( e^{-C n\epsilon_n^2} \)。 - Gaussian copula Lipschitz 性 (Lemma E.8)：利用筛集边界条件（CDF∈[τ,1-τ], ρ∈[-1+κ, 1-κ]）来保证 copula 密度的梯度有界，从而将 Δcopula 的 L² 误差 bound 归结为 CDF 误差和 ρ 误差的线性函数。

真实例子与应用¶

本文的第 6 节应用到了 Rural LITE 临床试验： - 数据: 612 名受试者，随机分配到四个剂量组，被合并为低剂量 (LD, N=317) 和高剂量 (HD, N=295)。定义为 y=24 个月体重变化；m=出勤率；v=6 个月体重变化（后处理混杂）；c=基线 BMI、年龄、性别、种族。 - 如何应用方法: 将 EDPM 应用于完整数据（包含缺失），使用 Section 3.1 的 blocked Gibbs sampler 进行 MCMC。然后，对 G-computation 的 plug-in 估计（来自 MCMC 的 50000 次 iterate）应用 EIF 矫正（Section 5.2 的算法）。对于 copula 参数 ρ，进行了敏感性分析：Tri(0,1,1)、Unif(0,1)、ρ=0。 - 结果: - NDE 显著: HD 组比 LD 组体重多下降 3.41–3.51 kg（依赖于 ρ 设定），且 95% CI 不包含零。这说明 HD 的主要效果不依赖出勤率。 - NIE 不显著: 通过出勤率所实现的中介效应 (NIE) 的 95% CI 都包含零（例如 ρ~Unif(0,1) 时， -2.35 到 1.96）。 - 矫正的效果: 矫正后的 95% 区间（如 ATE: -5.40 到 -2.00）与不矫正的 plug-in 区间（-4.52 到 -1.88）相比，明显变宽。这与仿真的模式一致：说明 plug-in 区间倾向于低估不确定性；矫正后的会更宽，从而提供正确的名义覆盖。 - 这个例子想说明什么：一、展示了方法在有缺失数据的真实临床试验中的可操作性；二、验证了 EIF 矫正的必要性（加宽区间，避免过度自信）；三、通过接受 copula 参数的不确定性（不同的 ρ 先验），展示了结论对未识别假设的稳健性。

结论是否比证明窄¶

是。Theorem 4.3 的严格结论具体到哪些 estimand？ 在 Section 4 的定理陈述 (EIF 和 BvM) 中，定理 4.3 实际上只针对全数据下的 一个特定的 cross-world 期望 \( E[Y_{z, M_{z'}}] \) (或由它拼出的 NIE/NDE)。但是论文在 Discussion 中说：“By theoretically validating our estimator through the semiparametric Bernstein-Von Mises…”。这比严格证明的内容窄。证明路线（附录 E）和执行 BvM 定理时（面对所有 Assumption A9 的繁琐条件），只严格处理了完备的 cross-world case 中一个 mean functional。

此外，Theorem 4.3 要求全数据 EIF 已知。真实数据应用中是观测数据 EIF（Theorem A.4）。论文虽然搭建了观测数据 EIF 框架，但其 BvM 证明完全基于 A9 条件在观测数据筛集 \( \tilde{H}_n \) 上成立。实际中，A9 条件的验证可能非常强，特别是 (a) 中的二阶余项 bound（Lemma E.10）依赖于诸多 dense 假设。在有限样本中（n=500的仿真），这个 bound 可能并不完美成立。

四、开放问题¶

只罗列扎根于论文具体语句的未解决问题：

严格后验收缩率的证明不完整：论文声称“by applying Ghosal et al. (2000) …the posterior concentrates on the sieve” (Theorem E.4)。扎根：证明只给出了构建筛集和 check 两个关键条件（熵和先验质量）的框架，但没有给出具体的超参数选择（如 \( H_\theta, H_\psi \) 如何随 n 缩放）以显式控制 \( \epsilon_n \)。直接导出伯恩斯坦-冯·米塞斯定理所需的收敛速率（\( n^{-1/3} \)）仍依赖于对筛子参数的经验性最优调节——这在实际中很难保证。如果有研究者想确保这个率是 rigorous 的，需要直接用 Shen et al. (2013) 的方法给出一套详细超参数选择方案并才能声称严格的 BvM。
非高斯 Copula 的可扩展性：论文的识别严重依赖于高斯 Copula 假设（A4）。在 Discussion 中作者自我批评： “the Gaussian copula provides a transparent mechanism for sensitivity analysis, it inherently imposes a specific parametric structure on the unobservable dependence…” 。因此一个开放问题是能否发展出更灵活（半参数/非参数）的 Copula 模型，在不增加太多额外计算成本的情况下，保证 EIF 的 L2 连续性和熵条件仍然成立。
前提条件 A9 在有限样本中的实证验证：论文仿真要平衡的类型是那个“近似无法验证的实验”。一个开放问题是能否设计出一种检验方法或在有限样本内诊断标志，用于判断 A9 条件是否大致成立（即冗余参数的估计误差不够小，导致 BvM 定理没法良好运作）。这在真实数据应用中很关键（比如 Rural LITE 中，作者用了 612 个样本，但ρ=0的case在EIF矫正后的区间宽度只有 -1.72 到 1.56——这真的很宽还是 PLUGIN 的偏差已经消除了？）。
计算效率的极大改进：在 Discussion 中作者指出“The computational burden associated with Markov chain Monte Carlo sampling for the EDPM is substantial”。因此一个明确的开放问题是开发一种计算上更有效率的方法，比如使用变分贝叶斯近似来拟合 EDPM，然后应用同样的 EIF 矫正。这需要在近似推断（变分后验）的框架下重新推导 BvM——这目前超出 Yiu et al. (2025) 的结论范围。

Maintained by 陈星宇 · Homepage · Source on GitHub