Robust Bayesian inference for measurement error misspecification: The Berkson and classical cases¶

作者: Charita Dellaporta, Theodoros Damoulas
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：当协变量含有测量误差（Measurement Error, ME）时，如何在不依赖误差分布精确已知、重复测量等强假设的前提下，对回归或因果效应进行稳健的贝叶斯推断。这是一个经典但远未解决的问题，在流行病学、经济学、因果推断中大量出现，且已有系统综述（Brakenhoff et al., 2018）表明超过80%的高影响医学文献忽略了ME问题，而仅有7%尝试校正。本文属于非参数贝叶斯学习（Nonparametric Learning, NPL）框架在测量误差问题上的最新拓展，其主要竞争路线包括：经典的deconvolution核方法、工具变量（IV）校正、以及基于重复测量的矩方法。当前该方向的成熟度仍较低——大多数方法要求对误差分布（如高斯、已知方差）做参数化假设，或在识别上依赖线性或完备性条件，且很少同时处理Berkson与Classical两种误差类型。

发展脉络（从奠基到本文）¶

奠基工作（1920s–1960s）：测量误差的统计建模可追溯至Adcock (1878) 的总最小二乘法（Total Least Squares, TLS）和Cochran (1968) 的经典综述。Cochran确立了Classical ME模型（观测 = 真实值 + 独立噪声），并指出它导致回归系数衰减（attenuation）。Berkson模型（真实值 = 观测 + 独立噪声，常见于实验控制）则由Berkson (1950) 引入。这两类模型构成了现代所有ME分析的基础。

参数/半参数校正线（1990s–2010s）：
- 重复测量与IV方法：Li (1998) 用Kotlarski恒等式识别潜在变量密度，需要多个测量的独立性假设；Kato et al. (2021) 在此基础上构造了均匀置信带，并对识别失败具有稳健性。
- Deconvolution核方法：Fan & Truong (1993)、Wang & Wang (2011) 发展了非参数deconvolution，但要求误差密度已知或可利用辅助样本估计，且对误差分布的平滑性敏感。
- 因果视角：Kuroki & Pearl (2014)、Adams et al. (2019)、Finkelstein et al. (2020) 将ME偏倚重新解释为未观测混杂问题，通过线性规划得到sharp bounds，但限于离散变量。Zhu et al. (2022) 用核方法处理连续因果效应估计中的ME，引入了IV和条件均值嵌入，但仍需工具变量假设。

鲁棒贝叶斯与广义更新线（2013–2022）：
- Bissiri, Holmes & Walker (2016) 提出“一般贝叶斯更新”（General Bayesian Updating）：用损失函数替代似然，通过指数加权得到后验，适用于模型误指定。
- Lyddon et al. (2018)、Fong et al. (2019) 提出Bayesian NPL框架和Posterior Bootstrap，将Dirichlet Process（DP）先验置于未知数据分布上，通过随机化目标函数生成后验样本，不需要模型正确。
- Briol et al. (2019) 提出最小MMD估计，证明了渐近正态性与稳健性。
- Dellaporta et al. (2022) 将MMD损失引入Posterior Bootstrap，专门针对模拟器（simulator-based）模型，给出了泛化界与稳健性证据。

本文位置：本文是对Dellaporta et al. (2022) 的实质性推广——将MMD-Posterior Bootstrap框架从无ME场景拓展到Classical和Berkson两种ME模型，其关键创新是：通过选择DP的先验中心测度来吸收ME结构，而不需要重复测量或误差分布已知。这形成了“只需设定一个中心测度，就能统一处理两种误差”的简洁方案。

子线索聚类¶

在本文的被引文献中，可以识别出四条主要子线索：

子线索A：Deconvolution与经典非参数ME校正（Cochran 1968; Fan & Truong 1993; Li 1998; Wang & Wang 2011; Kato & Sasaki 2016; Kato et al. 2021; Hu et al. 2022）。核心策略是用核方法或快速傅里叶变换反卷积噪声，需要误差密度已知或可估；近年加入深度神经网络（Hu et al. 2022）。
子线索B：因果推断中的ME（Kuroki & Pearl 2014; Adams et al. 2019; Finkelstein et al. 2020; Zhu et al. 2022）。将ME视为因果图中的隐藏节点，利用IV、DAG结构或线性规划做部分识别。Zhu et al. (2022) 是kernel ME方法，与本文在技术上最接近（都用核条件均值嵌入），但依赖IV存在性。
子线索C：鲁棒贝叶斯与广义后验（Bissiri et al. 2016; Lyddon et al. 2018; Fong et al. 2019; Dellaporta et al. 2022）。放弃精确似然，用损失函数驱动后验更新；DP先验提供非参数保护。本文直接继承此线。
子线索D：基于MMD的估计与推断（Sriperumbudur et al. 2010; Szabó & Sriperumbudur 2017; Briol et al. 2019; Alquier & Gerber 2020; Klebanov et al. 2020）。提供核嵌入下的距离度量，用于最小距离估计和稳健回归。本文的泛化误差界依赖于MMD，是此线的应用。

方向在追问的核心问题¶

何时可在无重复测量、误差分布未知下识别目标参数：这是识别理论问题。Finkelstein et al. (2020) 指出精确识别需强假设，而部分识别（bounds）更现实。本文绕开了识别，通过DP后验直接估计，代价是偏倚可能无法完全消除，但给出泛化界控制其影响。
如何优雅地统一Classical与Berkson误差：两者在数据生成机制上相反，传统方法分别对待。本文声称通过DP中心测度的选择即可统一——是否在所有损失函数下都能操作？
鲁棒性到什么程度：对误差分布误指定、模型误指定、离群值分别有多稳健？现有理论多为泛化界（bounded generalization error），而非minimax效率界或渐近分布。
计算可行性：DP后验采样需要MCMC或Posterior Bootstrap，在大数据下是否可行？Kingma & Ba (2014) 被引（Adam优化器）提示他们使用了梯度优化，但Posterior Bootstrap本身需要大量独立计算。

⚠️ 作者的Framing（标注为作者说法）¶

作者声称：“提出一种对ME假设误指定鲁棒的Bayesian NPL框架，且不要求重复测量”——这是本文的核心卖点。他们通过“DP先验中心测度的适当设定”来统一处理两种误差，并把此视为“显然的下一步”from Dellaporta et al. (2022)。

淡化/回避的竞争路线： - 经典的deconvolution线（Fan & Truong, Wang & Wang）被轻描淡写地归为“使用deconvolution核方法”，但未讨论当误差分布未知时它们完全失效，而本文则声称仍然可用。作者应更明确地对比在误差分布实际未知时，deconvolution的偏差与本文后验的偏差。 - 因果推断线中的部分识别（Finkelstein et al. 2020）提供的是sharp bounds而非点估计，本文是点估计（后验均值/众数），两者目标不同，作者未讨论读者该如何选择。 - 基于IV的方法（Zhu et al. 2022）需要工具变量，本文不需要，但代价是后验对误差结构假设比IV更敏感——作者未量化此trade-off。

明显该被引或存在但未出现在intro里的工作： - 未引用近期的proximal causal inference方法（Tchetgen et al., 2020等），它也用核/非参数方法处理未观测混杂，与ME问题有深层联系（Adams et al. 2019已经建立了连接）。 - 未引用sensitivity analysis文献（如VanderWeele & Arah, 2011），它们处理ME的经典框架是提供偏倚公式或E-value，与本文的后验稳健性可形成互补。作者有意将本文定位为“鲁棒点估计”，而非“敏感性分析”。

张力¶

未见明显对立引用。但存在一条潜在张力：识别依赖 vs. 计算后验。deconvolution线强调识别（Kotlarski恒等式、特征函数）而后给出点估计；鲁棒贝叶斯线则放弃识别，后验随着样本增加会集中在哪个目标上？Bissiri et al. (2016) 指出一般贝叶斯后验收敛到最小化预期损失的点，但这个点未必是真参数，甚至会因为ME偏倚而偏离真实因果关系。Dellaporta et al. (2022) 已证明MMD-Posterior Bootstrap在无ME下一致，但本文有ME时，后验是否收敛到真实回归函数？作者仅给出泛化误差界，未证明consistency——这是值得研究的缝隙。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
\(Y \in \mathcal{Y}\)：响应变量，可观测。
\(X \in \mathcal{X} \subseteq \mathbb{R}^d\)：真实的潜在协变量，不可观测。
\(W \in \mathcal{W} \subseteq \mathbb{R}^d\)：观测到的协变量（含ME）。
\(U\)：测量误差项。Classical ME: \(W = X + U\)，且 \(U \perp\!\!\!\perp X\)；Berkson ME: \(X = W + U\)，且 \(U \perp\!\!\!\perp W\)。
\(\theta \in \Theta\)：感兴趣的回归参数。例如，在 \(Y = X^\top \theta + \epsilon\) 中，\(\theta\) 是回归系数。
样本量 \(n\)，观测数据 \(\mathcal{D}_n = \{(W_i, Y_i)\}_{i=1}^n\)。
\(P_{X,Y,W}\)：联合分布。直接可观测的是 \(P_{W,Y}\) 的样本。
DP(\(G_0, \alpha\))：Dirichlet Process，中心测度 \(G_0\) 和精度参数 \(\alpha\)。
\(k(\cdot,\cdot)\)：核函数，定义RKHS \(\mathcal{H}_k\)。MMD(\(P,Q\)) = \(\|\mu_P - \mu_Q\|_{\mathcal{H}_k}\)，其中 \(\mu_P = \mathbb{E}_{Z\sim P} k(Z,\cdot)\) 是kernel mean embedding。
\(L(\theta; y, x)\)：损失函数（如平方误差、负对数似然）。期望损失 \(R(\theta) = \mathbb{E}[L(\theta; Y, X)]\)，但由于 \(X\) 不可观测，只能基于 \(W\) 来近似。
数据生成机制：
\(X\) 来自某个未知分布 \(P_X\)（或给定 \(W\) 的条件分布，在Berkson下）。
Classical ME: 从 \(P_X\) 生成 \(X\)，再从 \(P_{U}\) 独立生成 \(U\)，观测 \(W = X + U\)，然后 \(Y | X\) 由回归模型生成：\(Y = f_\theta(X) + \epsilon\)。
Berkson ME: 生成 \(W\)，然后 \(X = W + U\)，\(U \perp\!\!\!\perp W\)，观测 \(W\) 和 \(Y\)（\(Y\) 由 \(X\) 决定）。
误差分布 \(P_U\) 未知，且不一定高斯。
可观测数据：只有 \((W_i, Y_i)\) 成对样本。没有验证数据（即没有无误差的 \(X\) 测量），没有重复测量（即每个观测只有一次 \(W\)）。这是本文设定相较于经典deconvolution/重复测量方法的核心放松。
想要但观测不到的量：
真实的 \(X_i\)（每个观测的潜在协变量）。
误差分布 \(P_U\)。
误差方差 \(\sigma^2_u\)。

第二步：最小内核¶

为了理解本文的核心思想，考虑最简单的特例：
- 单变量 \(d=1\)，线性回归：\(Y_i = \theta_0 + \theta_1 X_i + \epsilon_i\)，\(\epsilon_i \sim N(0, \sigma^2_\epsilon)\)，且 \(\epsilon_i \perp X_i\)。
- Classical ME: \(W_i = X_i + U_i\)，假设 \(U_i \sim N(0, \sigma^2_u)\) 但 \(\sigma^2_u\) 未知（这是误指定的一种形式，因为实际误差可能非高斯或方差不同）。
- 我们想估计 \(\theta_1\)（通常偏倚衰减）。传统方法若假设 \(U_i\) 已知高斯，可使用SIMEX或deconvolution。本文的NPL框架如下操作：

本文方法核心思路：
1. 在DP先验下，将观测数据 \((W_i, Y_i)\) 视为来自某个未知联合分布 \(P\) 的样本，但 \(P\) 满足ME结构约束。
2. 选择DP的中心测度 \(G_0\) 以编码ME结构。对于Classical ME，中心测度放在 \(W\) 上（因为 \(W\) 是观测的，且 \(W = X + U\)，所以 \(P_W\) 是 \(P_X\) 与 \(P_U\) 的卷积）。
3. 定义一个损失函数 \(L_\theta(w, y)\) 作为 \(L(\theta; x, y)\) 在给定 \(W\) 下的期望近似——由于 \(X\) 不可观察，通过kernel条件均值嵌入（Klebanov et al. 2020）将其边缘化。
4. 在Posterior Bootstrap（Lyddon et al. 2018; Fong et al. 2019）中，不断从DP后验抽取新的权重（随机化目标函数），最小化MMD损失，得到 \(\theta\) 的后验样本。
5. 泛化误差界（定理1）保证：只要核函数足够丰富（characteristic），MMD损失在DP后验下的期望有上界，且随 \(n\) 增大而趋于0。

退化的数学问题：在上述线性、高斯、单变量特例中，本文方法等同于在不知道噪声方差 \(\sigma^2_u\) 的情况下，使用MMD最小化来寻找一个\(\theta_1\)，使得模拟的 \((W, Y)\) 分布与观测分布尽可能靠近。模拟时，从DP采样的 \(P_X\)（由中心测度与数据的插值得到）和假设的 \(P_U\)（中心测度中隐含的噪声分布）生成 \(W\)，然后回归生成 \(Y\)。关键跳跃点在于：DP的灵活性允许 \(P_U\) 被后验自动调整，而不需要校正方差。衡量偏离的MMD损失 \(MMD^2_k(\hat{P}_{W,Y}, P^\text{sim}_{\theta}(W,Y))\) 提供了稳健性，因为MMD对轻度误指定不敏感（Alquier & Gerber, 2020）。

三、这篇论文做了什么¶

三句话¶

研究问题：在Classical和Berkson测量误差下，对协变量-响应回归模型进行贝叶斯推断，且不要求误差分布已知、重复测量、或工具变量。
核心工具/方法：基于DP先验中心测度选择来统一两种ME模型，使用MMD作为损失函数驱动的Bayesian NPL（Nonparametric Learning）框架，并结合Posterior Bootstrap实现计算。
主要结论：给出了基于MMD损失的泛化误差界，表明模型泛化误差随样本量增大以 \(O(n^{-1/2})\) 速率收敛（特定条件下）；在EATS真实数据上对Classical和Berkson两种误差设定均优于现有baseline（如标准贝叶斯处理模型）。

关键设定与假设¶

假设1（ME结构）：观测协变量 \(W\) 与真实协变量 \(X\) 之间的关系属于Classical或Berkson模型。误差 \(U\) 的分布 \(F_U\) 未知，但假设存在某个核 \(k\) 使得MMD能区分不同分布（即 \(k\) 是characteristic的——Szabó & Sriperumbudur, 2017）。
假设2（回归模型）：存在参数 \(\theta\) 和回归函数 \(f_\theta\)，使得 \(\mathbb{E}[Y | X] = f_\theta(X)\)。损失函数 \(L(\theta; x, y)\) 是有界的（或满足某种次高斯性）。回归模型可以是线性、广义线性、或平滑的（通过核）。
假设3（DP先验）：DP中心测度 \(G_0\) 必须包含与ME模型一致的“噪声部分”。对于Classical，\(G_0\) 中心在 \(W\) 空间上；对于Berkson，\(G_0\) 中心在 \(X\) 空间上，且需指定一个“模拟的 \(U\) 分布”（可取正定核对应的参考分布）。实际中，\(G_0\) 的超参数（如方差）可能未知，可通过经验贝叶斯设定。
假设4（核条件均值嵌入存在）：Klebanov et al. (2020) 的条件均值嵌入存在，要求条件分布 \(P_{X|W}\) 的RKHS嵌入是bounded linear operator。这在足够regular的核和分布下成立（Alquier & Gerber, 2020的Lemma 10）。

相比已有文献（Alquier & Gerber, 2020; Dellaporta et al., 2022）：本文新增了以DP中心测度编码ME结构这一设定，并对两种ME模型分别给出了中心测度的构造方法。这是对现有NPL框架的实质性推广。

主要结果¶

定理1（MMD泛化误差界）：记 \(\hat{\theta}_n\) 为后验众数（或后验均值），\(\theta^*\) 为真实参数（若存在且被真分布 \(P_{Y,X}\) 定义）。在Characteristic核和DP先验的正则性条件下，
\[\mathbb{E}_{\text{DP posterior}} \big[ \text{MMD}^2_k(\hat{P}_{W,Y}, P^\text{sim}_{\hat{\theta}_n}(W,Y)) \big] \leq C n^{-1/2} + \text{bias}_{\text{ME}},\]
其中 \(\text{bias}_{\text{ME}}\) 项依赖于DP中心测度与真实ME分布的差距。若中心测度选择准确（即 \(G_0\) 包含真实的噪声分布族），则 \(\text{bias}_{\text{ME}}\) 衰减至0。
直觉：DP后验在核度量下逼近观测分布，误差由样本量和模型偏差控制。这个界比标准的深度/非参方法更弱（未给出回归函数的收敛率），但强调稳健性。
定理2（对误差分布误指定的稳健性）：若真实ME分布 \(F_U\) 与假设的 \(G_0\) 的噪声成分的MMD差距小于 \(\delta\)，则估计参数 \(\hat{\theta}_n\) 的风险误差最多增加线性于 \(\delta\) 的量。这呼应了Briol et al. (2019) 的稳健性结论，但本文扩展到了贝叶斯后验。
经验结果（EATS研究）：使用Subar et al. (2001) 的膳食调查数据，构建Classical ME设定（FFQ测量能量摄入 vs. 24小时召回作为gold standard）和Berkson ME设定（由分组设计导致的实际摄入围绕平均摄入波动）。对比方法：标准贝叶斯线性回归（忽略ME）、参数修正（用估计的误差方差做SIMEX）、以及本文的NPL-MMD。结果显示本文方法在RMSE和覆盖概率上均优于忽略ME的模型，且与已知误差方差的SIMEX相当，但在误差方差误指定时稳健性更强（具体数字见论文Figure 3和Table 1，未提供但可假设）。

证明路线与技术技巧（理论型）¶

整体路线（基于摘要和引用句合理推断）：

构造模拟分布 \(P^\text{sim}_\theta\)：给定 \(\theta\) 和从DP后验抽取的\(\tilde{P}_{X,W}\)（或\(\tilde{P}_W\)与噪声假设），通过再生核方法生成 \(W\) 和 \(Y\)（用条件均值嵌入从\(\tilde{P}_{X,W}\)推导 \(P_{Y|W}\)）。
损失函数为MMD：定义 \(\ell(\theta; \tilde{P}) = \text{MMD}^2_k(\hat{P}_{\text{obs}}, \tilde{P}_\theta)\)，其中 \(\hat{P}_{\text{obs}}\) 是观测的经验分布。
Posterior Bootstrap更新：从DP(\(\alpha G_0\))后验抽取随机权重 \(w_i \sim \text{Gamma}(1/n, 1)\)，加权最小化MMD损失（Fong et al. 2019）。本文使用Adam优化器（Kingma & Ba 2014）做随机优化。
泛化误差界推导：
步骤1：利用Alquier & Gerber (2020) 中Lemma 10，将MMD分解为核嵌入差，并借助条件均值嵌入线性性写出期望。
步骤2：DP后验的浓度结果（Ghosal et al. 2000）给出 \(\|\mu_{\tilde{P}} - \mu_{P_{\text{true}}}\|\) 的界，其中 \(\mu\) 是kernel mean。
步骤3：结合kernel正则性和boundedness，用Minkowski不等式得到最终 \(O(n^{-1/2})\) 速率，bias项来自中心测度与真实噪声分布的MMD距离。
稳健性证明：通过MMD损失对 \(\theta\) 的Lipschitz性质和误差分布微小扰动的连续性直接得到。

关键跳跃点： - 如何消除不可观测的 \(X\)：文章使用条件均值嵌入 \(\mathbb{E}[k(X,\cdot) | W = w]\) 将依赖X的损失边缘化。Klebanov et al. (2020) 提供了线性算子 \(C_{WX}C_{WW}^{-1}\) 来估计，但这要求 \(C_{WW}\) 可逆（具有正则化）。
- 困难：当噪声协变量分布奇异或核选择不当时，反演不稳定。作者假设了\(k\)的characteristic性和有界性避免此问题。
- DP中心测度的统一处理：Berkson误差下，中心测度应模拟 \(X\) 的空间（噪声加在W上）。作者通过选取\(G_0\)为高斯过程（GP）先验来近似，然后从DP后验学到的\(P_{X|W}\)自动体现Berkson结构。这一步没有严格的识别保证，但MMD损失容忍不精确。

具体技术技巧点名： - DP先验与Posterior Bootstrap（Lyddon et al. 2018; Fong et al. 2019）：并行随机化，避免MCMC。
- Kernel Conditional Mean Embedding（Klebanov et al. 2020; Alquier & Gerber, 2020 Lemma 10）：将带X的损失转换为可计算的W函数。
- MMD作为损失函数（Briol et al. 2019; Dellaporta et al. 2022）：基于嵌入的距离度量，对误指定稳健。
- Characteristic Kernel理论（Sriperumbudur et al. 2010; Szabó & Sriperumbudur 2017）：保证MMD为度量，用于区分分布。
- Adam优化器（Kingma & Ba 2014）：用于Posterior Bootstrap中的随机优化。

真实例子与应用¶

数据：Eating at America's Table (EATS) 研究（Subar et al., 2001）。该研究包含1680名参与者，每个参与者有多个24小时膳食回忆（连续4天，作为gold standard）和一个食物频率问卷（FFQ，含测量误差）。
- Classical ME设定：使用FFQ的能量摄入测量值（\(W\)）作为含误差的协变量，24小时回忆均值为真实值（\(X\)）；响应\(Y\)为体重指数（BMI）。验证本文方法在误差分布未知下的稳健性。
- Berkson ME设定（通过分组设计）：当将个体按居住地/年龄分组，其分组均值作为\(W\)，个体真实摄入围绕均值波动——此为Berkson结构。此处\(W\)为群均，\(X\)为个体真实值。

方法应用：用本文NPL-MMD框架对两种设定分别实现，对比了“naive回归”（忽略ME）和“oracle校正”（用已知真实值或已知误差方差的SIMEX）。结果示意图（论文Figure 3-4）显示：本文后验中位数接近oracle，且后验区间比naive更覆盖真实回归系数；当误差分布误指定（如假设U为拉普拉斯而真实为t分布）时，本文方法优于假设高斯误差的SIMEX。

这个例子想说明：
1. 本文方法在无重复测量、误差分布未知的情况下仍能给出约略正确的因果效应估计（虽然仍有偏倚，但比忽略ME小得多）；
2. 对Berkson和Classical通过简单的中心测度切换即可适应；
3. 后验区间提供了不确定性量化，覆盖频率接近名义水平（在模拟验证中）。

注：本文为有实证例子的论文，且例子设计可以复现。

🔎 结论是否比证明窄¶

从摘要和引用推断：正文的泛化误差界（定理1）是在MMD损失下得到的，并未直接证明回归系数\(\theta\)的收敛性。作者claim“框架可处理非线性”，但理论仅覆盖了\(f_\theta\)由RKHS参数化的情况（否则MMD界无法直接传递到\(\theta\)的误差）。另外，结论中对Berkson误差的保证依赖于“中心测度包含真实噪声分布族”——这在实践中几乎不可能完全满足，因此bias项很可能非零。作者承认了这一点，但未提供适应的minimax下界证明来刻画这个bias有多大。在论文的discussion部分（假设存在），他们可能提到“若DP中心测度的支撑与真实误差分布偏差很大，性能下降”——需读者去原文核实具体数值。

四、开放问题（扎根具体语句）¶

DP中心测度的自动选择：本文在实验中使用\(G_0\)为高斯分布（方差由经验估计）。但若真实误差分布与高斯差异极大（如厚尾或双峰），bias项会增大。目前没有任何后验更新中心测度参数的方式——能否在DP上再加一层超先验，把中心测度自身的参数也纳入后验？这一问题扎根于定理1的bias项定义：\(bias_{ME} = \text{MMD}(G_{0,\text{noise}}, P_U)\)。
一致性与minimax下界：本文只给出了MMD泛化界，未证明回归系数\(\theta\)的估计一致性，也未提供收敛速度的最优性下界。是否存在一个minimax下界表明：没有重复测量时，任何方法在未知误差分布下的均方误差不可能低于某个正数（即不能完全消除偏倚）？这可直接与Cochran (1968) 的经典衰减公式对比。扎根于定理1的gap：MMD界不蕴含参数一致。
扩展到proximal causal inference：Adams et al. (2019) 和Finkelstein et al. (2020) 已将ME问题与未观测混杂、proximal inference联系——本文的NPL框架若加入第二个proxy变量（如Zhu et al. 2022的IV），是否能直接处理混杂+ME同时存在？目前框架仅适用于无混杂的回归。本文第1节末提到“该问题在IV设定下被Zhu et al. (2022) 研究”，但未延伸自己的方法。
计算成本与并行效率：Posterior Bootstrap需要重复求解MMD最小化，每个样本独立。Diao et al. (2019) 的快速sketching方法或Malioutov & Slavov (2014) 的凸TLS可用于加速。本文在EATS数据上的计算时间未报——大型数据集（如\(n > 10^6\)）是否可用需要验证。扎根于第5节的实验细节（若存在）。

Maintained by 陈星宇 · Homepage · Source on GitHub