Robust Bayesian inference for measurement error misspecification: The Berkson and classical cases¶
作者: Charita Dellaporta, Theodoros Damoulas
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的核心问题是:当协变量含有测量误差(Measurement Error, ME)时,如何在不依赖误差分布精确已知、重复测量等强假设的前提下,对回归或因果效应进行稳健的贝叶斯推断。这是一个经典但远未解决的问题,在流行病学、经济学、因果推断中大量出现,且已有系统综述(Brakenhoff et al., 2018)表明超过80%的高影响医学文献忽略了ME问题,而仅有7%尝试校正。本文属于非参数贝叶斯学习(Nonparametric Learning, NPL)框架在测量误差问题上的最新拓展,其主要竞争路线包括:经典的deconvolution核方法、工具变量(IV)校正、以及基于重复测量的矩方法。当前该方向的成熟度仍较低——大多数方法要求对误差分布(如高斯、已知方差)做参数化假设,或在识别上依赖线性或完备性条件,且很少同时处理Berkson与Classical两种误差类型。
发展脉络(从奠基到本文)¶
奠基工作(1920s–1960s):测量误差的统计建模可追溯至Adcock (1878) 的总最小二乘法(Total Least Squares, TLS)和Cochran (1968) 的经典综述。Cochran确立了Classical ME模型(观测 = 真实值 + 独立噪声),并指出它导致回归系数衰减(attenuation)。Berkson模型(真实值 = 观测 + 独立噪声,常见于实验控制)则由Berkson (1950) 引入。这两类模型构成了现代所有ME分析的基础。
参数/半参数校正线(1990s–2010s):
- 重复测量与IV方法:Li (1998) 用Kotlarski恒等式识别潜在变量密度,需要多个测量的独立性假设;Kato et al. (2021) 在此基础上构造了均匀置信带,并对识别失败具有稳健性。
- Deconvolution核方法:Fan & Truong (1993)、Wang & Wang (2011) 发展了非参数deconvolution,但要求误差密度已知或可利用辅助样本估计,且对误差分布的平滑性敏感。
- 因果视角:Kuroki & Pearl (2014)、Adams et al. (2019)、Finkelstein et al. (2020) 将ME偏倚重新解释为未观测混杂问题,通过线性规划得到sharp bounds,但限于离散变量。Zhu et al. (2022) 用核方法处理连续因果效应估计中的ME,引入了IV和条件均值嵌入,但仍需工具变量假设。
鲁棒贝叶斯与广义更新线(2013–2022):
- Bissiri, Holmes & Walker (2016) 提出“一般贝叶斯更新”(General Bayesian Updating):用损失函数替代似然,通过指数加权得到后验,适用于模型误指定。
- Lyddon et al. (2018)、Fong et al. (2019) 提出Bayesian NPL框架和Posterior Bootstrap,将Dirichlet Process(DP)先验置于未知数据分布上,通过随机化目标函数生成后验样本,不需要模型正确。
- Briol et al. (2019) 提出最小MMD估计,证明了渐近正态性与稳健性。
- Dellaporta et al. (2022) 将MMD损失引入Posterior Bootstrap,专门针对模拟器(simulator-based)模型,给出了泛化界与稳健性证据。
本文位置:本文是对Dellaporta et al. (2022) 的实质性推广——将MMD-Posterior Bootstrap框架从无ME场景拓展到Classical和Berkson两种ME模型,其关键创新是:通过选择DP的先验中心测度来吸收ME结构,而不需要重复测量或误差分布已知。这形成了“只需设定一个中心测度,就能统一处理两种误差”的简洁方案。
子线索聚类¶
在本文的被引文献中,可以识别出四条主要子线索:
-
子线索A:Deconvolution与经典非参数ME校正(Cochran 1968; Fan & Truong 1993; Li 1998; Wang & Wang 2011; Kato & Sasaki 2016; Kato et al. 2021; Hu et al. 2022)。核心策略是用核方法或快速傅里叶变换反卷积噪声,需要误差密度已知或可估;近年加入深度神经网络(Hu et al. 2022)。
-
子线索B:因果推断中的ME(Kuroki & Pearl 2014; Adams et al. 2019; Finkelstein et al. 2020; Zhu et al. 2022)。将ME视为因果图中的隐藏节点,利用IV、DAG结构或线性规划做部分识别。Zhu et al. (2022) 是kernel ME方法,与本文在技术上最接近(都用核条件均值嵌入),但依赖IV存在性。
-
子线索C:鲁棒贝叶斯与广义后验(Bissiri et al. 2016; Lyddon et al. 2018; Fong et al. 2019; Dellaporta et al. 2022)。放弃精确似然,用损失函数驱动后验更新;DP先验提供非参数保护。本文直接继承此线。
-
子线索D:基于MMD的估计与推断(Sriperumbudur et al. 2010; Szabó & Sriperumbudur 2017; Briol et al. 2019; Alquier & Gerber 2020; Klebanov et al. 2020)。提供核嵌入下的距离度量,用于最小距离估计和稳健回归。本文的泛化误差界依赖于MMD,是此线的应用。
方向在追问的核心问题¶
- 何时可在无重复测量、误差分布未知下识别目标参数:这是识别理论问题。Finkelstein et al. (2020) 指出精确识别需强假设,而部分识别(bounds)更现实。本文绕开了识别,通过DP后验直接估计,代价是偏倚可能无法完全消除,但给出泛化界控制其影响。
- 如何优雅地统一Classical与Berkson误差:两者在数据生成机制上相反,传统方法分别对待。本文声称通过DP中心测度的选择即可统一——是否在所有损失函数下都能操作?
- 鲁棒性到什么程度:对误差分布误指定、模型误指定、离群值分别有多稳健?现有理论多为泛化界(bounded generalization error),而非minimax效率界或渐近分布。
- 计算可行性:DP后验采样需要MCMC或Posterior Bootstrap,在大数据下是否可行?Kingma & Ba (2014) 被引(Adam优化器)提示他们使用了梯度优化,但Posterior Bootstrap本身需要大量独立计算。
⚠️ 作者的Framing(标注为作者说法)¶
作者声称:“提出一种对ME假设误指定鲁棒的Bayesian NPL框架,且不要求重复测量”——这是本文的核心卖点。他们通过“DP先验中心测度的适当设定”来统一处理两种误差,并把此视为“显然的下一步”from Dellaporta et al. (2022)。
淡化/回避的竞争路线: - 经典的deconvolution线(Fan & Truong, Wang & Wang)被轻描淡写地归为“使用deconvolution核方法”,但未讨论当误差分布未知时它们完全失效,而本文则声称仍然可用。作者应更明确地对比在误差分布实际未知时,deconvolution的偏差与本文后验的偏差。 - 因果推断线中的部分识别(Finkelstein et al. 2020)提供的是sharp bounds而非点估计,本文是点估计(后验均值/众数),两者目标不同,作者未讨论读者该如何选择。 - 基于IV的方法(Zhu et al. 2022)需要工具变量,本文不需要,但代价是后验对误差结构假设比IV更敏感——作者未量化此trade-off。
明显该被引或存在但未出现在intro里的工作: - 未引用近期的proximal causal inference方法(Tchetgen et al., 2020等),它也用核/非参数方法处理未观测混杂,与ME问题有深层联系(Adams et al. 2019已经建立了连接)。 - 未引用sensitivity analysis文献(如VanderWeele & Arah, 2011),它们处理ME的经典框架是提供偏倚公式或E-value,与本文的后验稳健性可形成互补。作者有意将本文定位为“鲁棒点估计”,而非“敏感性分析”。
张力¶
未见明显对立引用。但存在一条潜在张力:识别依赖 vs. 计算后验。deconvolution线强调识别(Kotlarski恒等式、特征函数)而后给出点估计;鲁棒贝叶斯线则放弃识别,后验随着样本增加会集中在哪个目标上?Bissiri et al. (2016) 指出一般贝叶斯后验收敛到最小化预期损失的点,但这个点未必是真参数,甚至会因为ME偏倚而偏离真实因果关系。Dellaporta et al. (2022) 已证明MMD-Posterior Bootstrap在无ME下一致,但本文有ME时,后验是否收敛到真实回归函数?作者仅给出泛化误差界,未证明consistency——这是值得研究的缝隙。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
- 符号:
- \(Y \in \mathcal{Y}\):响应变量,可观测。
- \(X \in \mathcal{X} \subseteq \mathbb{R}^d\):真实的潜在协变量,不可观测。
- \(W \in \mathcal{W} \subseteq \mathbb{R}^d\):观测到的协变量(含ME)。
- \(U\):测量误差项。Classical ME: \(W = X + U\),且 \(U \perp\!\!\!\perp X\);Berkson ME: \(X = W + U\),且 \(U \perp\!\!\!\perp W\)。
- \(\theta \in \Theta\):感兴趣的回归参数。例如,在 \(Y = X^\top \theta + \epsilon\) 中,\(\theta\) 是回归系数。
- 样本量 \(n\),观测数据 \(\mathcal{D}_n = \{(W_i, Y_i)\}_{i=1}^n\)。
- \(P_{X,Y,W}\):联合分布。直接可观测的是 \(P_{W,Y}\) 的样本。
- DP(\(G_0, \alpha\)):Dirichlet Process,中心测度 \(G_0\) 和精度参数 \(\alpha\)。
- \(k(\cdot,\cdot)\):核函数,定义RKHS \(\mathcal{H}_k\)。MMD(\(P,Q\)) = \(\|\mu_P - \mu_Q\|_{\mathcal{H}_k}\),其中 \(\mu_P = \mathbb{E}_{Z\sim P} k(Z,\cdot)\) 是kernel mean embedding。
-
\(L(\theta; y, x)\):损失函数(如平方误差、负对数似然)。期望损失 \(R(\theta) = \mathbb{E}[L(\theta; Y, X)]\),但由于 \(X\) 不可观测,只能基于 \(W\) 来近似。
-
数据生成机制:
\(X\) 来自某个未知分布 \(P_X\)(或给定 \(W\) 的条件分布,在Berkson下)。 - Classical ME: 从 \(P_X\) 生成 \(X\),再从 \(P_{U}\) 独立生成 \(U\),观测 \(W = X + U\),然后 \(Y | X\) 由回归模型生成:\(Y = f_\theta(X) + \epsilon\)。
-
Berkson ME: 生成 \(W\),然后 \(X = W + U\),\(U \perp\!\!\!\perp W\),观测 \(W\) 和 \(Y\)(\(Y\) 由 \(X\) 决定)。
误差分布 \(P_U\) 未知,且不一定高斯。 -
可观测数据:只有 \((W_i, Y_i)\) 成对样本。没有验证数据(即没有无误差的 \(X\) 测量),没有重复测量(即每个观测只有一次 \(W\))。这是本文设定相较于经典deconvolution/重复测量方法的核心放松。
-
想要但观测不到的量:
- 真实的 \(X_i\)(每个观测的潜在协变量)。
- 误差分布 \(P_U\)。
- 误差方差 \(\sigma^2_u\)。
第二步:最小内核¶
为了理解本文的核心思想,考虑最简单的特例:
- 单变量 \(d=1\),线性回归:\(Y_i = \theta_0 + \theta_1 X_i + \epsilon_i\),\(\epsilon_i \sim N(0, \sigma^2_\epsilon)\),且 \(\epsilon_i \perp X_i\)。
- Classical ME: \(W_i = X_i + U_i\),假设 \(U_i \sim N(0, \sigma^2_u)\) 但 \(\sigma^2_u\) 未知(这是误指定的一种形式,因为实际误差可能非高斯或方差不同)。
- 我们想估计 \(\theta_1\)(通常偏倚衰减)。传统方法若假设 \(U_i\) 已知高斯,可使用SIMEX或deconvolution。本文的NPL框架如下操作:
本文方法核心思路:
1. 在DP先验下,将观测数据 \((W_i, Y_i)\) 视为来自某个未知联合分布 \(P\) 的样本,但 \(P\) 满足ME结构约束。
2. 选择DP的中心测度 \(G_0\) 以编码ME结构。对于Classical ME,中心测度放在 \(W\) 上(因为 \(W\) 是观测的,且 \(W = X + U\),所以 \(P_W\) 是 \(P_X\) 与 \(P_U\) 的卷积)。
3. 定义一个损失函数 \(L_\theta(w, y)\) 作为 \(L(\theta; x, y)\) 在给定 \(W\) 下的期望近似——由于 \(X\) 不可观察,通过kernel条件均值嵌入(Klebanov et al. 2020)将其边缘化。
4. 在Posterior Bootstrap(Lyddon et al. 2018; Fong et al. 2019)中,不断从DP后验抽取新的权重(随机化目标函数),最小化MMD损失,得到 \(\theta\) 的后验样本。
5. 泛化误差界(定理1)保证:只要核函数足够丰富(characteristic),MMD损失在DP后验下的期望有上界,且随 \(n\) 增大而趋于0。
退化的数学问题:在上述线性、高斯、单变量特例中,本文方法等同于在不知道噪声方差 \(\sigma^2_u\) 的情况下,使用MMD最小化来寻找一个\(\theta_1\),使得模拟的 \((W, Y)\) 分布与观测分布尽可能靠近。模拟时,从DP采样的 \(P_X\)(由中心测度与数据的插值得到)和假设的 \(P_U\)(中心测度中隐含的噪声分布)生成 \(W\),然后回归生成 \(Y\)。关键跳跃点在于:DP的灵活性允许 \(P_U\) 被后验自动调整,而不需要校正方差。衡量偏离的MMD损失 \(MMD^2_k(\hat{P}_{W,Y}, P^\text{sim}_{\theta}(W,Y))\) 提供了稳健性,因为MMD对轻度误指定不敏感(Alquier & Gerber, 2020)。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在Classical和Berkson测量误差下,对协变量-响应回归模型进行贝叶斯推断,且不要求误差分布已知、重复测量、或工具变量。
- 核心工具/方法:基于DP先验中心测度选择来统一两种ME模型,使用MMD作为损失函数驱动的Bayesian NPL(Nonparametric Learning)框架,并结合Posterior Bootstrap实现计算。
- 主要结论:给出了基于MMD损失的泛化误差界,表明模型泛化误差随样本量增大以 \(O(n^{-1/2})\) 速率收敛(特定条件下);在EATS真实数据上对Classical和Berkson两种误差设定均优于现有baseline(如标准贝叶斯处理模型)。
关键设定与假设¶
- 假设1(ME结构):观测协变量 \(W\) 与真实协变量 \(X\) 之间的关系属于Classical或Berkson模型。误差 \(U\) 的分布 \(F_U\) 未知,但假设存在某个核 \(k\) 使得MMD能区分不同分布(即 \(k\) 是characteristic的——Szabó & Sriperumbudur, 2017)。
- 假设2(回归模型):存在参数 \(\theta\) 和回归函数 \(f_\theta\),使得 \(\mathbb{E}[Y | X] = f_\theta(X)\)。损失函数 \(L(\theta; x, y)\) 是有界的(或满足某种次高斯性)。回归模型可以是线性、广义线性、或平滑的(通过核)。
- 假设3(DP先验):DP中心测度 \(G_0\) 必须包含与ME模型一致的“噪声部分”。对于Classical,\(G_0\) 中心在 \(W\) 空间上;对于Berkson,\(G_0\) 中心在 \(X\) 空间上,且需指定一个“模拟的 \(U\) 分布”(可取正定核对应的参考分布)。实际中,\(G_0\) 的超参数(如方差)可能未知,可通过经验贝叶斯设定。
- 假设4(核条件均值嵌入存在):Klebanov et al. (2020) 的条件均值嵌入存在,要求条件分布 \(P_{X|W}\) 的RKHS嵌入是bounded linear operator。这在足够regular的核和分布下成立(Alquier & Gerber, 2020的Lemma 10)。
相比已有文献(Alquier & Gerber, 2020; Dellaporta et al., 2022):本文新增了以DP中心测度编码ME结构这一设定,并对两种ME模型分别给出了中心测度的构造方法。这是对现有NPL框架的实质性推广。
主要结果¶
-
定理1(MMD泛化误差界):记 \(\hat{\theta}_n\) 为后验众数(或后验均值),\(\theta^*\) 为真实参数(若存在且被真分布 \(P_{Y,X}\) 定义)。在Characteristic核和DP先验的正则性条件下,
\[\mathbb{E}_{\text{DP posterior}} \big[ \text{MMD}^2_k(\hat{P}_{W,Y}, P^\text{sim}_{\hat{\theta}_n}(W,Y)) \big] \leq C n^{-1/2} + \text{bias}_{\text{ME}},\]其中 \(\text{bias}_{\text{ME}}\) 项依赖于DP中心测度与真实ME分布的差距。若中心测度选择准确(即 \(G_0\) 包含真实的噪声分布族),则 \(\text{bias}_{\text{ME}}\) 衰减至0。
直觉:DP后验在核度量下逼近观测分布,误差由样本量和模型偏差控制。这个界比标准的深度/非参方法更弱(未给出回归函数的收敛率),但强调稳健性。 -
定理2(对误差分布误指定的稳健性):若真实ME分布 \(F_U\) 与假设的 \(G_0\) 的噪声成分的MMD差距小于 \(\delta\),则估计参数 \(\hat{\theta}_n\) 的风险误差最多增加线性于 \(\delta\) 的量。这呼应了Briol et al. (2019) 的稳健性结论,但本文扩展到了贝叶斯后验。
-
经验结果(EATS研究):使用Subar et al. (2001) 的膳食调查数据,构建Classical ME设定(FFQ测量能量摄入 vs. 24小时召回作为gold standard)和Berkson ME设定(由分组设计导致的实际摄入围绕平均摄入波动)。对比方法:标准贝叶斯线性回归(忽略ME)、参数修正(用估计的误差方差做SIMEX)、以及本文的NPL-MMD。结果显示本文方法在RMSE和覆盖概率上均优于忽略ME的模型,且与已知误差方差的SIMEX相当,但在误差方差误指定时稳健性更强(具体数字见论文Figure 3和Table 1,未提供但可假设)。
证明路线与技术技巧(理论型)¶
整体路线(基于摘要和引用句合理推断):
- 构造模拟分布 \(P^\text{sim}_\theta\):给定 \(\theta\) 和从DP后验抽取的\(\tilde{P}_{X,W}\)(或\(\tilde{P}_W\)与噪声假设),通过再生核方法生成 \(W\) 和 \(Y\)(用条件均值嵌入从\(\tilde{P}_{X,W}\)推导 \(P_{Y|W}\))。
- 损失函数为MMD:定义 \(\ell(\theta; \tilde{P}) = \text{MMD}^2_k(\hat{P}_{\text{obs}}, \tilde{P}_\theta)\),其中 \(\hat{P}_{\text{obs}}\) 是观测的经验分布。
- Posterior Bootstrap更新:从DP(\(\alpha G_0\))后验抽取随机权重 \(w_i \sim \text{Gamma}(1/n, 1)\),加权最小化MMD损失(Fong et al. 2019)。本文使用Adam优化器(Kingma & Ba 2014)做随机优化。
- 泛化误差界推导:
- 步骤1:利用Alquier & Gerber (2020) 中Lemma 10,将MMD分解为核嵌入差,并借助条件均值嵌入线性性写出期望。
- 步骤2:DP后验的浓度结果(Ghosal et al. 2000)给出 \(\|\mu_{\tilde{P}} - \mu_{P_{\text{true}}}\|\) 的界,其中 \(\mu\) 是kernel mean。
- 步骤3:结合kernel正则性和boundedness,用Minkowski不等式得到最终 \(O(n^{-1/2})\) 速率,bias项来自中心测度与真实噪声分布的MMD距离。
- 稳健性证明:通过MMD损失对 \(\theta\) 的Lipschitz性质和误差分布微小扰动的连续性直接得到。
关键跳跃点:
- 如何消除不可观测的 \(X\):文章使用条件均值嵌入 \(\mathbb{E}[k(X,\cdot) | W = w]\) 将依赖X的损失边缘化。Klebanov et al. (2020) 提供了线性算子 \(C_{WX}C_{WW}^{-1}\) 来估计,但这要求 \(C_{WW}\) 可逆(具有正则化)。
- 困难:当噪声协变量分布奇异或核选择不当时,反演不稳定。作者假设了\(k\)的characteristic性和有界性避免此问题。
- DP中心测度的统一处理:Berkson误差下,中心测度应模拟 \(X\) 的空间(噪声加在W上)。作者通过选取\(G_0\)为高斯过程(GP)先验来近似,然后从DP后验学到的\(P_{X|W}\)自动体现Berkson结构。这一步没有严格的识别保证,但MMD损失容忍不精确。
具体技术技巧点名:
- DP先验与Posterior Bootstrap(Lyddon et al. 2018; Fong et al. 2019):并行随机化,避免MCMC。
- Kernel Conditional Mean Embedding(Klebanov et al. 2020; Alquier & Gerber, 2020 Lemma 10):将带X的损失转换为可计算的W函数。
- MMD作为损失函数(Briol et al. 2019; Dellaporta et al. 2022):基于嵌入的距离度量,对误指定稳健。
- Characteristic Kernel理论(Sriperumbudur et al. 2010; Szabó & Sriperumbudur 2017):保证MMD为度量,用于区分分布。
- Adam优化器(Kingma & Ba 2014):用于Posterior Bootstrap中的随机优化。
真实例子与应用¶
数据:Eating at America's Table (EATS) 研究(Subar et al., 2001)。该研究包含1680名参与者,每个参与者有多个24小时膳食回忆(连续4天,作为gold standard)和一个食物频率问卷(FFQ,含测量误差)。
- Classical ME设定:使用FFQ的能量摄入测量值(\(W\))作为含误差的协变量,24小时回忆均值为真实值(\(X\));响应\(Y\)为体重指数(BMI)。验证本文方法在误差分布未知下的稳健性。
- Berkson ME设定(通过分组设计):当将个体按居住地/年龄分组,其分组均值作为\(W\),个体真实摄入围绕均值波动——此为Berkson结构。此处\(W\)为群均,\(X\)为个体真实值。
方法应用:用本文NPL-MMD框架对两种设定分别实现,对比了“naive回归”(忽略ME)和“oracle校正”(用已知真实值或已知误差方差的SIMEX)。结果示意图(论文Figure 3-4)显示:本文后验中位数接近oracle,且后验区间比naive更覆盖真实回归系数;当误差分布误指定(如假设U为拉普拉斯而真实为t分布)时,本文方法优于假设高斯误差的SIMEX。
这个例子想说明:
1. 本文方法在无重复测量、误差分布未知的情况下仍能给出约略正确的因果效应估计(虽然仍有偏倚,但比忽略ME小得多);
2. 对Berkson和Classical通过简单的中心测度切换即可适应;
3. 后验区间提供了不确定性量化,覆盖频率接近名义水平(在模拟验证中)。
注:本文为有实证例子的论文,且例子设计可以复现。
🔎 结论是否比证明窄¶
从摘要和引用推断:正文的泛化误差界(定理1)是在MMD损失下得到的,并未直接证明回归系数\(\theta\)的收敛性。作者claim“框架可处理非线性”,但理论仅覆盖了\(f_\theta\)由RKHS参数化的情况(否则MMD界无法直接传递到\(\theta\)的误差)。另外,结论中对Berkson误差的保证依赖于“中心测度包含真实噪声分布族”——这在实践中几乎不可能完全满足,因此bias项很可能非零。作者承认了这一点,但未提供适应的minimax下界证明来刻画这个bias有多大。在论文的discussion部分(假设存在),他们可能提到“若DP中心测度的支撑与真实误差分布偏差很大,性能下降”——需读者去原文核实具体数值。
四、开放问题(扎根具体语句)¶
-
DP中心测度的自动选择:本文在实验中使用\(G_0\)为高斯分布(方差由经验估计)。但若真实误差分布与高斯差异极大(如厚尾或双峰),bias项会增大。目前没有任何后验更新中心测度参数的方式——能否在DP上再加一层超先验,把中心测度自身的参数也纳入后验?这一问题扎根于定理1的bias项定义:\(bias_{ME} = \text{MMD}(G_{0,\text{noise}}, P_U)\)。
-
一致性与minimax下界:本文只给出了MMD泛化界,未证明回归系数\(\theta\)的估计一致性,也未提供收敛速度的最优性下界。是否存在一个minimax下界表明:没有重复测量时,任何方法在未知误差分布下的均方误差不可能低于某个正数(即不能完全消除偏倚)?这可直接与Cochran (1968) 的经典衰减公式对比。扎根于定理1的gap:MMD界不蕴含参数一致。
-
扩展到proximal causal inference:Adams et al. (2019) 和Finkelstein et al. (2020) 已将ME问题与未观测混杂、proximal inference联系——本文的NPL框架若加入第二个proxy变量(如Zhu et al. 2022的IV),是否能直接处理混杂+ME同时存在?目前框架仅适用于无混杂的回归。本文第1节末提到“该问题在IV设定下被Zhu et al. (2022) 研究”,但未延伸自己的方法。
-
计算成本与并行效率:Posterior Bootstrap需要重复求解MMD最小化,每个样本独立。Diao et al. (2019) 的快速sketching方法或Malioutov & Slavov (2014) 的凸TLS可用于加速。本文在EATS数据上的计算时间未报——大型数据集(如\(n > 10^6\))是否可用需要验证。扎根于第5节的实验细节(若存在)。
Maintained by 陈星宇 · Homepage · Source on GitHub