Parametrization, prior independence, and the semiparametric Bernstein-von Mises theorem for the partially linear model¶

作者: Christopher D. Walker
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：半参数 Bernstein-von Mises (BvM) 定理研究的是：在含有有限维参数 \(\theta\)（目标）与无限维 nuisance \(\eta\)（干扰）的半参数模型中，当样本量 \(n \to \infty\) 时，\(\theta\) 的边际后验分布是否（在以真实参数为中心、以 \(1/\sqrt{n}\) 为尺度的渐近意义下）收敛到一个方差等于半参数有效界的 Gaussian 分布。如果成立，则 Bayesian credible sets 与 frequentist confidence intervals 渐近等价，Bayes 估计量达到 Hajek-Le Cam 效率。当前该方向的成熟度处于“有一般性理论框架，但在具体模型与先验下验证核心条件（尤其是 prior invariance / stability）仍极度困难且常失败”的阶段。

发展脉络： 1. 奠基工作：Bickel & Kleijn (2012) [11] 建立了半参数 BvM 的一般性理论框架。他们指出，要使边际后验达到有效 Gaussian 极限，除了要求 nuisance 后验以足够快的速率收缩外，还必须满足一个关于先验的 prior invariance / stability 条件（即：在有效影响函数方向上，先验分布的密度比在真实参数的局部扰动下必须渐近稳定）。这个条件在无限维空间上极难验证，且常常不成立。 2. 主要进展（线性泛函与光滑泛函）：Rivoirard & Rousseau (2012) [2] 对密度模型的线性泛函给出了 BvM 条件，展示了 Gaussian 或 Gaussian 混合极限的可能；Castillo & Rousseau (2013) [3] 将 BvM 推广到更一般的光滑半参数泛函，发展了处理半参数偏差的工具，但 prior invariance 仍是绕不过的硬骨头。 3. 当前 Frontier（绕过 prior invariance 的尝试）： - 依赖先验路线：Yang et al. (2015) [5] 在部分线性模型中发现：若对 \(\beta\) 与 \(\eta\) 赋予独立先验，adaptive 估计下甚至可能无法达到 \(\sqrt{n}\) 收缩速率；他们提出一类 dependent prior（将 \(\eta\) 的先验依赖于 \(\beta\)，吸收信息损失），从而恢复有效性与自适应。 - 先验修正路线：Ray & van der Vaart (2020) [4] 与 Ray & Szabó (2019) [20] 在因果 ATE 模型中，提出基于 propensity score 估计量的 prior correction（修正条件均值先验），以缓解 prior invariance 的苛刻光滑性要求。Breunig et al. (2022) [6] 进一步提出 double robust prior correction，在 ATE 模型下实现了双稳健的半参数 BvM。 - 重参数化路线：Hahn et al. (2018) [15] 在因果推断的 shrinkage 先验中，通过将模型重写为 \((\beta, m)\) 参数化（而非传统的 \((\beta, \eta)\)），在模拟中展示了缓解 regularization-induced confounding 的效果，但未给出 BvM 理论。Yang (2019) [24] 在高维稀疏线性回归中，通过重参数化与先验修正结合，证明了单坐标的 BvM。 4. 本文的位置：本文在部分线性模型下，提出一种 feasible reparametrization（将传统的 \((\beta, \eta)\) 参数化替换为 \((\beta, m)\) 参数化，其中 \(m\) 反映了半参数有效影响函数的结构），从而在 独立先验 下直接绕过 prior invariance 条件，证明了半参数 BvM。

子线索聚类： - 子线索 1：Prior invariance / stability 的验证与困境。以 Bickel & Kleijn (2012) [11] 为代表，聚焦于在一般框架下陈述 prior invariance，后续工作（如 Kim 2006 [18], Chae et al. 2016 [23]）在特定模型（如对称误差线性回归）下验证该条件，但往往要求 nuisance 具有极高光滑度。 - 子线索 2：通过先验修正 / 依赖先验缓解信息损失。Yang et al. (2015) [5] 的 dependent prior；Ray & Szabó (2019) [20], Ray & van der Vaart (2020) [4], Breunig et al. (2022) [6] 的 plug-in prior correction；Yiu et al. (2023) [22] 的 Bayesian bootstrap posterior correction。这一簇的核心思想是：既然独立先验在有效方向上不稳定，那就人为注入依赖或用数据修正先验。 - 子线索 3：通过模型重参数化改变几何结构。Hahn et al. (2018) [15] 的 \((\beta, m)\) 参数化（经验上成功，理论上空白）；Xie & Xu (2020) [21] 在部分线性模型中用 kernel mixture of polynomials 先验验证了传统 \((\beta, \eta)\) 参数化的 BvM（仍受制于 prior invariance）；本文 Walker (2023) 则在 \((\beta, m)\) 参数化下完成了理论证明。

这个方向在追问的核心问题： 1. 半参数 BvM 的先验条件到底能放宽到什么程度？ 独立先验是否在某种结构下天然满足有效推断要求，还是必须引入依赖或修正？ 2. 信息损失的几何结构如何被先验或参数化吸收？ Nuisance 未知导致的有效信息矩阵非对角化，是否可以通过将模型重写为“正交化”的参数化来解耦？ 3. 在具体非参数先验（如 GP、Wavelet series）下，BvM 的验证瓶颈在哪？ 是收缩速率不够，还是 prior invariance 无法满足？

⚠️ 作者的 framing： - 作者将缺口 frame 为：prior invariance 条件过于苛刻且难以验证（引用 Ray & van der Vaart 2020 指出其对 propensity score 施加严苛光滑性要求），而本文的 feasible reparametrization 使得 独立先验自动吸收信息损失，从而“显然是更易操作的下一步”。 - 被淡化或回避的竞争路线：作者将 prior correction 路线（Ray & Szabó 2019, Breunig et al. 2022）定位为“需要外部 plug-in 估计量且仅在 ATE 模型验证”，而将自己的重参数化定位为“无需外部估计量、在部分线性模型内完成”。然而，作者未深入讨论 dependent prior 路线（Yang et al. 2015）在部分线性模型下的理论对比——dependent prior 同样能达到有效且自适应，且不要求 prior invariance，只是先验设定更复杂。本文的独立先验优势是否在自适应上有所妥协？这一点被回避。 - 明显该被引却未出现的：半参数推断中的 Neyman orthogonality / debiased machine learning 路线（如 Chernozhukov et al. 2018 的 DML）在 frequentist 领域已成熟，其核心正是通过重参数化/正交化消除 nuisance 估计偏差的一阶影响。本文的 feasible reparametrization 思想与 Neyman orthogonality 高度同构，但 intro 未引用任何 DML 文献。这是一个值得研究者去查的缺口：Bayesian 的 feasible reparametrization 与 frequentist 的 orthogonal moment 是否只是同一几何的不同表述？

张力：未见明显对立引用。各路线（prior invariance, prior correction, dependent prior, reparametrization）在不同模型下给出正面结果，但尚未有文献在同一模型下证明某路线失败而另一路线成功。潜在的隐性张力在于：Yang et al. (2015) 证明在部分线性模型下独立先验在自适应设定中可能连 \(\sqrt{n}\) 速率都达不到，而本文声称独立先验在重参数化下可达有效 BvM——这两者的设定差异（是否要求自适应、先验光滑度是否匹配真实参数）是关键，需研究者自行核验。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\beta \in \mathbb{R}^p\)：低维目标参数（如因果效应系数）。
\(\eta \in \mathcal{F}\)：无限维 nuisance 函数（传统参数化下的非线性干扰函数）。
\(m = (m_1, m_2)\)：feasible reparametrization 下的 nuisance 函数对，其中 \(m_1: \mathbb{R}^d \to \mathbb{R}^p\)，\(m_2: \mathbb{R}^d \to \mathbb{R}\)。真实值记为 \(m_0 = (m_{01}, m_{02})\)。
随机变量 / 样本：
\(W_i = (Y_i, X_i, Z_i)\)：第 \(i\) 个观测，\(i=1,\dots,n\)。
\(Y_i \in \mathbb{R}\)：响应变量。
\(X_i \in \mathbb{R}^p\)：处理/协变量向量（与 \(\beta\) 关联的部分）。
\(Z_i \in \mathbb{R}^d\)：控制变量向量（与非线性干扰关联的部分）。
维数 / 样本量等指标：
\(n\)：样本量。
\(p\)：\(\beta\) 的维数（固定，低维）。
\(d\)：\(Z\) 的维数。
\(\delta_n\)：nuisance 后验收缩速率（如 \(\delta_n = n^{-\alpha/2}\)，\(\alpha\) 为光滑度）。
潜在 / 不可观测量：
\(\eta_0\)：真实的传统 nuisance 函数（不可直接观测，需从数据估计）。
\(m_0\)：真实的重参数化 nuisance 函数对（不可直接观测，但可通过 \((X, Z, Y)\) 的联合分布识别）。
\(\varepsilon_i\)：不可观测的独立误差，\(E[\varepsilon_i | X_i, Z_i] = 0\)，\(Var(\varepsilon_i | X_i, Z_i) = \sigma^2\)。

模型（数据生成机制）：部分线性回归模型的传统参数化为：

\[Y_i = X_i'\beta + \eta(Z_i) + \varepsilon_i, \quad \varepsilon_i \sim \text{独立，均值为 0，方差为 } \sigma^2\]

其中 \(\eta\) 是未知的 \(d\) 维函数。在此参数化下，由于 \(X_i\) 与 \(Z_i\) 可能相关，信息矩阵 \(I(\beta, \eta)\) 的非对角块非零，导致 \(\beta\) 的有效信息 \(I_{\beta\beta|\eta} = I_{\beta\beta} - I_{\beta\eta} I_{\eta\eta}^{-1} I_{\eta\beta}\) 严格小于 \(I_{\beta\beta}\)，存在信息损失。

可观测数据：研究者实际观测到的是 \(n\) 个独立同分布的三元组 \((Y_i, X_i, Z_i)\)。\(\beta\) 与 \(\eta\)（或 \(m\)）均不可直接观测，只能通过 \((Y, X, Z)\) 的联合分布识别。\(\varepsilon_i\) 不可观测。

第二步：最小内核（最简特例：\(p=1, d=1\)，高斯误差，线性 \(m_1\) 与常数 \(m_2\)）

考虑最简特例：\(X_i, Z_i \in \mathbb{R}\)，\(\varepsilon_i \sim N(0, \sigma^2)\)，且真实参数下 \(m_{01}(Z) = E[X|Z]\) 是线性函数（\(m_{01}(Z) = \gamma Z\)），\(m_{02}(Z) = E[Y|Z]\) 是常数（\(m_{02}(Z) = c\)，即 \(\eta(Z)\) 完全由 \(Z\) 的线性函数吸收）。

传统参数化 \((\beta, \eta)\) 下的困境：模型为 \(Y = X\beta + \eta(Z) + \varepsilon\)。对 \(\beta\) 与 \(\eta\) 赋予独立先验 \(\Pi_\beta \times \Pi_\eta\)。由于 \(X\) 与 \(Z\) 相关，\(\beta\) 的有效影响函数方向为 \(\tilde{X} = X - E[X|Z]\)。Bickel & Kleijn 的 prior invariance 条件要求：在 \(\tilde{X}\) 方向上，先验 \(\Pi_\beta\) 的局部扰动必须与 \(\Pi_\eta\) 的局部扰动在渐近意义上“解耦”。但在独立先验下，\(\eta\) 的先验支撑集可能不包含 \(E[X|Z]\) 的有效估计，导致后验在 \(\tilde{X}\) 方向上产生偏差，prior invariance 极难满足。
Feasible reparametrization \((\beta, m)\) 下的破局：将模型重写为：
\[Y_i = X_i'\beta + m_2(Z_i) + \varepsilon_i\]
并引入 \(m_1(Z) = E[X|Z]\)，使得 \(X_i = m_1(Z_i) + V_i\)，其中 \(V_i = X_i - m_1(Z_i)\) 是与 \(Z_i\) 独立（或至少 \(E[V_i|Z_i]=0\)）的残差。将 \(X_i\) 代入 \(Y_i\)，得：
\[Y_i = (m_1(Z_i) + V_i)'\beta + m_2(Z_i) + \varepsilon_i = V_i'\beta + [m_1(Z_i)'\beta + m_2(Z_i)] + \varepsilon_i\]
定义 \(\tilde{m}(Z) = m_1(Z)'\beta + m_2(Z)\)，则模型变为：
\[Y_i = V_i'\beta + \tilde{m}(Z_i) + \varepsilon_i\]
关键观察：在此重参数化下，\(V_i\) 与 \(Z_i\) 满足 \(E[V_i|Z_i]=0\)，因此 \(V_i\) 与 \(\tilde{m}(Z_i)\) 在信息矩阵中是 正交的（\(I_{\beta, \tilde{m}} = 0\)）。这意味着，\(\beta\) 的有效信息 \(I_{\beta\beta|\tilde{m}}\) 等于 \(I_{\beta\beta}\)（即 \(E[V V']/\sigma^2\)），信息损失被 \(m_1\) 的引入完全吸收。
最小内核下的证明路线：
在 \((\beta, m)\) 参数化下，对 \(\beta\) 与 \(m\) 赋予独立先验 \(\Pi_\beta \times \Pi_m\)。
由于信息矩阵正交，\(\beta\) 的有效影响函数方向就是 \(V_i\) 本身（无需再减去 nuisance 的投影）。
Prior invariance 条件在此正交结构下 自动满足：因为 \(\beta\) 的扰动不再影响 \(m\) 的似然（\(V\) 与 \(Z\) 独立），独立先验天然在有效方向上稳定。
后验收缩：\(\Pi(\beta | W^{(n)})\) 以 \(\sqrt{n}\) 速率收缩到 \(\beta_0\)，且极限分布为 \(N(\hat{\beta}_{eff}, I_{\beta\beta|\tilde{m}}^{-1}/n)\)，其中 \(\hat{\beta}_{eff}\) 是半参数有效估计量（如基于 \(\tilde{X}\) 的 OLS）。

为什么这个最小内核支撑整篇论文：一般情形（\(p>1, d>1\), 非参数 \(m_1, m_2\), 非高斯误差）只是在此正交结构上的“加壳”：\(m_1\) 与 \(m_2\) 变成无限维函数，先验变为 GP 或 wavelet series，收缩速率 \(\delta_n\) 变慢，但核心几何——通过 \(m_1\) 吸收 \(X\) 对 \(Z\) 的依赖，使得残差 \(V\) 与 nuisance 正交，从而独立先验天然满足 prior invariance——始终不变。证明的技术难点仅在于：在非参数先验下验证 nuisance 后验的收缩速率足够快（\(\delta_n = o(n^{-1/4})\)），以及处理非高斯误差下的似然鲁棒性。

三、这篇论文做了什么¶

三句话： ① 研究了部分线性回归模型下低维参数 \(\beta\) 的半参数 BvM 定理，核心难点是未知 nuisance 导致的信息损失引发的 prior invariance 条件。 ② 提出 feasible reparametrization，将模型按半参数有效影响函数的结构重写为 \((\beta, m)\) 参数化（\(m\) 包含 \(E[X|Z]\) 与 \(E[Y|Z]\)），使得对 \(\beta\) 与 \(m\) 赋予独立先验时自动吸收信息损失。 ③ 证明了在 uniform wavelet series priors 与 Matérn GP priors 下，\(\beta\) 的边际后验极限为半参数有效 Gaussian，无需验证 prior invariance。

关键设定与假设： - 设定：部分线性模型 \(Y_i = X_i'\beta + \eta(Z_i) + \varepsilon_i\)，重参数化为 \(Y_i = V_i'\beta + \tilde{m}(Z_i) + \varepsilon_i\)，其中 \(V_i = X_i - m_1(Z_i)\)，\(\tilde{m}(Z) = m_1(Z)'\beta + m_2(Z)\)，\(m_1(Z) = E[X|Z]\)，\(m_2(Z) = E[Y|Z] - E[X|Z]'\beta\)。 - 假设 1（误差条件）：\(\varepsilon_i\) 独立，\(E[\varepsilon_i | X_i, Z_i] = 0\)，\(Var(\varepsilon_i | X_i, Z_i) = \sigma^2 < \infty\)。统计含义：允许非高斯误差，但要求条件同方差。相比 Bickel & Kleijn (2012) 的高斯假设有所放宽；作者通过引用 van der Vaart & van Zanten (2008) [7] 的 Gaussian likelihood 鲁棒性，论证在非高斯下后验仍以正确速率收缩。 - 假设 2（先验独立性）：\(\Pi = \Pi_\beta \times \Pi_m\)，其中 \(\Pi_\beta\) 在 \(\mathbb{R}^p\) 上有连续正密度，\(\Pi_m\) 是 \(m_1\) 与 \(m_2\) 上的非参数先验（wavelet 或 GP）。统计含义：这是本文的核心设定——独立先验在传统参数化下因信息损失而失效，但在重参数化下因正交性而恢复有效。相比 Yang et al. (2015) 的 dependent prior 与 Ray & Szabó (2019) 的 prior correction，本文不引入先验间的依赖或数据驱动的修正。 - 假设 3（光滑度与收缩速率）：真实 \(m_0\) 属于先验的 RKHS 支撑集或 Holder 空间，且 nuisance 后验收缩速率 \(\delta_n = o(n^{-1/4})\)。统计含义：这是半参数 BvM 的标准速率要求（nuisance 估计偏差必须小于 \(1/\sqrt{n}\) 以保证 \(\beta\) 的有效推断）。本文通过选择适当的 wavelet/GP 先验超参数（如 Matérn 的光滑度 \(\alpha > d/2\)）来保证 \(\delta_n = n^{-\alpha/(2\alpha+d)} \leq n^{-1/4}\)。

主要结果： - 定理 1（半参数 BvM 的核心定理）： - 陈述：在 feasible reparametrization \((\beta, m)\) 与独立先验 \(\Pi_\beta \times \Pi_m\) 下，若 nuisance 后验以速率 \(\delta_n = o(n^{-1/4})\) 收缩到 \(m_0\)，则 \(\beta\) 的边际后验满足：

\[\Pi(\sqrt{n}(\beta - \beta_0) | W^{(n)}) \xrightarrow{d} N(0, I_{\beta\beta|\tilde{m}}^{-1})\]

其中 \(I_{\beta\beta|\tilde{m}} = E[V V'] / \sigma^2\) 是半参数有效信息矩阵。 - 直觉：重参数化使得 \(\beta\) 的有效影响函数方向变为 \(V_i\)（与 nuisance \(\tilde{m}\) 正交），因此独立先验在有效方向上天然稳定，prior invariance 条件被正交结构自动满足。 - 必要条件：\(\delta_n = o(n^{-1/4})\)（保证 nuisance 偏差的一阶影响可忽略）；\(\Pi_\beta\) 在 \(\beta_0\) 处有正密度（保证 \(\beta\) 后验不退化）；误差条件同方差（保证有效信息矩阵形式简单）。 - 解决的技术难点：绕过 prior invariance 条件。传统证明需验证 \(\Pi(\beta + h/\sqrt{n}, \eta + A_\eta h/\sqrt{n}) / \Pi(\beta, \eta)\) 在 \(h\) 方向上渐近稳定，其中 \(A_\eta\) 是 nuisance 在有效方向上的投影算子——这在无限维空间上极难验证。本文通过重参数化使得 \(A_m = 0\)（nuisance 在有效方向上的投影为零），从而密度比退化为 \(\Pi_\beta(\beta + h/\sqrt{n}) / \Pi_\beta(\beta)\)，由 \(\Pi_\beta\) 的连续正密度直接保证稳定。

命题 1（Wavelet series priors 下的收缩速率）：
陈述：对 \(m_1\) 与 \(m_2\) 赋予独立 uniform wavelet series priors（随机截断点 \(J_n \sim \text{几何分布}\)，系数均匀分布），若真实 \(m_0\) 属于 Holder 空间 \(C^\alpha\) 且 \(\alpha > d/2\)，则 nuisance 后验收缩速率 \(\delta_n = n^{-\alpha/(2\alpha+d)} \log n\)，当 \(\alpha > d/2\) 时满足 \(\delta_n = o(n^{-1/4})\)。
统计含义：验证了定理 1 的速率条件对 wavelet 先验成立，且允许自适应（先验不需预先知道 \(\alpha\)）。
命题 2（Matérn GP priors 下的收缩速率）：
陈述：对 \(m_1\) 与 \(m_2\) 赋予独立 Matérn GP priors（光滑度参数 \(\alpha > d/2\)），若真实 \(m_0\) 属于对应 RKHS 且 \(\alpha > d/2\)，则 nuisance 后验收缩速率 \(\delta_n = n^{-\alpha/(2\alpha+d)} \log n\)，满足 \(\delta_n = o(n^{-1/4})\)。
统计含义：验证了定理 1 对常用 GP 先验成立，但需先验光滑度 \(\alpha\) 匹配真实光滑度（非自适应）。

证明路线与技术技巧： - 整体路线： 1. 重参数化与正交化：将模型从 \((\beta, \eta)\) 重写为 \((\beta, m)\)，计算有效信息矩阵，证明 \(I_{\beta, m} = 0\)（正交性）。 2. Nuisance 后验收缩：引用 van der Vaart & van Zanten (2008) [7] 与 de Jonge & van Zanten (2012) [19] 的 GP/wavelet 收缩速率理论，结合 Castillo (2008) [13] 的下界引理，证明 \(\Pi(m | W^{(n)})\) 以速率 \(\delta_n = o(n^{-1/4})\) 收缩到 \(m_0\)。 3. 局部渐近实验：将半参数模型嵌入局部参数 \((h, k)\) 的扰动序列（\(h \in \mathbb{R}^p\), \(k \in \mathbb{R}^d\) 的函数空间），计算局部似然比，利用正交性证明局部实验退化为只关于 \(h\) 的 Gaussian 实验（nuisance 扰动 \(k\) 对 \(\beta\) 似然无一阶影响）。 4. Prior invariance 的自动满足：在正交参数化下，有效方向上的先验密度比退化为 \(\Pi_\beta(\beta_0 + h/\sqrt{n}) / \Pi_\beta(\beta_0)\)，由 Lebesgue 密度连续性直接控制，无需验证无限维先验的稳定性。 5. 极限分布整合：结合局部实验退化与先验稳定性，应用 Le Cam 的离散化与极限定理，得到 \(\beta\) 后验的极限为 \(N(0, I_{\beta\beta|m}^{-1})\)。

关键跳跃点：
引理 1（正交性导致 prior invariance 自动满足）：这是本文最吃功夫的跳跃。传统 BvM 证明中，prior invariance 要求先验在 \((h, A_\eta h)\) 方向上稳定，其中 \(A_\eta\) 是 nuisance 在有效方向上的投影算子（非零且依赖 \(\eta\) 的无限维结构）。本文通过重参数化使得 \(A_m = 0\)，从而将无限维稳定性条件降维为有限维密度连续性条件。难点在于：如何构造 \(m\) 使得 \(A_m = 0\) 且 \(m\) 可由数据识别？作者通过 \(m_1 = E[X|Z]\) 与 \(m_2 = E[Y|Z] - E[X|Z]'\beta\) 的定义，既保证正交性又保证识别性。
技术技巧点名：
Gaussian likelihood 鲁棒性（van der Vaart & van Zanten 2008 [7]）：用于在非高斯误差下证明后验仍以正确速率收缩（似然被 Gaussian 似然控制）。
RKHS 浓度函数与收缩速率（van der Vaart & van Zanten 2008 [7], Castillo 2008 [13]）：用于计算 GP/wavelet 先验的收缩速率 \(\delta_n\)，验证 \(\delta_n = o(n^{-1/4})\)。
局部渐近实验（Le Cam 理论）：用于将半参数模型局部化，计算局部似然比，证明正交参数化下实验退化。
Product supremum norm 与多函数收缩（de Jonge & van Zanten 2012 [19]）：用于处理 \(m = (m_1, m_2)\) 的联合收缩速率（需控制 \(\|m_1 - m_{01}\|_\infty\) 与 \(\|m_2 - m_{02}\|_\infty\) 的乘积或联合界）。

真实例子与应用：本文为纯理论 / 无实证例子。所有结果均为定理与命题，无模拟或数据应用。作者在 intro 提及 Hahn et al. (2018) [15] 的模拟证据支持 \((\beta, m)\) 参数化的经验优势，但本文本身未提供新的模拟。

🔎 结论是否比证明窄： - 作者在 abstract 与 intro 中泛泛 claim "avoid prior invariance condition"，但严格证明中仅对 部分线性模型 与 独立先验 成立。对更一般的半参数模型（如 ATE 模型、proportional hazard 模型），feasible reparametrization 是否总能构造出 \(A_m = 0\) 的正交参数化，并未证明或 conjecture，仅作为"可能更易验证"的讨论（见 intro 第 4 段："We believe that these conditions may be easier to verify..."）。研究者需核验：此 claim 是否仅对部分线性模型这类有显式正交分解的模型成立，而对非线性因果模型（如 ATE 的双稳健结构）未必直接推广。 - 定理 1 要求 \(\delta_n = o(n^{-1/4})\)，但 wavelet 命题 1 的速率含 \(\log n\) 项，严格来说需 \(\alpha > d/2\) 且足够大才能保证 \(n^{-\alpha/(2\alpha+d)} \log n = o(n^{-1/4})\)。作者在证明中未显式计算 \(\alpha\) 的下界，仅说"for large \(n\)"——这是一个需核验的细节。

四、开放问题（点到为止，扎根具体语句）¶

Feasible reparametrization 在一般半参数因果模型下的构造：本文的正交参数化依赖部分线性模型的显式结构（\(m_1 = E[X|Z]\) 可分离）。在 ATE 模型（Ray & Szabó 2019 [20], Breunig et al. 2022 [6]）或 proximal causal inference 的 negative-control 设定下，是否存在类似的 feasible reparametrization 使得 \(A_m = 0\)？扎根点：intro 第 4 段 "We believe that these conditions may be easier to verify for a broad class of nonparametric priors..."——此 belief 未被证明，且 ATE 模型的双稳健结构可能需要更复杂的 \(m\) 定义。
自适应先验下的 BvM：本文的 wavelet 命题 1 允许自适应收缩速率，但定理 1 的 BvM 要求 \(\delta_n = o(n^{-1/4})\)。若真实 \(m_0\) 光滑度 \(\alpha\) 未知且先验自适应，是否仍能保证 BvM？Yang et al. (2015) [5] 证明在传统参数化下自适应先验可能破坏 \(\sqrt{n}\) 速率，本文的重参数化是否修复了这一问题？扎根点：Yang et al. (2015) [5] 的负面结果 vs 本文定理 1 的正面结果，设定差异需核验。
非同方差误差下的有效界与 BvM：本文假设 \(Var(\varepsilon | X, Z) = \sigma^2\)（条件同方差），使得有效信息矩阵为 \(E[V V']/\sigma^2\)。若误差条件异方差，有效界变为 \(E[V V' / \sigma^2(X, Z)]\)，重参数化是否仍能自动吸收信息损失？扎根点：定理 1 的假设 2（同方差），以及 intro 未讨论异方差情形。
与 DML / Neyman orthogonality 的理论同构性：本文的 feasible reparametrization 在几何上与 Chernozhukov et al. (2018) 的 DML orthogonal moment 同构（都是通过消除 nuisance 一阶影响来恢复有效推断）。是否可将 Bayesian reparametrization 与 frequentist orthogonal moment 统一在一个半参数几何框架下，从而将 DML 的模型适用范围映射到 Bayesian BvM 的适用范围？扎根点：intro 未引用任何 DML 文献，但核心思想高度相似——这是一个值得去查的缺口（读同子领域近期 5 篇 intro，看是否有人指出此同构）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Parametrization, prior independence, and the semiparametric Bernstein-von Mises theorem for the partially linear model¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论