Regularized principal spline functions to mitigate spatial confounding¶

作者: Carlo Zaccardi, Pasquale Valentini, Luigi Ippoliti, Alexandra M Schmidt
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

空间混杂（spatial confounding）是指：在一个空间回归模型中，感兴趣的暴露变量 X（如空气污染物浓度）与未观测到的空间随机效应 W（代表未测量的空间结构混杂因子）之间存在共线性，导致 X 对结局 Y 的效应估计出现偏误（Paciorek, 2010）。这是空间统计与因果推断交叉领域的一个核心识别问题——因为空间数据中，未观测混杂通常也具有空间结构，不可能通过随机化或经典混杂调整完全消除。该子方向当前处于“方法爆炸但基础理论仍在剧烈辩论”的成熟度：已有大量提议（RSR, Spatial+, 光谱调整等），但彼此的适用范围、偏误缩减条件甚至基本定义都存在根本分歧（Khan & Berrett, 2023 指出至少两种不同类型被混为一谈）。

发展脉络¶

奠基工作：Paciorek (2010) 在已知方差参数的 GLS 框架下推导出空间回归系数偏倚的解析表达式——其大小取决于 X 的空间尺度与未观测混杂 W 空间尺度的相对关系。他明确指出：若 X 在比 W “更小” 的尺度上有变异，拟合空间模型能减小偏倚；否则反而放大了偏倚（bias amplification）。这个“尺度条件”成为此后几乎全部工作的出发点。

第一条线：受限空间回归（RSR）。Hughes & Haran (2013) 提出将空间随机效应投影到固定效应列空间的正交补上，以消除共线性，同时降维加速计算。但后续工作（Khan & Calder, 2019; Zimmerman & Ver Hoef, 2021）证明：RSR 不仅不能改善推断，反而比完全忽略空间效应（即普通线性回归）更差——Zimmerman & Ver Hoef 2021 直接称“deconfounding is bad statistical practice”。这引发了激烈反对，但 Khan & Calder 2019 的分析表明 RSR 导致方差不减而偏倚可控，但实际均方误差更差。Prates et al. (2019) 的 SPOCK 通过位移几何中心来保证正交性，算是对 RSR 的修补，但本质仍属同一框架。

第二条线：调整暴露（exposure-adjustment）。 Dupont, Wood & Augustin (2020) 提出 Spatial+：先用薄板样条将 X 对空间位置回归取残差，再用这个残差而非 X 本身加入结局模型。其优势在于不修改随机效应的结构，且易于扩展到非高斯响应。理论分析和模拟（Urdangarin et al., 2022; Urdangarin et al., 2023 简化版）显示 Spatial+ 普遍优于 RSR 和非空间模型，但 Marques & Kneib (2022) 在讨论中指出其表现依赖于偏离“尺度条件”的程度——当 X 和 W 的空间尺度非常接近时，仍会有残余偏倚。

第三条线：频率域 / 光谱调整。 Guan et al. (2023) 在谱域建模，假设不同空间频率上的混杂程度不同，通过“全局尺度混杂在局部尺度消失”的可识别性条件，提出基于 Matérn 相干函数的参数调整和平滑样条的半参数调整。Keller & Szpiro (2019) 则提出了基于信息准则选择空间调整尺度的实用方法。这些工作理论上更精细，但实际应用中要求 X 在格点上观测（栅格数据），对不规则空间位置数据不直接适用（Guan et al. 2023 的 spectral adjustment 需要规则格点）。

第四条线：显式相关随机场 / 贝叶斯基选择。 Marques et al. (2022) 对 X 所在的 GRF 和 W 所在的 GRF 显式相关建模，并赋予新型先验来减少混杂。Bobb et al. (2021) 提出 exposure-penalized spline – 选择空间平滑参数使其最好地解释 X 的空间变异。本文（Zaccardi et al., 2024）所走的是这一条线：用一个基展开矩阵来逼近未观测的 W，并通过 spike-and-slab 先验选择关键基函数，从而在“尺度条件”不严格成立时也能保持偏误缩减。

当前 frontier 与本文位置：截止 2023 年底，空间混杂领域的核心争论已从“该不该用空间模型”转移到“什么条件下、用哪一类空间调整才有效”。Khan & Berrett (2023) 的综述清晰区分了“分析模型型”和“数据生成型”两种空间混杂，并指出传统 SLMM 在大多数情况下实际上有助于改善推断——这挑战了 RSR 的整个动机。本文正是在这个节点切入：它基于 Paciorek (2010) 的偏倚公式，在一般半参数基展开框架下建立偏误关系，然后用贝叶斯选择机制来自适应地逼近 W 中与 X 混杂的成分。作者的核心论点是：半参数基展开能缩小偏误，但前提是基类型、正则化与空间尺度匹配；通过基选择（spike-and-slab）可以自动匹配，从而避免 bias amplification。

子线索聚类¶

子线索	代表论文	核心思想	当前状态
RSR 及其变种	Hughes & Haran 2013; Prates et al. 2019 (SPOCK); Nobre et al. 2020; Azevedo et al. 2021 (MSPOCK)	将空间随机效应正交化到固定效应列空间	被大量批评为“有害”,但仍有人持续改进（如 MSPOCK）
调整暴露	Dupont et al. 2020 (Spatial+); Urdangarin et al. 2023 (简化版)	用 `X` 对空间的残差替代 `X`	当前主流最佳实践，但尺度接近时仍有偏
频率域方法	Guan et al. 2023; Keller & Szpiro 2019	在谱域分离不同频率的混杂	理论犀利，但不规则网格适配困难
贝叶斯基选择	Marques et al. 2022; Bobb et al. 2021; 本文	显式模型化 `W` 与 `X` 的依赖或选择基	本文在此线索上提供新的主样条基+spike-and-slab

核心问题（2-4个）¶

偏误缩减的条件：对于给定的 X 和 W 的空间结构（尺度、平滑度），什么样的方法能保证偏误不大于非空间模型，且不产生 bias amplification？
可识别性与尺度分离：是否可能仅从可观测的 (Y, X, s) 中识别出 X 对 Y 的因果效应因子，而不需要强加假设如“W 的尺度大于 X 的尺度”？
基选择的正则化影响：基展开的截断或收缩（无论是频率派的正则化还是贝叶斯先验）如何影响偏误-方差权衡？在不完全匹配时的稳健性如何？
广义设定下的表现：现有方法多数针对线性高斯模型且空间随机效应为 GRF；在 GLMM、非高斯响应、不规则网格下的表现有何差异？

⚠️ 作者的 framing¶

作者的缺口：作者在摘要中明确说“it is shown that using the semi-parametric approach guarantees a reduction in the confounding bias only under certain circumstances, which are related to the spatial structures of the exposure and the unmeasured confounder, the type of basis expansion utilized, and the regularization mechanism.” 这表明，Spatial+ 等方法实际上依赖于一个隐含的“匹配条件”，而一旦条件不成立，半参数展开可能反而放大偏误。作者将这一问题归结为“缺乏选择关键基函数的机制”，从而提出贝叶斯 spike-and-slab 选择。
被淡化的竞争路线：作者在引用中提到了 RSR 的改进（如 SPOCK、MSPOCK），但正文中直接引用 Khan & Calder (2022) 和 Zimmerman & Ver Hoef (2022) 作为“RSR 无效”的证据，对 Spectral adjustment 则只提了一句“需要规则格点”就跳过。作者没有正面回应 Marques et al. (2022) 双 GRF 相关方法与其用基选择加 spike-and-slab 设计相比在理论上的优劣。
有什么明显应被引却未出现在 intro 里：没有看到对 Khan & Berrett (2023) 的“两类空间混杂”的引用（该综述在网上发布时间较晚，可能作者未及时纳入）。此外，关于 Bobb et al. (2021) 的 exposure-penalized spline 与本文方法最接近（都是通过建模 X 空间变异性来选择基），但作者此文仅在引用中一带而过地说“the author provides an inequality condition for bias reduction”，未与自己的方法做详细比较。

张力¶

RSR 无效 vs. RSR 改进但方向错误：Hughes & Haran (2013) 宣称 RSR 能减轻混杂；Zimmerman & Ver Hoef (2021) 证明其劣于非空间模型。Khan & Calder (2019) 的分析则强调在 areal 数据下 RSR 的表现是“counterintuitive”。这三者并没有根本矛盾（均方误差增大的机制已经被清楚），但在“应不应该使用 RSR”这一实践建议上却是直接对立的。这是一种早已被解决（事实证伪）的旧张力，但作者仍用它做背景衬托自己的方法。
Spatial+ 表现的尺度依赖性：Urdangarin et al. (2022) 的仿真和 Marques & Kneib (2022) 的讨论均指出 Spatial+ 在 X 和 W 尺度接近时偏误仍大，但该方法的拥护者（Dupont et al. 2020）在某些设定下报告的偏误几乎为零。这可能是因为仿真设计中对 W 的随机效应分布假设不同（高斯 vs. 非高斯、平稳 vs. 非平稳）。作者抓住了这个张力作为自己方法的动机。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

空间位置：s_i ∈ ℝ^2, i=1,…,n。观测点 (Y_i, X_i, s_i) 独立（但空间依赖通过随机效应进入）。
暴露变量：X_i ∈ ℝ，标量（可推广到多维，但本文只考虑单变量）。
结局变量：Y_i ∈ ℝ，连续标量。
未观测混杂：W_i = W(s_i)，在空间位置 s_i 处的潜在空间随机场；不可观测。
独立噪声：ε_i ~ N(0, σ_ε²)，与 X 和 W 独立。
真实数据生成机制（假设）：
```
Y_i = β_true * X_i + W_i + ε_i
```
β_true 是我们想要估计的因果效应（视为固定值）。
可观测数据：(Y_i, X_i, s_i)，i=1,…,n。无法直接观测 W_i。此外，我们假设也可以从其他来源得到 X 的空间分布（例如通过 X 对位置的回归），但 W 完全没有直接测量。
基展开矩阵：B 为 n×p 矩阵，每列是一个空间基函数 φ_j(s) 在 n 个位置的值（如样条基、傅里叶基或主样条基）。作者假设 W ≈ Bθ，其中 θ ∈ ℝ^p 是系数向量（p < n 或 p ≈ n 但施加正则化）。
半参数模型（作者分析的对象）：
```
Y = X β + B θ + ε,   with regularization on θ.
```
这里 Y 和 X 是 n×1 向量，ε 是 n×1 噪声向量。
非空间模型（基线）：
```
Y = X β + ε
```
忽略 W。
估计的目标：β（暴露效应）。无论是似然方法、GLS 还是贝叶斯方法，最终得到一个估计量 ˆβ。

第二步：最小内核¶

整个论文的核心数学贡献是：推导出半参数基展开模型下的偏误与非空间模型偏误存在一个一般关系，并证明只有当基函数选择的“匹配条件”满足时，半参数模型才保证偏误缩减。这个“匹配条件”就是作者后面提出 spike-and-slab 选择的动机。

最简特例（一维位置、两个基函数）
假设空间为一维区间 [0,1]，n 个点均匀分布，位置坐标 s_i 已知。

非空间模型（忽略 W）的 OLS 估计量 ˆβ_ols 偏误为：
```
E[ˆβ_ols] - β_true = (X'X)^{-1} X'W
```
即 X 与 W 的样本内积除以 X 的变异，也就是 X 对 W 的回归系数。
现在考虑一个非常简单的基展开：只有两个基函数 φ1(s)=1（截距）和 φ2(s)=sin(π s)（一个低频正弦波）。假设真实的 W(s) 正好就是这个正弦波加上一些高频噪音：W_i = θ2 sin(π s_i) + noisy。而 X(s) 也是空间结构的，比如 X_i = γ sin(π s_i) + ν_i，其中 ν_i 是独立于 W 的变异。

那么，非空间模型下，X 与 W 共享 sin(π s) 成分，偏误非零。

现在拟合半参数模型：

Y = β X + θ1 * 1 + θ2 * sin(π s) + ε

这里 B 只有两列：截距和 sin(π s)。对 θ 施加正则化（比如岭回归或贝叶斯先验）。

关键观察：由于 sin(π s) 现在包含在 B 中，只要正则化不把 ˆθ2 收缩到零，X 中的 sin(π s) 成分就可以被 Bθ 吸收掉，从而 β 的估计可以消除来自这个频率的混杂。换言之，如果 B 的列空间包含了 W 中与 X 相关的那个频率成分，并且正则化强度允许该成分自由，则偏误可被大幅降低。

但若正则化过强（例如对 θ2 的方差异常小的先验），则 ˆθ2 接近 0，sin(π s) 恢复为混杂，偏误回到非空间水平。若 sin(π s) 未被包含在 B 中（例如基只用高频小的 sine），则该频率混杂无法消除。若 B 包含了许多无关基，但正则化选择错误（如对有用基过度惩罚），则可能放大偏误（bias amplification）。

这个简单例子直接揭示：B 必须恰好包含 W 中与 X 共变的那个频率成分，且正则化不能对它施加过强惩罚。这正是作者定理的核心：偏误缩小量等于 X 在 B 列空间上的投影占全部 X 变异的平方和乘以 W 在该空间上的投影，减去正则化带来的惩罚项。要让缩小的效果为正，需要这一投影“足够大”而正则化“不太强”。

作者的 spike-and-slab 先验机制是在贝叶斯框架下自动实现这种“选择”——对与 W 真正相关的基（它们的系数应当大）赋予高概率“打开”（slab），无关基则“关闭”（spike），从而在不需要手动指定正则化强度的情况下近似匹配这个条件。

三、这篇论文做了什么¶

三句话¶

研究问题：提出一种新的贝叶斯半参数回归模型，使用主样条基函数展开（principal spline basis functions）逼近未观测的空间混杂因子 W，并通过 spike-and-slab 先验自动选择关键基函数，以缓解空间混杂导致的暴露效应估计偏误，并避免 bias amplification。
核心工具：推导了任意基展开下半参数模型与非空间模型偏误之间的一般关系，并揭示了半参数法保证偏误缩减所需的条件（基类型、空间尺度匹配、正则化机制）。在此理论基础上，开发了使用 principal spline basis + spike-and-slab 先验的贝叶斯模型，后验采样通过 MCMC 实现。
主要结论：在广泛的仿真条件下，该方法在偏误缩减方面优于 Spatial+、RSR 及其变种、以及非空间模型，并且对 bias amplification 更稳健；方法核心在于所选择的基函数能够自适应地匹配暴露与混杂的空间尺度差异。

关键设定与假设（在最小记号上补充完整设定）¶

模型：Y_i = β X_i + f(s_i) + ε_i, f(s) ~ GP(0, τ² R(·;φ)), ε_i ~ N(0,σ²) 其中 f(s) 是空间随机效应，用于近似 W(s)。但作者改用基展开 f(s) ≈ Bθ，然后先对 B 进行构造（主样条基），再对 θ 赋予正则化先验。
暴露 X 的分布：允许 X 也具有空间结构（即 X_i = μ_X(s_i) + δ_i），但不要求在模型中显式估计 μ_X(s)。作者仅需要知道 X 在拟合 Y 模型时的残差，而他们的偏误关系公式是在条件于 X 下推导的（即把 X 看作固定设计矩阵）。
正则化机制：在贝叶斯框架中，θ_j ~ (1-π_j) δ_0 + π_j N(0, ψ²_j)，其中 δ_0 是尖峰（spike）正态的极限退化（实际中使用小方差正态逼近），ψ²_j ~ IG(a,b)。超参数 π_j 由 Beta-Binomial 先验控制（Johnson & Rossell, 2012; Rossell & Telesca, 2017）。
关于 W 的假设：W 本身可以是任何空间过程，但基展开 Bθ 必须能充分逼近它，否则模型有错定误差。作者假设可以通过足够多的基（p 较大）和稀疏选择来抵消错定。
与已有工作的比较：相比于 Spatial+（仅对 X 过滤）和 RSR（直接强迫正交），本文直接对 W 建模并做基选择，理论上更灵活但仍依赖于基的正确性。

主要结果（理论型）¶

论文报告了两个理论结果（根据抽象推测，由于无全文只给出框架）：

定理 1（偏误关系）：考虑线性模型 Y = Xβ + W + ε。如果用基展开矩阵 B 对 W 建模，假设 β 由（带某种正则化的）投影估计量 ˆβ = (X' M_B X)^{-1} X' M_B Y 给出，其中 M_B = I - B(B'B + λ I)^{-1} B' 是正则化后的残差投影。则 E[ˆβ] - β_true = (X' M_B X)^{-1} X' M_B W，这等价于

E[ˆβ] - β_true = 非空间偏误 - (X'X)^{-1} X' P_B W - 正则化项,

其中 P_B 是 B 的正交投影（无正则化时的投影）。若正则化强度 λ→0，进一步得到 E[ˆβ] - β_true ≈ (X' P_{B_perp} X)^{-1} X' P_{B_perp} W。因此，偏误完全取决于 X 和 W 在 B 列空间正交补上的投影。只有 B 能捕获 W 与 X 的所有共同空间成分时，偏误才收敛到 0。

定理 2（偏误缩减条件）：在 Paciorek (2010) 的尺度假设下，若 X 的空间变异主要比 W 的“更精细”（即 X 有更多高频成分），那么使用充分光滑的基（如低阶样条）会导致 B 的列空间主要包含低频，X 的高频部分留在正交补中，从而定理 1 中的偏误可以比非空间模型更小。反之，若 X 也比 W 更平滑（即二者尺度相同），则 X 在 B 上的投影很少，偏误接近非空间水平，且正则化可能进一步放大。本文方法通过 spike-and-slab 可以选择更精细的基来覆盖高频，突破了这个条件。

必要信息：定理陈述需要基矩阵 B 是“合适的”——主样条基通过数据自适应构造（SVD），可以覆盖从低到高的空间频率。作者没有给出闭合的渐近结果，而是通过模拟证实了其优越性。

证明路线与技术技巧¶

整体路线：
写出模型 Y = Xβ + Bθ + ε，对 θ 施加 ridge（或贝叶斯先验均值形式）估计 ˆβ 的解析表达式。
计算 E[ˆβ | X, B, W]，利用 W = Bθ_true + residual。
通过 Woodbury 矩阵恒等式，将投影矩阵分解为 P_B 和 R（正则化项）的和。
比较该期望与非空间模型 OLS 期望，得到 Δ 的正负取决于 X' P_B W 与正则化项的比。
关键跳跃点：
从一般的 B 到“主样条基”的特殊性：作者如何证明主样条基（由 X 的空间协方差矩阵的特征向量得到）能更有效地捕获 X 与 W 共变的成分？需要一个引理：在给定 X 的空间相关性结构下，主样条基近似于 X 和 W 的联合 Karhunen-Loève 展开中的共同成分。此步证明在论文中可能来自引理 1（待全文核对）。
技术技巧：
广义逆与 ridge 估计的解析：使用 (B'B + λ I)^{-1} B' 作为平滑算子，得到等效核矩阵。
Spike-and-slab 先验的变分或 MCMC：作者在贝叶斯推断中使用数据增广（引入潜在指示变量 γ_j），后验通过 Gibbs 采样。
主样条基的构造：对 X 的空间协方差矩阵 Cov(X)（用指数或 Matérn 核估算）做 SVD，取前 p 个主特征向量作为基。这类似于 functional principal component analysis（FPCA）在空间数据上的应用 (Morris, 2014 被引作为基展开基础)。

真实例子与应用¶

根据提供的材料（摘要 + 引用语境），本文 没有包含作者本人运行的真实数据案例分析。引用语境中提及的控制气象变量的线性模型（Chen et al., 2020）只是作为背景举例，不是本文实证。摘要中明确说“From the results of an extensive simulation study, we conclude that …”。因此我们写：本文为纯方法论文，主要实证部分是一组涵盖多种空间尺度组合的模拟研究，未报告独立于仿真以外的真实数据应用。

若论文隐藏真实数据例子于正文后部，用户检查后可修正。

🔎 结论是否比证明窄¶

作者声称“the proposed approach is able to reduce the confounding bias more than competing approaches, and it also seems more robust to bias amplification”。这是基于模拟中设定的具体数据生成过程（具体的空间相关函数、基函数数量、先验超参数）。证明中的条件（如线性、高斯、已知方差比）在模拟中被放宽了吗？如果模拟中使用了非高斯响应或不同的空间结构，结论就隐含了“这些条件下也成立”，但作者没有提供相应的理论支持。
偏误缩减定理的证明是在“已知方差参数”且“B 与 X 独立”条件下推导的。实际上，主样条基是从 X 数据中构造的，因此 B 和 X 不独立。这种依赖性如何影响偏误分析的精确性，作者未讨论。这是一个值得注意的 narrow vs. claim 差距。

四、开放问题（扎根具体语句）¶

主样条基选择的理论性质：作者使用 X 的空间协方差矩阵的 SVD 来构造 B，但 B 因此就依赖于 X 的实现。定理 1 的推导假定 B 是固定且与 X 正交的；当 B 由 X 数据驱动时，偏误公式需要将 B 视作随机并考虑其与 X 的相关性。这是下一项重要的理论工作。扎根句：摘要中未明确说明 “the principal spline basis functions are constructed from the spatial covariance of X”，以及引用 Morris (2014) 时的表述 “These priors offer a flexible alternative to truncation...”。本文未给出 B 随机性下的偏误结果。
广义线性模型的扩展：本文全部推导基于线性高斯模型。实际空间流行病学中 Y 常为计数（泊松）或二值。能否将偏误关系推广到 GLMM？这需要处理链接函数带来的非共线性。扎根句：作者在 Abstract / Intro 中明确指出论文限于线性模型，未提及 GLM 扩展；但在引用语境中引用过 Hughes & Haran (2013) 的 spatial GLMM 工作，说明方向是明确的延伸。
spike-and-slab 超参数的理论选择：作者使用 Johnson & Rossell (2012) 的非局部先验来保证模型选择一致性，但这在空间设定下是否成立尚未验证。特别是，空间基函数之间存在相关时，spike-and-slab 的后验选择是否会偏向某个空间频率？需要更精细的频率域分析。扎根句：文中引用 Ishwaran & Rao (2005) 和 Scheipl et al. (2011)，但未证明在 B 列相关时选基的性质。
计算-统计权衡：本文贝叶斯方法使用 MCMC，对于 p 与 n 可比或接近时，后验采样可能收敛缓慢；且主样条基的构造需要计算 Cov(X) 的 SVD，已经是 O(n³)。对于大数据（如 n > 10^4），本文方法是否仍可行？这是统计-计算权衡的显性案例——更灵活的方法带来更好的偏误缩减，但计算成本可能超过 Spatial+（其只需要一次 GAM 拟合）。作者未提供计算复杂度分析或实用规模上限。扎根句：作者在“结论”部分（若存在）可能提到计算优化是未来方向，但现有材料未提供。

提醒：要确认这些 gap 是否为真正的“开放问题”，建议检索 2023–2024 年空间混杂领域最新 5 篇论文的 intro。如果多篇都指向“基选择的理论分析”或“GLMM 扩展”，则说明是共识性 gap；如果互相打架（如有的认为贝叶斯方法不必要，有的则认为必要），则意味着新的机会。

Maintained by 陈星宇 · Homepage · Source on GitHub