Testing Preferential Sampling¶

作者: Isabel Natario, Andreia Monteiro
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.14615

一、领域脉络与小综述¶

这个方向是什么¶

本方向解决的根本问题是：在地质统计学（geostatistics）中，当采样位置与所测量的空间现象之间存在随机依赖时（即优先采样，preferential sampling, PS），如何检测这种依赖的存在。忽略PS会导致空间预测和参数估计产生严重偏误（biased predictions），因此在实际应用中（如环境污染监测、渔业资源评估）识别PS是一个关键诊断步骤。当前该子方向的成熟度中等——有不少模型和检验方法，但缺乏一个真正简单、无需复杂模型假设、能被实践者广泛采用的开箱即用型方法。

发展脉络（History）¶

奠基工作（2010）：Diggle et al. (2010) 系统提出了优先采样问题，并建立了联合建模框架：将空间过程 \(\{S(x)\}\) 与采样过程（点过程）通过一个共享的潜随机过程耦合，引入一个偏好性参数 \(\beta\)（PS发生时非零）。该论文是此方向的基石，几乎所有后续工作都以此框架为参照。

检验方法的几个主要进展： - 奠基性检验——Schlather et al. (2003)/Guan (2006); Guan & Afshartous (2007)：作者引用称，Schlather等人的Monte Carlo独立性检验基于“给定存在另一距离t的点时，某标记的条件期望和方差”，但“要求高斯标记，不推广到非连续标记”。Guan & Afshartous的解析检验不需要正态性、不要求拟合模型，但“需要相当大的样本量以及合适的子区域，这在空间范围较大时可能很困难”。 - 建模方法中的PS识别——建模框架内的检验：Diggle et al. (2010)、Dinsdale & Salibian-Barrera (2019)、Pennino et al. (2019) 等在联合模型框架中，通过估计偏好性参数 \(\beta\) 是否非零来识别PS。这些方法“公认复杂”，这是作者的原话。 - 当前前沿/竞争方法——Watson (2021)：作者引用称Watson提出的检验“使用最近邻距离评估点的局部聚类”，不要求响应变量分布，且“在R包中可用”。但作者指出其限制：需要拟合点过程的强度函数（“选择理论模型如Poisson、Cox等，对应用实践者可能构成挑战”），且“尽管被描述为快速，但在大数据集或高维背景下计算负担大，尤其是需要多次Monte Carlo模拟时”。

本文位置：作者将自己定位为“解决上述所有方法的缺陷”——无需分布假设、无需模型拟合、无需大样本、计算简单。

子线索聚类¶

这些被引文献大致落在 3条子线索：

纯检验方法（仅检验PS，不建模依赖结构）：Schlather et al. (2003); Guan (2006); Guan & Afshartous (2007); Watson (2021)。这一簇的共同点：不拟合完整的联合模型，只检验位置与标记的独立性。主要分歧在于：对数据的分布假设（高斯vs非参数）、是否依赖Monte Carlo、样本量需求、计算复杂度。
建模方法（通过包含偏好性参数 \(\beta\) 的联合模型，既建模又推断）：Diggle et al. (2010); Dinsdale & Salibian-Barrera (2019); Pennino et al. (2019); Gelfand et al. (2012); Illian et al. (2012, 2013); Raeisi et al. (2021)。这一簇以模型拟合为核心，PS是通过检查 \(\beta\) 是否非零来识别的，但建模过程本身比较复杂，需要拟合高斯过程或集成嵌套拉普拉斯近似（INLA）等工具。
协变量辅助方法（通过引入与S(x)相关的协变量来部分移除PS效应）：Gelfand et al. (2012); Illian et al. (2012, 2013); Raeisi et al. (2021)。这一簇知名度较低，在本文中是一笔带过的次要方向，本质上是对第2簇的扩展——通过加入协变量改善估计，但并未改变检验的核心逻辑。

论文自己的工作（MLC test）不属于上述任何一簇，而是采用了完全不同的策略：不基于点过程理论和模型拟合，而是基于空间聚合后的Spearman相关性检验。这使得它不与前人的建模框架直接竞争，而是另辟蹊径。

这个方向在追问的核心问题（2-4个）与已知瓶颈¶

PS的检测是否需要模型拟合？ 现有方法大多需要——要么需要拟合空间点过程（Watson）、要么需要拟合标记的分布（Diggle's joint model、Schlather's test requires Gaussian marks）。瓶颈：模型选择错误可能导致误判。本文的回应：不需要。
检验是否可以在假设较弱的情况下工作？ 许多方法假设平稳性和各向同性（Schlather, Guan），或正态性（Schlather），或需要大样本（Guan）。瓶颈：实际空间数据很难满足这些假设。本文的回应：无上述假设。
检验是否对实践者“开箱即用”？ Watson的检验需要一个R包（但需拟合点过程模型），Guan的检验需要将区域划分为足够多的独立子区域（通常与研究区域大小矛盾）。本文的回应：只需计算Spearman相关。但请注意：该方法保留了“区域划分”这一步骤，这并非无门槛（见下文张力）。

⚠️ 作者的 Framing（必须明确标注成“这是作者的说法”）¶

作者如何把缺口frame成“显然的下一步”？ 作者的叙事是：“现有方法要么要求高斯标记、要么需要大样本和合适的子区域（Schlather, Guan）、要么需要建模强度函数且计算量大（Watson），所以需要一个简单、非参数、不要求模型拟合、无分布假设、计算高效的检验。” 然后推出MLC test恰好满足所有这些条件。

被淡化或回避的竞争路线： - Diggle等的联合模型被定位为“用以减少PS偏差”，而非检测工具。作者实际上回避了这些模型也能通过检查参数 \(\beta\) 完成检测这一事实。 - Guan的检验的“子区域划分要求”被反复强调为一大缺陷，但MLC test自己也需要划分均匀网格——这就引出一个张力：MLC算不算在自造一个同样要求子区域的方法？作者在第2节以“正方形的边长l可以依赖数据和域”回答了这一点，但并未比较“均匀网格 vs 异质子区域”何者更优。 - Watson的检验的Monte Carlo计算被提到“计算负担大”，但原文中MLC test的Bayesian版本也依赖MCMC（“大约两分钟每个数据集”），这个计算成本在多个数据集上可能累积。

什么明显该被引/该存在、却没出现在介绍中？ - 均匀网格划分对检验功效的影响分析。作者简单提到“如果网格太小导致每个单元格只有一个点，会破坏测试”，但只给了一条经验规则（\(l = \sqrt{\text{Area}/n}\) 或 \(l = h/12\)），没有对网格选择的理论分析，也没有与自适应区域划分（如Guan的子区域）比较。 - 空间自相关对Spearman检验的影响。这是一个明显但被论文规避的问题：对原始观测而言，Spearman相关假定观测独立——但空间数据天然有空间相关性，直接使用标准t检验或排列检验的p值会导致I类错误膨胀。作者在讨论中承认了这一点（引用Clifford et al. 1989和Duncan et al. 2014），但本文没做任何校正——“leave this to future work”。这在实证工作中是一个显然应当提及但不被强调的缺口。

张力¶

未见明显对立引用。所有被引工作一致同意：PS是个严重问题，需要检测。但关于“检测是否必须依赖模型拟合”有分歧——Diggle等（建模派）认为模型拟合是必须也是正确的路，而本文所在的“纯检测派”试图不依赖模型。这种分歧未被作者明确点出，但对研究者来说有参考价值。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）：
\( \mathcal{D} \subseteq \mathbb{R}^2 \)：研究区域（spatial domain）。
\( \{S(x), x \in \mathcal{D}\} \)：潜在的、连续的、不可直接完全观测的空间过程（如空气中的真实污染物浓度）。它是一个随机场。
\( \mathbf{X} = (X_1, \ldots, X_n) \)：实际采样点的位置（二维坐标，在 \(\mathcal{D}\) 内）。在PS问题下，X的分布可能依赖于S(x)。
\( Y_i \)：在第i个位置观测到的带噪测量值，\( Y_i = S(X_i) + \varepsilon_i \)，\(\varepsilon_i\) 是独立于S的测量误差（nugget effect），通常假定为高斯白噪声 \(\mathcal{N}(0, \tau^2)\)。\( \mathbf{Y} = (Y_1, \ldots, Y_n) \)。
\( n \)：样本量（采样点数目）。
\( \beta \)：偏好性参数，控制PS强度。若 \(\beta = 0\)，则为非PS（采样与S独立）；若 \(\beta \neq 0\)，则PS存在。在Diggle模型中，采样过程的log-intensity与S(x)成正比。
\( d \)：将区域\(\mathcal{D}\)划分为均匀正方形网格后，网格的单元格数。
\( N_{P,j} \)：第j个单元格内的采样点数目，j=1,...,d。
\( \bar{Y}_j \)：第j个单元格内所有采样点的Y值的均值。
\( r_S \)：Spearman秩相关系数，用于检验 \(N_P\) 与 \(\bar{Y}\) 的相关性。
\( H_0 \)：\( \rho_S = 0 \)（无PS）；\( H_1 \)：\( \rho_S \neq 0 \)（有PS）。
\( l \)：正方形单元格的边长。
\( \text{Area}_\mathcal{D} \)：研究区域的总面积。
\( B_{10} \)：贝叶斯因子，支持H1（PS存在）对H0的强度。
模型与数据生成机制：
潜在过程：\( S(x) \) 是高斯过程（Matérn协方差），均值 \(\mu(x)\)（可以是常数4，或一个空间协变量如“到海岸的欧氏距离”），协方差结构由方差 \(\sigma^2\)、平滑度 \(\lambda\)、尺度参数 \(\kappa\) 或相关范围 \(r\) 描述。
采样过程：采样点 \(X_i\) 的分布由一个泊松点过程（或Cox过程）控制，其log-强度 \(\log \lambda(x) = \beta S(x)\)。具体而言，\(\beta=0\) 时采样均匀分布（非PS）；\(|\beta|>0\) 时采样偏向S(x)高或低的区域（PS）。
观测：\( Y_i = S(X_i) + \varepsilon_i \)，\(\varepsilon_i \sim \mathcal{N}(0, \tau^2)\)。
识别/核心假设：唯一识别的关键是——如果所有观测都是\(\mathbf{Y}\)和\(\mathbf{X}\)，那么\(\beta=0\)与\(\beta\neq0\)可以通过\(N_P\)与\(\bar{Y}\)的相关性来区分。这是因为，若\(\beta=0\)，X是空间均匀分布，N_P在域内各处稳定，与Y互独立；若\(\beta\neq0\)，采样点倾向于出现在S高（或低）的区域，导致部分网格内点密集且Y大（或小），出现负或正相关。
可观测数据：实际能观测到的只有\(\{X_i, Y_i\}_{i=1}^n\)——即采样点的二维坐标和该点的带噪测量值。不可观测的量包括：全域任意位置的潜在过程 \(S(x)\)、测量误差 \(\varepsilon_i\)、点过程的真实强度函数。

第二步：讲最小内核¶

最简特例（支撑整篇方法）：假设研究区域 \(\mathcal{D}\) 是 [0,1]×[0,1] 的正方形，将之划分为四个（d=4）相等大小的子正方形（网格边长 l=0.5）。n=100个点，\(Y_i\) 是标量数值（例如浓度）。计算： - \(N_{P,j}\)：每个子正方形内的点数（加起来是100）。 - \(\bar{Y}_j\)：每个子正方形内观测值的平均数。

现在，要检验的是：\(N_P\) 与 \(\bar{Y}\) 是否相关。

直觉：若PS不存在（\(\beta=0\)），采样纯粹均匀，各网格的点数大致相等（约25），\(\bar{Y}_j\) 随网格不同而有变化（纯粹由S的随机空间变化造成），但两者应独立，Spearman相关接近0。
直觉：若PS存在（例如 \(\beta=2\)，强烈正偏好，采样偏向S高的区域），那么S高的网格点数明显多于S低的网格。同时，高点数的网格Y值也高（因为S高）。于是 \(N_P\) 与 \(\bar{Y}\) 正相关，Spearman r_S 显著大于0。同理，负偏好（\(\beta=-2\)）产生负相关。

最简核心理念：将复杂的“采样点过程与空间高斯过程的依赖”问题，简化为两个标量之间（网格点计数 vs 测量均值）的相关性检验。这就是整篇论文的数学本质。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

① 研究问题：开发一个简单、易实现的假设检验方法（MLC test），用于诊断地质统计学数据中是否存在优先采样（preferential sampling）。② 核心工具：将研究域划分为均匀网格，计算每格内的采样点数和测量均值，然后用Spearman秩相关检验两者是否相关（频学派或贝叶斯派）。③ 主要结论：通过大规模模拟和两个真实数据集（苔藓铅浓度、虾捕获量），证明该方法在多数条件下能有效检测PS，且对网格划分不敏感，计算简单。

关键设定与假设¶

完整设定（补充第二节记号）： - 对空间过程 \(S(x)\)：Matérn协方差结构，参数 \(\lambda=1\)（平滑度固定）、\(\sigma^2=2.5\)（方差）、\(r=1.5\)（相关范围）。这是随机模拟设计，实际应用无需此假设。 - 对采样过程：log-强度为 \(\log\lambda(x) = \beta S(x)\)，\(\beta \neq 0\) 标识PS。 - 对观测：\(Y_i = S(X_i) + \varepsilon_i\)，测量噪声方差 \(\tau^2=0.2\)。 - 假设（核心是检验假设）： - \(H_0\)（无PS）：\( \rho_S = 0 \)，即网格内点计数与均值无相关。 - \(H_1\)（PS存在）：\( \rho_S \neq 0 \)。 - 网格选择假设：基于 \(l = \sqrt{\text{Area}_\mathcal{D}/n}\) 或 \(l=h/12\)（h为采样点对的最大距离）。作者认为这两个选择产生相似结果，是最优配置。 - 对现有文献的弱化/强化： - 强化：对比Guan的方法，无需子区域独立性假设；对比Schlather，无需高斯标记；对比Watson，无需拟合点过程强度函数；对比Diggle's joint model，无需拟合复杂的潜变量模型。 - 弱化/放弃：没有任何正式的理论保证（无渐近分布、无功效论证、无I型错误率控制证明）。所有结论全靠模拟。作者明确指出“空间相关性可能导致自由度误判，需要校正（leave this to future work）”。

主要结果（应用/方法型，核心量化结论）¶

MLC test在控制模拟场景中表现如下：

强PS场景（\(|\beta| \ge 1\)）：正确检测率超过90%，通常为95%-100%。无论网格类型、是否有协变量、样本量如何。
弱PS场景（\(|\beta| = 0.5\)）：正确检测率约60%-90%（样本量100时，大多数网格配置下检测率约为70%-90%）；当样本量降至50，仅为35%-50%。
无PS场景（\(\beta=0\)）：错误拒绝率（I类错误）约0-8%，通常在95%置信水平下保持良好（但对某些网格选择，如 \(\beta=0\) 且 \(l=0.25\) 时，I类错误有时升至8%，仍可接受）。
大样本场景（n=250, 500）：对于 \(|\beta| \ge 0.5\) 时的检测率接近或等于100%；对 \(\beta=0\)，I类错误约6%-16%（对于n=500，I类错误上升至10%-16%，暗示当样本量很大时，小幅度相关也会被检测出来，引起过度拒绝）。
贝叶斯版本：与频学派类似，但Bayes因子大于3（positive evidence）与p<0.05的对应基本一致。

对比baseline（模拟以外的真实数据验证）： - 苔藓铅浓度数据（Galicia, 1997 vs 2000）：已知1997年数据为PS（Diggle et al. 2010; Watson 2021），2000年为非PS。MLC test正确识别：1997年p值0.0071（\(l=h/12\)），\(B_{10}=5.53\)（positive evidence）；2000年p值0.2503（\(l=h/12\)），\(B_{10}=0.31\)（无支持PS的证据）。 - 虾捕获量数据（Alicante, 2009-2012）：需注意域定义——矩形域（包含大面积无采样区域）和限制域（仅含适宜深度区域）。结果：矩形域无PS（p≈0.88）、限制域有PS（p≈0.05）。作者将此归因于域定义的重要性。

稳健性：网格的不敏感是主要结论之一。\(l=h/12\) 和 \(l=\sqrt{\text{Area}/n}\) 几乎等价，\(l=0.25\) 和 \(l=0.5\) 在大多数情况下结果相似。

确定性与技术技巧¶

本文无理论证明——全书无一个定理、无一个引理。它是纯计算+模拟的方法型论文。因此以下用“方法设计路线”代替“证明路线”。

整体方法设计路线： 路线步骤：① 设定网格 → ② 逐格计算 \(N_{P,j}\) 和 \(\bar{Y}_j\) → ③ Spearman秩相关 → ④ p值或Bayes因子。

无跳跃点——因为方法过于简单。唯一的“设计选择”是：网格大小 \(l\) 的选取依赖于数据/域，避免稀疏格子。

技术技巧点名： - 使用了Spearman秩相关（非参数，无需正态性）。 - 在贝叶斯版本中使用“潜在正态得分模型”（van Doorn et al., 2020），将序数（rank）与参数模型桥接——但这不是本文提出的创新，而是引用文献已有方法。 - 模拟中使用Matérn场生成空间高斯过程——标准工具。

需注意：本文的“技术贡献”非常有限，核心是对一个已有检验方法的简单变形和系统模拟。全文最大的贡献是“实证证明了网格聚合+Spearman相关可以检测优先采样”——这实际上是一个实证发现，而非理论创新。

🔎 结论是否比证明窄¶

是，且需要明确指出：

结论声称“适用于任何地质统计数据集，无需分布假设”，但模拟仅覆盖了高斯设定（Matérn场，高斯噪声）。非高斯过程（如二值、泊松）或非平稳过程的效果未经检验。这个转变可能很大：对非连续标记，\(\bar{Y}_j\) 的分布改变会直接影响秩相关的方差。
结论声称“简单、非参数”，但Spearman检验的p值计算基于观测独立的假设，而空间数据明显违反独立性（至少通过空间过程产生相关）。作者在讨论中承认了这一点，但在实际用于苔藓和虾数据时未做有效样本量校正。
模拟中关于I类错误的结论是样本量为100时的，但作者没有正式统计显著性的理论分析。当n=500时，I类错误率升至10-16%（Table 14, 15），但作者未就此做出解释。

四、开放问题（点到为止，扎根具体语句）¶

空间自相关的校正：“空间相关性可能影响检验”（Discussion, 第3段）。具体扎根点：作者提及Clifford et al. (1989)的有效样本量方法“chosen not to do so here, leaving this to a future work”。这是一个明显的gap：无校正的p值会产生偏大的I类错误。
网格选择的理论：当网格选择 \(l\) 的两条经验规则（\(\sqrt{\text{Area}/n}\) 和 \(h/12\)）在“某些空间结构下（如各向异性）是否仍然最优？”未被探讨。具体扎根点：Section 2提到l可数据依赖，但没有任何理论分析（无渐近分布、无I类错误率界）。研究者可追问：是否存在更优的自适应选择标准？
在识别非PS时的缺失：作者关于非PS的判断仅仅建立在“p值未显著”基础上。但在模拟中，对于某些 \(\beta\) 值，这个判断的错误概率高达30-40%（弱PS场景）。具体扎根点：作者在Introduction概述法和模拟结果中未提供功效函数。扩展：可否用功效规划样本量来辅助实践？
当PS与非PS在空间上混合（部分子区域有PS、部分无）的情况：MLC test的聚合方法难以区分这种精细结构。具体扎根点：方法设计基于全域网格整体相关性，没有考虑PS可能只在局部区域存在。

提醒：上述4点是否真是gap，建议去读： - 近5篇地质统计学领域的检验方法论文（如Guan & Afshartous,Watson, Diggle的后续工作）的Introduction，看它们是否共识性地承认了空间自相关校正的实现困难。 - 同时检索Clifford et al. 1989 的有效样本量方法是否已被其他人采用。如果共识缺失（“不同人不同说法”），那就是一个机会。

Maintained by 陈星宇 · Homepage · Source on GitHub