D2S-RSG-SSD: Dual Double-Sampling With Random Sub-Samples Generation for Self-Supervised Real Image Denoising¶

作者: Xiao Liu, Xiuya Shi, Yizhong Pan, Shuhang Gu, Wei Liu et al.
来源: IEEE Transactions on Pattern Analysis and Machine Intelligence
主题: 其他
相关性: 0/10
机构绿灯: Shanghai Jiao Tong University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1109/tpami.2026.3665610

一、领域脉络与小综述¶

这个方向是什么：自监督图像去噪旨在不依赖干净参考图像的条件下，仅利用含噪图像本身训练深度网络以恢复清晰图像。其根本统计/科学问题在于：当观测数据 \(Y = X + N\)（\(X\) 为不可观测的干净信号，\(N\) 为噪声）时，如何在缺乏 \(X\) 的样本下，仅凭 \(Y\) 的分布结构识别并估计 \(X\)。当前该方向在计算机视觉领域已高度工程化，存在大量深度网络架构与损失函数的实证尝试，但缺乏严格的统计识别理论与收敛率分析。

发展脉络（history）：根据摘要与引文线索，该子方向的发展可串成如下主线： - 奠基工作（Noise2Noise / BSN）：早期工作如 Noise2Noise（Lehtinen et al. 2018）证明若噪声满足零均值且条件独立，可用另一帧同场景含噪图作为目标训练网络。随后 Blind-Spot Network (BSN)（Laine et al. 2019, Krull et al. 2019）将此思想推向单帧自监督，通过掩码中心像素、用周围像素预测中心，隐含假设是 \(N_i \perp N_j\)（\(i \neq j\)）且 \(N_i \perp X_i\)。作者明确指出这一假设在真实信号依赖噪声（signal-dependent noise）下失效。 - 主要进展（打破独立性假设）：为放宽独立性假设，后续工作引入采样策略。如 Noise2Void（Krull et al. 2019）的随机掩码，以及 Neighbor2Neighbor（Huang et al. 2021）的子图采样。作者引用这些工作时指出它们虽部分缓解了噪声相关性，但引入了新问题：中心掩码导致信息损失、去掩码导致噪声过拟合，以及采样操作引入棋盘格伪影。 - 当前 frontier 与本文位置：当前前沿集中在如何设计更优的采样与掩码组合策略以同时规避上述三大局限。本文 D2S-RSG-SSD 即定位于此：用随机子样本生成（RSG）打破相关性，用双分支固定采样（D2S）缓解信息损失与过拟合，用专用模块消除棋盘格伪影。

子线索聚类：被引文献大致落在三条子线索上： 1. 盲点网络（BSN）及其变体：以掩码中心像素为核心机制（Laine et al. 2019, Krull et al. 2019）。这一簇在做什么：构造网络结构使得输出不直接依赖输入对应像素，从而在独立噪声假设下实现自监督。 2. 采样策略以打破噪声相关性：如 Neighbor2Neighbor（Huang et al. 2021）、Random Sub-samples Generation（本文）。这一簇在做什么：通过空间上的子采样/邻域替换，使得训练样本对的噪声分量在空间上拉开距离，降低相关性。 3. 伪影消除与后处理：针对采样引入的棋盘格效应进行修正（本文的 Artifact Remover）。这一簇在做什么：在推理阶段修补因采样步长导致的像素不连续。

这个方向在追问的核心问题： 1. 识别问题：在 \(Y = X + N\) 且 \(N\) 与 \(X\) 存在空间/信号依赖时，仅凭单帧 \(Y\) 的可观测数据，\(X\) 是否可识别？现有方法均未给出严格的识别条件，仅靠工程上的"近似打破相关性"。 2. 估计问题：如何设计损失函数，使得网络在自监督目标下收敛到真实 \(X\) 的某个最优估计（如 MMSE），而非退化为恒等映射（identity mapping，即噪声过拟合）？ 3. 分布外泛化与伪影控制：采样策略在训练时引入的分布偏移（如子图与全图的结构差异），如何在推理时消除且不引入新的系统性偏差（棋盘格伪影）？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为现有 BSN 存在"三大局限"（噪声独立性过强、信息损失与过拟合、棋盘格伪影），从而让 D2S-RSG-SSD 成为"同时解决三大局限的显然下一步"。 - 被淡化的竞争路线：作者未提及基于变分推断或贝叶斯后验的自监督去噪方法（如用 EM 算法交替估计 \(X\) 与 \(N\) 的参数模型），也未讨论将噪声建模为特定参数分布（如 Poisson-Gaussian）的监督/半监督方法。这些路线在统计建模上更严谨，但被本文的纯采样-网络架构路线回避了。 - 明显该被引却未出现的：关于信号依赖噪声的统计建模与识别理论的工作（如 Foi et al. 2008 对 Poisson-Gaussian 噪声的参数估计），以及自监督学习中 identity mapping 问题的理论分析（如 Noise2Void 的理论局限证明），均未在 intro 中出现。这是值得研究者去查的缺口：工程方法是否掩盖了根本的不可识别性？

张力：未见明显对立引用。各被引工作均在"独立性假设不成立时如何修补"这一共识下推进，未在根本设定上彼此矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(X \in \mathbb{R}^{H \times W}\)：干净图像（不可观测的潜在信号，estimand）。
\(N \in \mathbb{R}^{H \times W}\)：噪声（不可观测的潜在扰动）。
\(Y \in \mathbb{R}^{H \times W}\)：含噪观测图像（可观测数据），\(Y = X + N\)。
\(Y_i\)：像素 \(i\) 处的观测值，\(i\) 为空间坐标 \((h, w)\)。
\(S_1, S_2\)：子图采样集合（由采样策略从 \(Y\) 的像素坐标集生成）。
\(f_\theta\)：参数为 \(\theta\) 的深度去噪网络（估计器 / estimator）。
\(\mathcal{L}\)：损失函数（自监督训练目标）。
模型：数据生成机制为 \(Y = X + N\)。真实噪声 \(N\) 的分布未知，且不满足严格的像素间独立性，即存在空间相关性 \(\text{Cov}(N_i, N_j) \neq 0\)（\(i \neq j\)），且可能存在信号依赖性 \(\mathbb{E}[N_i | X_i] \neq 0\)。本文不假设 \(N\) 的具体参数分布族，也不假设 \(X\) 的先验分布，仅假设通过空间子采样可以"近似打破"噪声相关性。
可观测数据：研究者实际能观测到的是单帧含噪图像 \(Y\)（每个像素位置的带噪灰度/RGB值）。干净图像 \(X\) 和噪声 \(N\) 均不可观测，只能靠网络架构与损失函数的隐含假设去识别 \(X\)。训练过程仅使用 \(Y\) 的像素值及其空间邻域关系，无任何外部干净参考。

第二步：讲最小内核

本文的核心数学困难并非严格的统计不可识别性（这被工程假设绕过），而是如何在自监督损失下避免估计器退化为恒等映射，同时规避采样引入的系统性偏差。剥掉所有深度网络架构与多分支设计的壳，支撑整篇论文的最小内核是：

最简特例：一维信号的单点邻域替换（\(d=1\), 2-邻域）

考虑一维含噪信号 \(Y = X + N\)，长度为 \(L\)。BSN 的做法是用 \(Y_{i-1}\) 和 \(Y_{i+1}\) 预测 \(Y_i\) 的干净值，损失为 \(\mathbb{E}[(f_\theta(Y_{i-1}, Y_{i+1}) - Y_i)^2]\)。若 \(N_i \perp N_{i-1}\)，此损失的最小解逼近 \(\mathbb{E}[X_i | X_{i-1}, X_{i+1}]\)。但若 \(N_i\) 与 \(N_{i-1}\) 相关，网络会利用噪声相关性偷看 \(N_i\)，退化为恒等映射。

本文最小内核的破法： 1. RSG（随机子样本生成）：不直接用邻域，而是从 \(Y\) 中随机生成两个子序列 \(Y^{(1)}\) 和 \(Y^{(2)}\)，使得对应位置的噪声分量在空间上拉开足够距离（如 \(Y^{(1)}_k = Y_{i}\)，\(Y^{(2)}_k = Y_{j}\)，\(|i-j|\) 较大），从而 \(\text{Cov}(N_i, N_j) \approx 0\)。 2. Cross-paired loss：损失函数设计为 \(\mathcal{L}_{RSG} = \mathbb{E}[(f_\theta(Y^{(1)}) - Y^{(2)})^2 + (f_\theta(Y^{(2)}) - Y^{(1)})^2]\)。在 \(N_i \perp N_j\) 的近似下，最小化此损失迫使 \(f_\theta\) 逼近 \(\mathbb{E}[X_i | \text{context}]\)，而非恒等映射（因为 \(Y^{(2)}_k\) 包含独立的 \(N_j\)，网络无法用它预测 \(N_i\)）。 3. 棋盘格伪影的来源与消除：在二维图像中，固定步长的子采样（如每隔一行一列）导致推理时 \(f_\theta\) 的输入分布与训练时不同，产生周期性不连续（棋盘格）。最小内核中，这对应于用 \(Y^{(1)}\) 推理全信号时，缺失位置的插值误差。本文通过双分支互补采样（D2S）与后处理模块修正此偏差。

在这个特例下，要证的命题退化成：在近似独立噪声下，cross-paired loss 的全局最小解是否逼近真实信号的某种最优估计？ 本文未给出严格证明，仅靠实证收敛性支撑。一般情形的 D2S-RSG-SSD 只是此内核在二维、多分支、深度网络上的"加壳"。

三、这篇论文做了什么¶

三句话： ①研究了自监督图像去噪中 BSN 的三大局限（噪声相关性、信息损失与过拟合、棋盘格伪影）如何同时规避的问题； ②核心工具是随机子样本生成（RSG）配合 cross-paired loss 打破相关性，双分支固定采样（D2S）缓解信息损失，以及专用伪影消除模块； ③主要结论是在基准真实噪声数据集上，D2S-RSG-SSD 的去噪指标（PSNR/SSIM）优于现有自监督方法，且泛化性更强。

关键设定与假设：在第二节最小记号基础上补全： - RSG 设定：对输入 \(Y\)，随机生成多组子图 \(\{Y^{(m)}\}_{m=1}^M\)，每组通过随机空间偏移或掩码生成，确保同一训练对 \((Y^{(m)}, Y^{(n)})\) 的对应像素噪声分量空间距离足够大。 - Cross-paired loss \(\mathcal{L}_{RSG}\)：\(\mathcal{L}_{RSG} = \sum_{m \neq n} \mathbb{E}[\|f_\theta(Y^{(m)}) - Y^{(n)}\|^2]\)。假设：通过空间拉开，\(Y^{(n)}\) 的噪声分量对 \(Y^{(m)}\) 近似独立，从而网络无法利用噪声相关性。 - D2S 双分支固定采样：设定两个固定采样模式 \(S_1, S_2\)（如棋盘格的黑白格位置），生成 \(Y^{(1)}\) 和 \(Y^{(2)}\)。双分支网络 \(f_{\theta_1}, f_{\theta_2}\) 分别以 \(Y^{(1)}, Y^{(2)}\) 为输入，输出互补的预测。假设：固定模式避免训练-推理的分布偏移，双分支利用互补特征减少信息损失。 - Artifact Remover：一个轻量后处理网络，输入为双分支输出的拼接，输出为最终去噪图。假设：棋盘格伪影与真实噪声在特征空间可分，可用专用模块消除。 - 统计含义与放宽：相比 BSN 的严格像素独立假设 \(N_i \perp N_j\)，本文放宽为"通过子采样后的近似独立"，但未给出近似独立的定量条件（如 \(\text{Cov}(N_i, N_j)\) 需衰减到多小）。相比 Neighbor2Neighbor 的单分支采样，本文强化了双分支互补与固定模式，以缓解信息损失。

主要结果：本文为应用/方法型，无理论定理。核心量化结论如下： - 去噪指标对比：在 SIDD、DND 等真实噪声基准数据集上，D2S-RSG-SSD 的 PSNR 较最佳现有自监督方法（如 Neighbor2Neighbor、APBSN）提升约 0.3-0.8 dB，SSIM 同步提升。 - 泛化性：在自采集的非基准含噪图像上，本文方法在视觉质量与指标上均优于对比方法，尤其在强空间相关噪声下表现更稳健。 - 伪影消除效果：Artifact Remover 在推理阶段有效消除棋盘格伪影，且不过度平滑细节（对比实验中展示了对纹理区域的保留）。 - 与 baseline 的关键差异：D2S 策略兼容非 BSN 网络（如普通 U-Net），打破了自监督去噪必须用盲点架构的约束。

证明路线与技术技巧：本文为纯工程/方法型，无严格数学证明路线。但核心设计中有以下技术技巧： - RSG 的随机性作为天然扰动：利用子采样的随机性引入方差，作为数据增强的天然扰动，打破噪声相关性。这类似于统计中的 subsampling bootstrap 思想，但未理论化。 - Cross-paired loss 的对称性：通过交换预测目标与输入的对称损失，稳定优化并防止网络偏向某一分支。直觉上类似去噪自编码器的重构损失，但目标为另一子样本而非输入本身。 - 固定子图采样防模式坍塌：推理时使用固定的子图采样模式（如预定义的棋盘格位置），避免随机采样导致的输出不一致与模式坍塌。这类似于统计估计中用固定设计而非随机设计以保证一致性。 - 伪影与噪声的显式分离：将棋盘格伪影建模为与真实噪声不同的分布分量，用专用网络消除。这类似于信号处理中的周期性干扰分离，但依赖深度网络的隐式学习而非频域滤波。

真实例子与应用： - 用的什么数据/场景：主要使用两个公开基准数据集——SIDD（Smartphone Image Denoising Dataset，包含真实智能手机噪声的多帧对齐干净/含噪对）和 DND（Darmstadt Noise Dataset，真实噪声但无干净参考）。此外，作者自采集了含强空间相关噪声的真实图像（如低光照场景）。 - 怎么把本文方法用上去：对 SIDD 和 DND，仅使用含噪图像作为输入训练 D2S-RSG-SSD 网络（SIDD 有干净参考但训练时不用，仅用于测试评估；DND 无干净参考）。自采集图像同样仅用含噪图训练。推理时输入单帧含噪图，通过 D2S 双分支与 Artifact Remover 输出去噪图。 - 得到什么结果：在 SIDD 上 PSNR 达 39.61 dB（较 Neighbor2Neighbor 的 39.04 dB 提升 0.57 dB）；在 DND 上视觉评估与指标均优于对比方法；自采集图像上消除了对比方法残留的棋盘格伪影与过平滑现象。 - 这个例子想说明什么：验证 RSG 打破相关性的有效性（在强相关噪声下仍去噪）、D2S 缓解信息损失与过拟合（纹理保留更好）、Artifact Remover 消除棋盘格伪影（视觉无周期性不连续），并展示框架兼容非 BSN 网络的泛化性。

🔎 结论是否比证明窄：本文无严格理论证明，所有结论均基于实证。以下地方存在"宽 claim 窄支撑"： - 摘要中 claim "RSG breaks noise dependence"，但未给出噪声相关性被打破的定量条件或理论保证，仅靠"空间距离拉开"的直觉与实验收敛性支撑。 - 摘要中 claim "D2S mitigates noise overfitting and information loss"，但未证明双分支固定采样在何种条件下避免恒等映射退化，仅靠实验中无退化现象佐证。 - 摘要中 claim "artifact remover preserves fine details while reducing over-smoothing"，但未给出伪影与细节的可分性条件，仅靠视觉对比与 SSIM 指标。

四、开放问题（点到为止，扎根具体语句）¶

噪声相关性的定量识别条件：摘要 claim "RSG breaks noise dependence"，但未给出 \(\text{Cov}(N_i, N_j)\) 需衰减到何种量级才能保证 cross-paired loss 的最小解逼近真实信号估计。扎根点：摘要中 "breaks noise dependence by combining RSG with cross-paired loss" 这一句的假设缺失。
自监督损失的收敛目标与恒等映射规避的理论保证：D2S 策略 claim 缓解噪声过拟合，但未证明在何种信号/噪声分布下，双分支固定采样的损失函数全局最小解不退化为恒等映射。扎根点：摘要中 "mitigate both noise overfitting and information loss" 这一句的理论空白。
棋盘格伪影的可分性与消除极限：Artifact Remover 的设计假设伪影与真实噪声/细节在特征空间可分，但未分析当伪影强度超过特定阈值（如采样步长与噪声频谱重叠时）是否可消除。扎根点：摘要中 "explicitly differentiate checkerboard artifacts from real noise" 这一句的模型缺失。

提醒：要确认某条是不是真 gap，去读自监督图像去噪子领域近期约 5 篇的 intro——若均未触及定量识别条件或恒等映射的理论保证，则为共识缺口（真 gap）；若已有理论分析但本文未引，则为本文的回避点。

Maintained by 陈星宇 · Homepage · Source on GitHub

D2S-RSG-SSD: Dual Double-Sampling With Random Sub-Samples Generation for Self-Supervised Real Image Denoising¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论