跨篇综合 · 数理统计 / 假设检验¶

子方向: 数理统计 / 假设检验
期刊范围: AoS
聚合期刊论文数: 4
生成日期: 2026-06-02

本页由跨篇综合自动生成：从近期期刊精读里归纳反复出现的开放问题、张力与迁移空位。不打分、不排名，每条点名来源论文 [k]，供你自己判断。

一、这个子方向的全景¶

这批论文共同追问数理统计中“结构化约束下的最优检验与估计边界”：当问题从理想低维独立设定走向高维、相依、污染或缺失的现实时，统计与计算的极限在哪里。主流路线有三条：(1) 基于大偏差/对偶刻画非线性目标（如FDR）或几何约束（如星形集）的渐近最优权衡与minimax率；(2) 基于低次多项式与组合常数（如Otter常数）标定信息-计算间隙的相变阈值；(3) 基于凸松弛（如SDP对偶）将非凸结构检验转化为可计算的高维检验。整体停在“理想结构下的理论边界已刻画，但向现实（相依、未知参数、计算瓶颈）延伸时出现系统性断点”。

二、反复出现的开放问题¶

相依/相关结构对理论边界的破坏与修正
① 独立性假设失效时，最优权衡曲线、minimax率或计算相变阈值如何偏移？如何利用协方差/相依信息重构规则？
② [1] 明确指出检验统计量有相关结构时compound oracle极限曲线未知，且separable rule结论不再成立；[3] 指出存在异常值或异质性图模型时，low-degree阈值可能改变；[4] 指出需推广至“协变量下条件独立（MAR）”的相依缺失检验。
③ 卡在“大偏差/低次多项式/SDP”这三条主流路线均依赖独立或低维局部结构假设，相依结构导致对偶退化或矩计算爆炸。
未知参数/异质性对“Oracle到可行估计”间隙的量化
① 理论边界常依赖已知参数（ε, μ, σ²），参数未知或异质时，可行估计与Oracle间的额外代价（渐近界、对数因子）是什么？
② [1] 指出参数未知导致adaptive估计有额外损失，且ε→0（稀疏）时极限曲线需修正；[2] 指出噪声方差未知且不对称时率退化出log(1/ε)因子，且不知其是否必要；[4] 指出不兼容度δ衰减快于1/√n时检验功效无法保证。
③ 卡在“插件估计破坏非线性目标函数的渐近性”与“局部熵/相变阈值对参数漂移的敏感性”上。
高维/高阶结构的计算瓶颈与统计-计算折衷
① 随问题规模（缺失模式数、社区数k、约束维度）增长，算法（SDP、滤波、低次多项式）面临计算爆炸，能否有近似/随机化算法并量化折衷？
② [3] 指出k随n增长时结论不成立，且D≤log^{0.4}n限制了多项式阶数；[4] 指出SDP规模随缺失模式|M|增长计算昂贵，需随机抽样或凸松弛近似。
③ 卡在“组合爆炸（树计数/缺失模式超图）与凸规划维数”对计算资源的吞噬，缺乏低复杂度保功效的算法理论。
向半参数/非参数/重尾设定的推广
① 现有界与检验依赖子高斯/正态/指数集中性，弱矩或非参数设定下率与检验如何变化？
② [2] 提出将局部熵与半参数sieve条件连接导出鲁棒效率界；[4] 提出仅依赖有限四阶矩的检验统计量构造。
③ 卡在“指数集中性是现有对偶/SDP/Bootstrap校准的基石”，重尾下集中不等式与对偶表征同时失效。

三、张力 / 矛盾¶

非线性目标下“可分离规则”最优性的分歧：[1] 证明在真实FDR-FNR权衡下，separable rule渐近严格次优，必须用compound rule；但被引文献（Storey 2002等）在mFDR-mFNR下证明separable rule可达最优。张力源于FDR的非线性不可分离性（E[V/R]）与mFDR的可分离性（E[V]/E[R])，调和此张力需明确“何时非线性目标可被线性近似而不损失渐近率”。
鲁棒估计中“约束几何决定率”的分歧：[2] 证明星形约束下minimax率由局部熵隐式决定，突破了Chen et al. (2018)凸约束下不含局部熵的率表达式；同时与Donoho (1994)经典非鲁棒minimax的（全局）熵条件形成张力——鲁棒性要求将全局packing降级为局部packing。调和需建立“全局熵-局部熵-污染比例”的统一相变理论。
MCAR检验中“模型驱动 vs 结构驱动”的分歧：[4] 绕开多变量正态密度估计（Little's MCAR test等低维似然比法），直接对协方差矩阵兼容性做SDP检验；与Berk & Nordman (2021)依赖特定缺失模型的路径形成张力。调和需证明“结构检验在何种缺失分布类下是似然比检验的渐近等价”。

四、迁移空位（接研究者武器库）¶

空位：[4] 缺失模式超图对偶问题的计算顺序优化
空位在[4]的SDP对偶计算随|M|爆炸，作者未利用缺失模式的组合结构优化矩阵乘法链。
用武器库里的einsum / tensor contraction / treewidth框架。
第一步：将[4]的缺失模式集合建模为超图，把SDP对偶最优性条件写成einsum表达式，用treewidth算法求最优contraction顺序，量化计算复杂度从|M|的指数降为超图treewidth的函数。
空位：[3] s略高于α时低次多项式与高阶子图统计量的检测力间隙
空位在[3]的low-degree阈值停在D≤log^{0.4}n，未探索基于三元组/更大子图的高阶U-统计量能否突破Otter常数间隙。
用武器库里的高阶 U-统计量计算与tensor contraction。
第一步：将CSBM中三元组/四元组子图计数统计量写成3阶/4阶tensor contraction，计算其在s∈(α, 1/(λε²))区间的大偏差率函数，与low-degree下界对比，量化高阶U-stat填补信息-计算间隙的幅度。
空位：[1] FDR非线性目标下插件估计的minimax额外代价
空位在[1]的compound oracle假设(ε,μ)已知，参数未知时可行估计与oracle曲线的间隙无界。
用武器库里的minimax下界与高维渐近。
第一步：对[1]的两群混合模型，构造(ε,μ)的局部最难区分参数点（Le Cam/Fano），计算插件MLE造成的FDP/FNP联合大偏差偏移，推导“可实现曲线”与oracle曲线间间隙的minimax下界（预期为O(1/√m)或对数阶）。
空位：[2] 星形约束下U-统计量均值的鲁棒估计率
空位在[2]仅处理均值（1阶统计量），future work提出高阶U-kernel的鲁棒估计但未形式化。
用武器库里的高阶 U-统计量计算与minimax下界。
第一步：定义星形约束集K上U-kernel均值θ=E[h(X₁,...,X_k)]的污染模型，将[2]的局部熵隐式方程推广至k阶U-统计量，利用Hoeffding分解将高阶核投影至局部packing，推导minimax率为max(η*², σ²ε²)的k阶版本。
空位：[1] 因果设定下多重处理效应异质性的FDR控制
空位在[1]的future work提出因果多重检验的compound rule，但无具体估计理论。
用武器库里的因果推断 estimation theory。
第一步：将[1]的compound oracle框架嵌入多处理潜在结果模型，把个体处理效应(ITE)估计量视为检验统计量，推导在ITE相依结构下（打破X_i独立假设）FDR-FNR权衡的修正极限曲线，用半参数效率界量化ITE插件估计对FDP控制的代价。

本页聚合的论文¶

[1] Large-scale multiple testing: Fundamental limits of false discovery rate control and compound oracle — Annals of Statistics (2026-05-26)
[2] Information theoretic limits of robust sub-Gaussian mean estimation under star-shaped constraints — Annals of Statistics (2026-05-26)
[3] A computational transition for detecting correlated stochastic block models by low-degree polynomials — Annals of Statistics (2026-05-26)
[4] Tests of missing completely at random based on sample covariance matrices — Annals of Statistics (2026-05-26)

Maintained by 陈星宇 · Homepage · Source