跨篇综合 · 数理统计 / 假设检验¶
子方向: 数理统计 / 假设检验
期刊范围: AoS
聚合期刊论文数: 4
生成日期: 2026-06-02
本页由跨篇综合自动生成:从近期期刊精读里归纳反复出现的开放问题、张力与迁移空位。不打分、不排名,每条点名来源论文 [k],供你自己判断。
一、这个子方向的全景¶
这批论文共同追问数理统计中“结构化约束下的最优检验与估计边界”:当问题从理想低维独立设定走向高维、相依、污染或缺失的现实时,统计与计算的极限在哪里。主流路线有三条:(1) 基于大偏差/对偶刻画非线性目标(如FDR)或几何约束(如星形集)的渐近最优权衡与minimax率;(2) 基于低次多项式与组合常数(如Otter常数)标定信息-计算间隙的相变阈值;(3) 基于凸松弛(如SDP对偶)将非凸结构检验转化为可计算的高维检验。整体停在“理想结构下的理论边界已刻画,但向现实(相依、未知参数、计算瓶颈)延伸时出现系统性断点”。
二、反复出现的开放问题¶
- 相依/相关结构对理论边界的破坏与修正
- ① 独立性假设失效时,最优权衡曲线、minimax率或计算相变阈值如何偏移?如何利用协方差/相依信息重构规则?
- ② [1] 明确指出检验统计量有相关结构时compound oracle极限曲线未知,且separable rule结论不再成立;[3] 指出存在异常值或异质性图模型时,low-degree阈值可能改变;[4] 指出需推广至“协变量下条件独立(MAR)”的相依缺失检验。
-
③ 卡在“大偏差/低次多项式/SDP”这三条主流路线均依赖独立或低维局部结构假设,相依结构导致对偶退化或矩计算爆炸。
-
未知参数/异质性对“Oracle到可行估计”间隙的量化
- ① 理论边界常依赖已知参数(ε, μ, σ²),参数未知或异质时,可行估计与Oracle间的额外代价(渐近界、对数因子)是什么?
- ② [1] 指出参数未知导致adaptive估计有额外损失,且ε→0(稀疏)时极限曲线需修正;[2] 指出噪声方差未知且不对称时率退化出log(1/ε)因子,且不知其是否必要;[4] 指出不兼容度δ衰减快于1/√n时检验功效无法保证。
-
③ 卡在“插件估计破坏非线性目标函数的渐近性”与“局部熵/相变阈值对参数漂移的敏感性”上。
-
高维/高阶结构的计算瓶颈与统计-计算折衷
- ① 随问题规模(缺失模式数、社区数k、约束维度)增长,算法(SDP、滤波、低次多项式)面临计算爆炸,能否有近似/随机化算法并量化折衷?
- ② [3] 指出k随n增长时结论不成立,且D≤log^{0.4}n限制了多项式阶数;[4] 指出SDP规模随缺失模式|M|增长计算昂贵,需随机抽样或凸松弛近似。
-
③ 卡在“组合爆炸(树计数/缺失模式超图)与凸规划维数”对计算资源的吞噬,缺乏低复杂度保功效的算法理论。
-
向半参数/非参数/重尾设定的推广
- ① 现有界与检验依赖子高斯/正态/指数集中性,弱矩或非参数设定下率与检验如何变化?
- ② [2] 提出将局部熵与半参数sieve条件连接导出鲁棒效率界;[4] 提出仅依赖有限四阶矩的检验统计量构造。
- ③ 卡在“指数集中性是现有对偶/SDP/Bootstrap校准的基石”,重尾下集中不等式与对偶表征同时失效。
三、张力 / 矛盾¶
- 非线性目标下“可分离规则”最优性的分歧:[1] 证明在真实FDR-FNR权衡下,separable rule渐近严格次优,必须用compound rule;但被引文献(Storey 2002等)在mFDR-mFNR下证明separable rule可达最优。张力源于FDR的非线性不可分离性(E[V/R])与mFDR的可分离性(E[V]/E[R]),调和此张力需明确“何时非线性目标可被线性近似而不损失渐近率”。
- 鲁棒估计中“约束几何决定率”的分歧:[2] 证明星形约束下minimax率由局部熵隐式决定,突破了Chen et al. (2018)凸约束下不含局部熵的率表达式;同时与Donoho (1994)经典非鲁棒minimax的(全局)熵条件形成张力——鲁棒性要求将全局packing降级为局部packing。调和需建立“全局熵-局部熵-污染比例”的统一相变理论。
- MCAR检验中“模型驱动 vs 结构驱动”的分歧:[4] 绕开多变量正态密度估计(Little's MCAR test等低维似然比法),直接对协方差矩阵兼容性做SDP检验;与Berk & Nordman (2021)依赖特定缺失模型的路径形成张力。调和需证明“结构检验在何种缺失分布类下是似然比检验的渐近等价”。
四、迁移空位(接研究者武器库)¶
- 空位:[4] 缺失模式超图对偶问题的计算顺序优化
- 空位在[4]的SDP对偶计算随|M|爆炸,作者未利用缺失模式的组合结构优化矩阵乘法链。
- 用武器库里的einsum / tensor contraction / treewidth框架。
-
第一步:将[4]的缺失模式集合建模为超图,把SDP对偶最优性条件写成einsum表达式,用treewidth算法求最优contraction顺序,量化计算复杂度从|M|的指数降为超图treewidth的函数。
-
空位:[3] s略高于α时低次多项式与高阶子图统计量的检测力间隙
- 空位在[3]的low-degree阈值停在D≤log^{0.4}n,未探索基于三元组/更大子图的高阶U-统计量能否突破Otter常数间隙。
- 用武器库里的高阶 U-统计量计算与tensor contraction。
-
第一步:将CSBM中三元组/四元组子图计数统计量写成3阶/4阶tensor contraction,计算其在s∈(α, 1/(λε²))区间的大偏差率函数,与low-degree下界对比,量化高阶U-stat填补信息-计算间隙的幅度。
-
空位:[1] FDR非线性目标下插件估计的minimax额外代价
- 空位在[1]的compound oracle假设(ε,μ)已知,参数未知时可行估计与oracle曲线的间隙无界。
- 用武器库里的minimax下界与高维渐近。
-
第一步:对[1]的两群混合模型,构造(ε,μ)的局部最难区分参数点(Le Cam/Fano),计算插件MLE造成的FDP/FNP联合大偏差偏移,推导“可实现曲线”与oracle曲线间间隙的minimax下界(预期为O(1/√m)或对数阶)。
-
空位:[2] 星形约束下U-统计量均值的鲁棒估计率
- 空位在[2]仅处理均值(1阶统计量),future work提出高阶U-kernel的鲁棒估计但未形式化。
- 用武器库里的高阶 U-统计量计算与minimax下界。
-
第一步:定义星形约束集K上U-kernel均值θ=E[h(X₁,...,X_k)]的污染模型,将[2]的局部熵隐式方程推广至k阶U-统计量,利用Hoeffding分解将高阶核投影至局部packing,推导minimax率为max(η*², σ²ε²)的k阶版本。
-
空位:[1] 因果设定下多重处理效应异质性的FDR控制
- 空位在[1]的future work提出因果多重检验的compound rule,但无具体估计理论。
- 用武器库里的因果推断 estimation theory。
- 第一步:将[1]的compound oracle框架嵌入多处理潜在结果模型,把个体处理效应(ITE)估计量视为检验统计量,推导在ITE相依结构下(打破X_i独立假设)FDR-FNR权衡的修正极限曲线,用半参数效率界量化ITE插件估计对FDP控制的代价。
本页聚合的论文¶
- [1] Large-scale multiple testing: Fundamental limits of false discovery rate control and compound oracle — Annals of Statistics (2026-05-26)
- [2] Information theoretic limits of robust sub-Gaussian mean estimation under star-shaped constraints — Annals of Statistics (2026-05-26)
- [3] A computational transition for detecting correlated stochastic block models by low-degree polynomials — Annals of Statistics (2026-05-26)
- [4] Tests of missing completely at random based on sample covariance matrices — Annals of Statistics (2026-05-26)
Maintained by 陈星宇 · Homepage · Source