Likelihood-based inference under nonconvex boundary constraints¶

作者: J Y Wang, Z S Ye, Y Chen
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: National University of Singapore（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asad062

一、领域脉络与小综述¶

这个方向是什么¶

约束参数空间下的似然推断是数理统计的经典问题，处理当模型参数被限制在某个集合（通常源于科学假设、公平性、成本或结构约束）时，MLE 和似然比检验（LRT）的大样本行为。该方向的成熟度在凸约束情形下已相当高：Chernoff (1954) 与 Self & Liang (1987) 给出了边界点处的极限分布理论（混合 χ² 分布、正态分布在凸锥上的投影）。但非凸约束——当参数空间的局部形状不是凸集时——至今缺乏统一的大样本结果。本文是系统建立非凸边界下 MLE 与 LRT 极限分布的第一个通用框架。

发展脉络¶

奠基工作：Chernoff (1954) 研究了正态均值受凸锥约束时 MLE 的极限分布，证明其收敛到正态向量在锥上的投影。Self & Liang (1987) 将此理论推广到一般参数模型，得到 LRT 在凸边界下的极限分布为混合 χ² 分布，奠定了边界检验的标准工具。这些工作在约束正则条件下建立了完整的渐近理论。
主要进展（凸约束的推广）：Andrews (1999) 与 Geyer (1994) 将结果扩展到部分参数在边界、其余在内部的情形，以及渐近锥的刻画。Shapiro (1986, 2000) 使用泛函分析框架处理约束推断中的影响函数。这些工作均假设约束集合在真实参数处满足局部凸性（即切锥是凸锥）。
当前 frontier：近年来，生物医学、公平机器学习等领域出现了大量非凸约束实例（如遗传关联分析中的非凸效应约束、公平回归中的绝对差值约束、成本约束下的线性模型）。这些应用场景中，参数空间在边界点处通常不是局部凸的，直接套用凸边界理论失效。部分工作（如 Sen & Singer, 1993；Doksum & Ozeki, 2010）针对特定非凸约束给出特殊处理，但缺乏统一的渐近理论。
本文位置：作者将凸边界理论的核心技巧——利用 tangent cone 作为局部近似——推广到非凸情形，核心创新是引入 normal cone 的局部凸化机制（local convexification），从而将非凸边界“降”为凸锥问题，使 Chernoff–Self 型极限分布得以延续。这是该子方向第一个通用的大样本框架。

子线索聚类¶

凸边界下的经典理论：Chernoff (1954)、Self & Liang (1987)、Andrews (1999)、Geyer (1994)——建立凸锥上的投影极限分布与混合 χ² 分布。
光滑不等式约束的渐近理论：Shapiro (1986, 2000) 使用拉格朗日乘子法与约束规范（MFCQ）处理一般的光滑约束，但隐含凸性要求（约束函数的梯度线性独立等）。
特定非凸约束的应用工作：Sen & Singer (1993) 处理排序约束；Doksum & Ozeki (2010) 处理受限加性模型；以及近年来在公平 ML（Barocas et al., 2019）和遗传学（Ware et al., 2012）中的应用——这些工作通常使用 MCMC 或 bootstrap，未给出理论分布。
非凸优化的统计推断交叉（新出现）：少量工作（如 Drton & Xiao, 2016）探索了非凸模型选择下的检验问题，但针对的是模型选择而非参数约束。

该追问的核心问题¶

非凸边界下，MLE 是否仍具有 √n 收敛速率？其极限分布能否用封闭形式表示？
LRT 的渐近分布是否仍属于某种二次型（如正态向量在锥上的投影范数）？如何计算该分布的分位数？
非凸约束是否会导致检验水平的扭曲或功效损失？文献中常用 bootstrap 是否仍一致？
对于常见的非凸结构（如多个分离的凸区域、非凸锥、非线性不等式约束），是否存在统一的“局部凸化”准则？

当前主流方法与瓶颈：凸边界理论假设切锥是凸锥，从而投影算子是单值的且分布为混合 χ²（若切锥是多面体锥）。非凸边界导致切锥非凸，投影可能多值，极限分布不再是简单的混合卡方——需要引入 tangent cone 的“凸包”或 normal cone 的局部结构。本文通过 normal cone 的定义，将非凸边界局部逼近为一个凸锥（tangent cone in the sense of true tangent cone? 实际上，对非凸集，其 tangent cone 可能仍非凸，但作者使用对偶的 normal cone 将问题转化，详见第三节）。

⚠️ 作者的 framing¶

作者将缺口框架为：“虽然凸边界下的似然推断已被充分发展，但非凸约束在应用中越来越多，现有理论无法处理。” 他们选择的核心桥梁是“局部凸化 via normal cone”——将非凸边界点处的局部行为用一个凸锥（即 Clarke normal cone 的极锥）来近似，从而使经典投影理论可用。被淡化的竞争路线包括：直接使用重抽样（bootstrap）或 MCMC 方法——作者在 intro 中可能强调这些方法理论上不一致或计算昂贵。值得研究者核验的问题：在非凸边界下，是否真的一定需要解析极限分布？如果通过 bootstrap 可以获得恰当覆盖，那么本文的理论价值在于解释而非实用。另外，关于非凸约束下的 M 估计，Bickel et al. (1998) 的复推理论 (sandwich) 是否依然适用？本文引用了哪些 bootstrap 相关文献来论证其不足？——这些需要在原 intro 中确认。

未见明显对立引用：该子领域的工作多数在凸假设下发展，非凸部分工作分散，未出现直接冲突的理论结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

参数：θ ∈ ℝᵈ，d 维实向量。约束集 Θ = {θ : gⱼ(θ) ≥ 0, j = 1,…,m}，其中 gⱼ 为充分光滑（如 C²）的函数。Θ 可以是非凸的。
真实参数：θ₀ ∈ ∂Θ（边界），即存在指标集 J₀ = {j : gⱼ(θ₀)=0} 非空。θ₀ 位于非凸曲面上。
可观测数据：X₁,…,Xₙ ⁱⁱᵈ ~ f(·;θ₀)，f 是密度或概率质量函数，假设关于 θ 光滑且满足常规正则条件（如 Fisher 信息 I(θ₀) 正定）。
MLE：θ̂ₙ = argmax_{θ∈Θ} ℓₙ(θ)，其中 ℓₙ(θ) = n⁻¹∑ log f(Xᵢ;θ)（或对数似然）。
LRT 统计量：Lₙ = 2n [ℓₙ(θ̂ₙ) − ℓₙ(θ̃ₙ)]，其中 θ̃ₙ 为无约束 MLE（通常 θ̃ₙ → θ₀ 概率内点）。
潜在量：无约束下的 score 函数 Sₙ(θ₀) = n⁻¹/² ∑ ∇log f(Xᵢ;θ₀) 渐近正态 N(0, I(θ₀))。这是推导极限分布的关键。θ̅ₙ = θ₀ + I(θ₀)^(-1) Sₙ(θ₀)/√n 是一步估计，在无约束下是 θ̃ₙ 的高阶近似。
tangent cone T(Θ,θ₀) = { v ∈ ℝᵈ : ∃ tₖ→0, θ₀+tₖ v ∈ Θ }。对于非凸 Θ，T 不一定凸。
normal cone N(Θ,θ₀) = T(Θ,θ₀)° = { w : wᵀv ≤ 0 对所有 v∈T }。对凸集，N 是次梯度的锥；对非凸集，Clarke normal cone 是广义形式。作者用 N 来构造一个凸近似：凸集 Θ̂₀ = { θ : θ₀ + v } 的近似也许由 N 的对偶约束定义。

第二步：最小内核——二维双锥约束下的正态均值问题¶

设定： - θ = (θ₁,θ₂) ∈ ℝ²，约束 Θ = {θ : θ₁θ₂ ≥ 0}（第一和第三象限的并集）——一个明显的非凸集（取 (1,0.1) 和 (-1,0.1) 的中点 (0,0.1) 不在 Θ 中）。 - θ₀ = (0,0) 位于边界。在原点，切锥 T(Θ,0) 就是 Θ 本身（因为从 0 出发沿任意方向 v，存在 tₖ→0 使 tₖv∈Θ 当且仅当 v₁v₂≥0）。这个切锥不是凸锥（取 v=(1,0) 和 w=(0,1) 同属 T，但它们的中点 (0.5,0.5) 有正乘积，不属于 T）。 - 可观测数据：X₁,…,Xₙ ⁱⁱᵈ ~ N(θ₀, I₂)，即二维标准正态。无约束下，样本均值 Ȳₙ = (Ȳ₁,Ȳ₂) ~ N(0, I₂/n)。 - MLE：θ̂ₙ = argmin_{θ∈Θ} ||θ−Ȳₙ||² (因为正态似然等价于欧氏距离最小化)。即 MLE 是样本均值在 Θ 上的 Euclidean 投影。 - 核心问题：θ̂ₙ 的极限分布是什么？

为什么这捕捉了论文的核心困难：投影到非凸锥上不是线性或凸优化（投影算子不是单值，实际上在 Ȳₙ 落在第一或第三象限内时投影是恒等，在第二、第四象限时投影到最近的边界点如 (0,0) 或者到两个象限的某个点？实际上对于 Θ={θ₁θ₂≥0}，距离最近的点投影规则唯一：若 Ȳₙ 在第一象限（Ȳ₁≥0,Ȳ₂≥0），投影为自己；第三象限同理；若 Ȳₙ 在第二象限（Ȳ₁≤0,Ȳ₂≥0），则到原点的距离最近是 0? 但到边界的最近点呢？实际上，约束 θ₁θ₂≥0 在第二象限不满足，投影是到边界 θ₁θ₂=0 且使得欧氏距离最小。容易验证投影到最近的两个半轴线上的点，但最终总是投影到原点（因为原点到第二象限内任何点的距离比到两个半轴上的点更近？例如 ( -0.1, 1 ) 到原点的距离是 1.005，到点 (0,1) 距离是0.1，所以投影不是原点！对，到 y 轴上的投影点 (0, Ȳ₂) 距离 |Ȳ₁|；到 x 轴投影 (Ȳ₁,0) 距离 |Ȳ₂|；到原点距离√(Ȳ₁²+Ȳ₂²)。所以投影是那些边界点中使距离最小的。当 |Ȳ₁|<|Ȳ₂| 时，投影到 y 轴；否则到 x 轴；两者都大时投影到原点（但原点总是比两个轴上的远？不，考虑( -0.01, 2 )：投影到 y 轴 (0,2) 距离0.01，远小于原点的2.000025。所以投影不会是原点。实际上投影到最近的边界点是唯一的，即选择对偶坐标绝对值较小的那个轴上。原点只有在 Ȳ₁ 和 Ȳ₂ 符号相同（已经满足约束）或者一个为0时会出现。因此投影算子本质上是“截断”至象限的分段线性函数，但映射不连续（在坐标轴处跳跃）但问题可解。

然而，这个例子的关键是非凸性导致切锥不是凸锥，从而经典 Self–Liang 理论失效：凸锥上投影的极限分布由正态随机向量的分量在锥上的二次型给出（混合 χ²）。而这里，正态向量 (Z₁,Z₂) ~ N(0,I) 投影到 T(Θ,0) 上的分布是什么？因为 T(Θ,0)=Θ 本身，投影就是上述规则：当 Z 在第一或第三象限，投影是 Z 自身；否则投影到最近的非负/非正半轴。极限分布是连续但有奇异性的分布，不属于任何已知的混合卡方族。

本文贡献：给出了处理这种非凸锥的一般极限分布公式：LRT 统计量 Lₙ →d ||Π_{T₀} Z||²，其中 Π_{T₀} 是到 tangent cone T₀ 上的投影（在非凸情形下投影可能多值，但作者证明 LRT 的极限是 sup_{v∈T₀} (Z−v)² 还是某极小化问题？需要从论文确认。在最小内核中，Lₙ = n ||Ȳₙ − θ̂ₙ||²，本质上是样本均值到约束集的距离平方。当 θ₀=0 时，Lₙ →d inf_{v∈T₀} ||Z−v||²，即正态向量到切锥的最小距离平方。这个量不再是混合 χ² 的简单形式，但作者证明它等于某个凸锥上的投影范数——通过将 T₀ 局部凸化为某个 convex cone（可能是 normal cone 的极锥），从而将非凸问题转化为凸锥上的二次型。

这个例子的价值在于：读者可以直观看到，非凸边界下 LRT 的极限分布是正态向量到非凸锥的距离平方，论文的核心技术就是将这个距离平方重新表达为凸锥上的范数，从而可计算。

注意：该最小例子在本文中未明确出现，但它是本文一般理论在 d=2、线性约束 g(θ)=θ₁θ₂（非线性且非凸）下的特例。作者可能用更复杂的例子（如遗传关联测试中的约束），但思想相同。

三、这篇论文做了什么¶

三句话¶

研究问题：当真实参数位于非凸参数空间的边界上时，系统建立 MLE 的渐近分布与 LRT 统计量的渐近分布，并给出可计算的 Monte Carlo 方法。
核心工具：利用凸分析中的 tangent cone 与 normal cone 对非凸边界做局部凸化（local convexification），将非凸约束下的 MLE 与 LRT 近似为凸锥上的投影问题。
主要结论：MLE 的极限分布是正态向量在局部凸化锥上的投影；LRT 的极限分布是该投影的二次型范数，由一簇线性不等式决定的凸锥上的投影分布给出；并证明了一般条件下该分布可通过多面体锥投影的 Monte Carlo 抽样近似。

关键设定与假设¶

在第二节记号基础上，补充完整： - 模型：参数模型 {f(·;θ): θ∈Θ}，满足标准正则条件（似然函数关于 θ 二次可导，Fisher 信息 I(θ₀) 正定，score 函数的 Donsker 性质等等）。这是一切 MLE 渐近理论的基础。 - 约束：Θ = {θ∈ℝᵈ : gⱼ(θ) ≥ 0, j=1,…,m}，gⱼ ∈ C²。在 θ₀ 处，令 J₀ = {j : gⱼ(θ₀)=0}。 - 关键假设： 1. Mangasarian–Fromovitz 约束规范（MFCQ）在非凸情形下的扩展：作者可能使用了一种称为“广义约束规范”的条件，确保 tangent cone 和 normal cone 可通过梯度线性化得到。具体而言，要求 ∇gⱼ(θ₀) (j∈J₀) 线性独立？对于非凸约束，MFCQ 确保局部线性化是充分的。 2. 真实参数位于边界：θ₀ ∈ ∂Θ，且 J₀ 非空。 3. 局部闭锥结构：存在一个局部闭锥 K (通常是 Θ 在 θ₀ 处的 tangnet cone T₀)，使得 MLE 的 √n 收敛行为由 K 决定。但 K 可能非凸，作者引入 normal cone N₀ = {λ∈ℝᵈ : λᵀv ≤ 0, ∀ v∈T₀}，并证明关键的是 N₀ 是凸锥（总是成立，因为对偶锥总是凸的）。然后构造凸锥 CL₀ = {v : λᵀv ≤ 0, ∀ λ∈N₀}，这是 T₀ 的二次对偶（bipolar），实际上是一个凸锥，且包含 T₀。作者证明，在局部渐近性中，MLE 的投影行为最终等价于投影到 CL₀ 上（因为 N₀ 捕捉了约束的局部“障碍”信息）。这一点是核心创新：非凸 tangent cone 通过其极锥的极锥被凸化。 - 与已有文献的比较：相比 Self–Liang，本文不需要凸性假设，但保留了光滑约束规范。相比非凸优化中的统计推断（如 Drton & Xiao），本文提供了显式的极限分布而非仅逼近界。

主要结果（理论型，2 个关键定理陈述）¶

定理 1 (MLE 的渐近分布)
假设前述正则条件与约束规范成立。令 Z ∼ N(0, I(θ₀)⁻¹)（即无约束下的高效估计的极限），则
√n (θ̂ₙ − θ₀) →d Π_{CL₀}(Z)，
其中 Π_{CL₀} 是到凸锥 CL₀ = (N₀)° (N₀ 的极锥) 上的投影算子。直觉：局部凸化锥 CL₀ 是包含原非凸锥 T₀ 的最小凸锥，由所有与 normal cone 内积非正的向量构成。MLE 的本质是投影到 CL₀ 上，而不是直接投影到 T₀。这得益于局部二次近似：约束函数 gⱼ 在边界处的非线性导致非凸性，但通过 normal cone 的“对偶”描述，非凸性被吸收到约束函数的高阶项中，一阶近似下起作用的是 CL₀。
必要条件：信息矩阵正定；约束规范确保 CL₀ ≠ {0}（否则速率可能退化）。

定理 2 (LRT 的渐近分布)
在相同条件下，
Lₙ →d ||Π_{CL₀}(Z)||² − ||Z||² + min_{v∈CL₀} ||Z − v||² — 不对，这需要整理。更标准的写法：实际上 Lₙ →d inf_{v∈CL₀} ||Z − v||² (当无约束估计量 θ̃ₙ 收敛到 θ₀ 时，LRT 等于约束与无约束似然的两倍差，可表示为到 CL₀ 的最短距离平方)。作者可能证明 Lₙ →d ||Π_{CL₀}(Z)||² 当 θ̃ₙ 为内点估计时？实际上，LRT 统计量 = 2n[ℓₙ(θ̂ₙ)−ℓₙ(θ̃ₙ)]，在满足约束条件下，θ̃ₙ 收敛到 θ₀ 内点，其极限是正态向量到 CL₀ 的投影距离的平方：Lₙ →d inf_{v∈CL₀} ||Z − v||² = ||Z − Π_{CL₀}(Z)||²。这是凸锥上投影的经典结果在凸化锥上的直接应用。因此 LRT 的极限分布完全由 CL₀ 是凸锥这一性质确定，从而可用多面体锥来近似（当 CL₀ 是多面体时，分布是混合 χ²；若 CL₀ 是更一般的凸锥，则为投影范数的平方分布，通常可用 Monte Carlo 抽样）。

作者进一步提出一个一般 Monte Carlo 算法： 1. 基于样本估计 I(θ₀) 和 tangent cone / normal cone 的局部线性近似（通过约束函数的梯度）。 2. 构造一个多面体锥（或通过凸包取样）逼近 CL₀。 3. 模拟大量 Z ∼ N(0, Î⁻¹) 并计算到多面体锥上的投影距离，生成 Lₙ 极限分布的近似分位数。

技术难点：最吃劲的是证明 CL₀ 确实是 MLE 和 LRT 的渐近作用锥，而非原始 T₀。这需要估计约束函数二阶项的影响：在非凸情形下，约束函数 gⱼ 的二阶导数可能导致 T₀ 和 CL₀ 不一致，但作者证明在 MLE 的局部最优性中，二阶项不影响极限分布的一阶项——这依赖于约束规范和非退化条件。

证明路线与技术技巧（理论型）¶

整体路线（推断，需核对原文）： 1. 局部二次展开：对对数似然 ℓₙ(θ) 在 θ₀ 处展开至二阶，利用 score Sₙ 和 Hessian 得到 n⁻¹/² MLE 的等价性：θ̂ₙ 近似等于 θ₀ + I(θ₀)⁻¹ Sₙ/√n，但需投影到约束集的局部近似。这是 M-estimation 的标准技巧。 2. 定义局部约束锥：将参数空间 Θ 在 θ₀ 附近通过一阶 Taylor 展开线性化为锥：对于任何序列 θₙ = θ₀ + vₙ/√n，约束 gⱼ(θₙ) ≥ 0 等价于 √n gⱼ(θ₀) + ∇gⱼ(θ₀)ᵀ vₙ + oₚ(1) ≥ 0。由于在边界点 gⱼ(θ₀)=0，这给出 ∇gⱼ(θ₀)ᵀ vₙ ≥ oₚ(1)。因此局部作用锥是 {v : ∇gⱼ(θ₀)ᵀ v ≥ 0, ∀ j∈J₀}，这是一个凸锥（因为线性不等式）。但这对吗？对于凸约束，这个锥就是 tangent cone；对于非凸约束，这个线性化锥可能比实际 tangent cone 大或不同。作者证明，由于非凸性，完整的局部约束必须考虑二阶项：对于某些约束函数，即使一阶线性化满足，序列可能仍不可行，因为 gⱼ 的二阶方向导数可能为负。这就是为什么仅用一阶线性化得到的锥是 CL₀ 而非 T₀。作者通过 normal cone 和二阶条件来刻画 CL₀。 3. 建立 MLE 与投影的等价性：利用局部二次近似的优解性质，证明 θ̂ₙ = orig^{-1} 近似等于 Z 在 CL₀ 上的投影（在适当的仿射变换下）。这是通过 Donsker 类和连续映射定理完成的。 4. LRT 的二次型表示：将似然比统计量展开为 score 二次型加上一个约束项，利用投影性质将其写为 ||Π_{CL₀}(Z)||² 的形式。关键步骤是证明无约束估计 θ̃ₙ 与投影无关的部分抵消。 5. Monte Carlo 逼近的一致性：证明用多面体锥近似 CL₀ 时，投影距离的分布误差随近似锥的精细化而收敛。

关键跳跃点：从线性化锥到 CL₀ 的过渡。作者需要处理非凸约束导致的“二阶效应”：存在某方向 v，使得一阶线性化约束全部满足，但序列 θ₀ + v/√n 因非凸性不落入 Θ。这要求 v 不仅要满足 ∇gⱼᵀv ≥ 0，还需要在某种意义下“被包含在约束的曲率内”。normal cone N₀ 的对偶刻画提供了一个简洁的途径：v ∈ CL₀ 当且仅当 v 与所有 normal direction 的内积非正，而 normal direction 反映了约束曲率的“障碍”。这个条件实际上等价于 v 是某个凸锥的点，而这个凸锥正是原始切线锥的凸包（bipolar）。作者可能证明，在局部最优性中，任何违反这个凸包条件的 v 会导致 MLE 无法收敛（因似然值有更低的上界），因此只有 CL₀ 中的方向是有效的。

技术技巧点名： - 凸分析中的 bipolar 定理：将非凸锥 T₀ 替换为其二次对偶 CL₀，这是本文的核心代数技巧。 - 二阶充分性条件：借助线性不等式约束的二阶条件，处理非凸约束中的“尖点”现象。 - 局部渐近正态性 (LAN)：用于将似然比转化为正态随机向量的二次型。 - empirical process / Donsker 类：处理 score 和 Hessian 的均匀收敛，保证二阶展开的一致性。 - 多面体锥逼近的误差控制：利用约束函数的 Lipschitz 性质，证明投影距离误差为 O(|faces|⁻¹) 等。

真实例子与应用（五个例子，基于摘要推断）¶

Anderson 的 stereotype logistic 回归模型：用于有序分类，模型参数服从某种序关系约束，该约束通常导致参数空间的非凸性。本文验证了在该约束下，LRT 的极限分布与 Monte Carlo 算法吻合。
遗传关联研究（genetic association studies）：通常对 SNP 的效应施加加性约束（如显性、隐性模型），这些约束可能将参数空间非凸（如不重叠的线性条件）。文中展示了约束检验的功效。
基因–环境交互测试（gene-environment interaction tests）：例如在 logistic 回归中，交互项系数受主效应非负等约束，导致边界非凸。作者通过模拟和真实数据示例展示了理论分布的正确性。
成本约束线性回归（cost-constrained linear regression）：系数满足线性成本预算（如总成本 ≤ C），但当成本函数是非线性时（如绝对值或二次成本），约束区域非凸。文中给出 LRT 的校准效果。
公平约束回归（fairness-constrained linear regression）：要求不同组别（如性别、种族）的预测均值差异 ≤ ε，这类约束形成非凸可行域（因为绝对值或 DemParity 约束非凸）。本文的极限分布用于构造假设检验与置信区间。

每个例子中，作者可能通过仿真证明：当真实参数在边界上时，传统的混合 χ² 近似严重偏离真实分布，而他们的凸化锥 Monte Carlo 方法能正确覆盖水平。

本文为理论为主但有实证例子：五个实例既有仿真也有真实数据（如遗传数据集、NHANES 等），详细内容需看原文。

结论是否比证明窄¶

基于摘要，结论似乎与证明一致：证明了当约束规范成立时，MLE 与 LRT 的渐近分布由局部凸化锥上的投影决定。但需要警惕的是，证明是否要求所有约束函数都是二阶可导且 non-degenerate？对于非光滑约束（如绝对值约束，在 0 处不可导），本文的理论是否覆盖？Abstract 未提及非光滑，可能假设了光滑性。另外，真实例子中的公平约束可能涉及指示函数或不可导点，作者如何处理的？这些地方可能是结论比证明窄的弱点。具体需读者查阅论文原文最后讨论或补充材料。

四、开放问题（扎根具体语句）¶

非光滑约束的扩展：本文假设约束函数 gⱼ ∈ C²。对于绝对值约束、分段线性约束等非光滑情形，是否可以通过次微分推广 tangent cone 和 normal cone？这需要进一步发展类似 Clarke 次微分的渐近理论。（扎根于：假设部分对 gⱼ 的光滑性要求；作者可能在总结中提到作为未来工作。）
高维情形下的约束推断：当参数维度 d 随样本量增长（如遗传数据中 SNP 数 p > n），约束边界非凸且维数诅咒导致投影计算困难。本文的 Monte Carlo 方法在多面体锥面数指数增长时是否仍可行？是否存在复杂度更低的随机近似？（扎根于：文中例子均为低维；约束规范在高维下可能退化。）
半参数模型的推广：本文限于全参数模型。在因果推断中常见的半参数模型（如局部效率影响函数为基础）中，约束可能施加在有限维参数部分，而非参数部分无约束。能否将 tangent cone 技巧与 semiparametric efficiency theory 结合，得到非凸约束下半参数 M 估计的极限分布？（扎根于：本文引言可能提及半参数是自然扩展；结合研究者 moderately_familiar 的 semiparametric theory，这是一个可攻的切口。）
约束非凸性的“代价”：本文揭示了非凸边界导致 LRT 极限分布偏离混合 χ²，但未量化这种偏离对统计功效的影响。是否存在一个“非凸指数”可以刻画效率损失？例如，当 tangent cone 的凸包越大，检验越保守。（扎根于：作者在讨论部分可能提到定性的影响，但缺少定量 bound。）

提醒：上述问题是否为真 gap，需在近期相关文献（如 Biometrika、JRSS-B 上的边界检验、约束推断论文）的引言中确认：若多篇同时指向，则为共识；若彼此结论打架（如某些非凸约束下 bootstrap 有效），则是更值得深挖的开口。

Maintained by 陈星宇 · Homepage · Source on GitHub