On inference in high-dimensional logistic regression models with separated data¶

作者: R M Lewis, H S Battey
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 8/10
机构绿灯: Imperial College London（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asad065

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向处理高维 logistic 回归中因数据线性可分（separable data）导致的 MLE 不存在、似然函数无界这一根本性统计推断困难。核心目标是：当 MLE 这种标准推断工具失效后，能否仍对回归系数进行有意义的（频率主义）假设检验与置信区间构造，以及是否存在替代的估计量（如约束 MLE）并证明其渐近性质。当前该方向成熟度较低，主要理论结果聚焦于低维情形，高维（double-asymptotic）下的处理仍以惩罚 / 偏倚校正为主流，本文的工作是少有的 在不依赖惩罚且承认数据可分性的前提下，直面推断问题。

发展脉络（history）¶

奠基工作：Albert & Anderson (1984, Biometrika) 给出了 logistic 回归中数据线性可分的严格定义，并证明此时 MLE 不存在（系数估计发散至 ±∞，对数似然趋于零），信息矩阵奇异。这是本问题的原点——可分数据的标准诊断与后果。但该文仅聚焦于低维（p 固定、n 固定），未讨论推断。

主要进展（两大类路线）： - 偏倚校正与预防路线：Firth (1993, Biometrika) 通过修正得分函数（减一小部分偏倚）在可分数据下仍能产生有限估计，但其修正本质上是贝叶斯后验模式（Jeffreys 先验），并非经典频率推断，其置信区间依赖正态近似，在可分边界上表现可疑。Heinze & Schemper (2002, Statist. Med.) 推广了这一方法。该路线回避而非直面可分性导致的推断性质变化。 - 惩罚似然路线：Candès & Sur (2020, JASA) 在高维（p 与 n 同阶增长） logistic 回归中证明，即使数据不可分，MLE 也存在严重偏倚且需校正；Sur & Candès (2019, AoS) 进一步刻画了惩罚 MLE 在不可分数据下的渐近分布。Wang & Leng (2008, JASA) 则在低维 p 下用 EM 算法处理可分数据。该路线聚焦于估计，而非假设检验。

当前 frontier：已有文献对“线性可分时置信区间长什么样”几乎无讨论。最接近的是 Silvapulle (1981, Biometrika) 与 Gourieroux & Monfort (1981, Econometrica)，他们从约束 MLE 角度指出：若对似然施加约束（如同归于万分之一），MLE 存在，但需该约束不活络（即真值满足约束）。Kudo (1963, Biometrika) 处理了带等式约束的似然比检验，其置信集对应概率椭球的交集，可能为半无限。本文填补的即此 gap：精确刻画可分数据下置信集的形状（半无限），并给出 double-asymptotic 下可靠的替代估计量。

本文的位置：在低维分类结果（Albert & Anderson, 1984）与高维方法论（Sur & Candès, 2019）之间，架起一座“接受可分性、量化推断代价”的桥。它不试图“克服”可分性（如用惩罚），而是承认半无限置信集是忠实反映数据信息的唯一结论，然后在高维 double-asymptotic 设定下用约束 MLE 建立一致性。

子线索聚类¶

分隔诊断与经典处理（Albert & Anderson 1984; Silvapulle 1981; Gourieroux & Monfort 1981; Kudo 1963）：聚焦于低维、固定 p 下的线性可分定义、MLE 消失、约束似然的存在性与推断性质。线索特点：数学精确，但无法推广到高维。
高维惩罚 / 校正方法（Sur & Candès 2019、2020; Firth 1993; Heinze & Schemper 2002）：以各种方式修改目标函数使估计量在有界区域上存在，侧重渐近偏倚与方差。线索特点：可计算，但回避了全局精确推断的性质描述，且对线性可分数据的处理仍是局部 / 修正性的。
约束 M-估计 / 半参数推断（本文的位点）：在 double-asymptotic 下，对概率向量施加自然约束（如通归一性而非对系数范数施加 L1 惩罚），推导 OLS 概率极限与 logistic 系数的显式关系，并证明约束估计的一致性。线索特点：放弃有限（bounded）置信区间，接受半无限区间是“正确”的报告形式。

这个方向在追问的核心问题¶

线性可分时，精确的（频率主义）系数置信区间是什么形状？ 是短的还是有界的？传统方法用有限的 CIs 欺骗性比较大，实际区间应是半无限的（one-sided infinite）。这是 Albert & Anderson (1984) 之后几十年来从未被正式回答的问题。本文回答了。
高维（p/n → κ）下数据是否更易线性可分？ 可分数据的出现概率随 p/n 增大而迅速提升，理论上 p > n 时几乎必然可分。这对传统统计推断是根本性的挑战。本文处理此情形。
除了惩罚似然，是否还有别的外部信息能“拉回”有限置信集？ 本文 frame 答案为“隐含假设”（如置信集必须对称或有界——这些在可分数据下是没有信息依据的强假设）。
当 MLE 不存在时，约束似然是否还能一致地估计真正参数？ 本文证明在弱条件下（设计矩阵无偏值元素增长太快，且约束非活络）可以。

⚠️ 作者的 framing¶

作者将缺口 frame 为：“线性可分时，精确的有限置信集不可能，除非加入外部隐式假设。诚实的方法是报告半无限置信集。但在 double-asymptotic 下，若对向量施加自然的概率约束，可在保持频率覆盖的前提下推导出替代估计量及其一致性。”

竞争路线被他淡化或回避的： - 惩罚似然（如 LASSO logistic） 未在 intro 中被更多讨论。作者只提到“惩罚似然在可分时也产生有限解”，但批评其渐近性质仍需要可分性不成立、或需对惩罚参数做复杂调优。实际上惩罚似然在实践中是回避可分性最常用的 route，且 Sur & Candès (2019) 在高维下给出了精确渐近分布——这是否能在本文的“半无限置信集”框架下兼容或对比，intro 未讨论。 - 贝叶斯方法 仅被顺带提一句（Firth 的修正本质上为贝叶斯），但未作为竞争路线展开比较。贝叶斯方法常在高维可分数据下获得有限后验，虽其本质依赖于先验（强于任何频率假设），但仍是应用最广的操作。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 逻辑回归中精确条件检验的文献（如 Mehta & Patel, 1995, JASA; Cox & Snell, 1968, 等）——条件精确检验在低维下也处理小样本 / 稀疏表，输出通常是区间而不是点估计，和本文半无限置信集有概念联系。遗漏可能因这些方法无法扩展到高维，但作为“精确推断”路线应被提及。 - 分离数据的近似对数似然校正（如 Gelman et al., 2008, 用弱信息先验做有限估计）——这在应用文献中广泛使用，作者未评价其合理性。缺引可能因作者认为那不是忠实推断（需假设先验）。

张力¶

未见明显对立引用。但从方向上看，Firth 校正（偏倚校正）和本文的约束 MLE 之间在“什么是可接受结论”上有隐含张力：前者认为有限置信区间是默认要求（只需稍修目标函数即可实现）；后者则认为半无限区间才是诚实的——两者背后是对统计推断“诚实度”的不同哲学，但论文本身未将此上升为正式争论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( Y_i \in \{0,1\} \)：第 \( i \) 个观测的二元响应（随机变量）。
\( \mathbf{x}_i \in \mathbb{R}^p \)：第 \( i \) 个观测的协变量向量（可以是确定的或随机的；本文作确定的）。
\( \boldsymbol{\beta} \in \mathbb{R}^p \)：待估的 logistic 回归系数（参数 / estimand）。
\( \boldsymbol{\eta} = X \boldsymbol{\beta} \in \mathbb{R}^n \)：线性预测向量，其中 \( X \) 是 \( n \times p \) 的设计矩阵，第 i 行为 \( \mathbf{x}_i^\top \)。
\( p_i = \exp(\eta_i) / (1 + \exp(\eta_i)) \)：第 i 个观测的 logistic 变换概率。
\( \ell(\boldsymbol{\beta}) = \sum_{i=1}^n [Y_i \eta_i - \log(1 + e^{\eta_i})] \)：对数似然函数。
\( \hat{\boldsymbol{\beta}}_{\text{MLE}} \)：若存在，最大似然估计（标准）；若数据线性可分，则 \(\exists\) 方向使 \( \ell(\boldsymbol{\beta}) \to 0 \) 当 \( \|\boldsymbol{\beta}\| \to \infty \)（即 MLE 不存在）。
\( \tilde{\boldsymbol{\beta}} \)：约束最大似然估计，满足 \( \ell(\boldsymbol{\beta}) \) 在 \( \mathcal{C} = \{ \boldsymbol{\beta} \in \mathbb{R}^p : 0 < p_i < 1 \} \) 上最大化；此约束等价于对 \(\boldsymbol{\eta}\) 的每个分量施加[有限的上界界—由数据决定]。
\( n, p \)：样本量、参数维度。double-asymptotic regime：\( n,p \to \infty \)，\( p/n \to \kappa \in (0,1) \)。
\( \boldsymbol{\beta}_0 \)：真值（假设 logit 模型正确）。
\( \bar{\boldsymbol{\beta}}_{\text{OLS}} \)：可观测数据 \( Y_i \) 与 \( X \) 的普通最小二乘估计的概率极限（即使 MLE 不存在，仍存在）。
\( \mathbf{1} \) 与 \( \mathbf{0} \) 分别表示全 1 向量和零向量。
模型：
\[Y_i \mid \mathbf{x}_i \overset{\text{ind}}{\sim} \text{Bernoulli}(p_i), \quad p_i = \frac{e^{\mathbf{x}_i^\top \boldsymbol{\beta}_0}}{1 + e^{\mathbf{x}_i^\top \boldsymbol{\beta}_0}}.\]
设计矩阵 \( X \) 视为非随机的（条件于设计）。数据线性可分的定义为：\(\exists \mathbf{a} \in \mathbb{R}^p \) 且 \( \|\mathbf{a}\| \neq 0 \) 使得 \( \mathbf{x}_i^\top \mathbf{a} > 0 \) 对所有 \( Y_i = 1 \) 成立且 \( \mathbf{x}_i^\top \mathbf{a} < 0 \) 对所有 \( Y_i = 0 \) 成立（即存在一个超平面完美分割两类）。在该定义下，对数似然在 \( \boldsymbol{\beta} = t\mathbf{a} \) 方向趋于 0 当 \( t \to \infty \)，故 MLE 不存在。
可观测数据：
观测到的量: 二元响应 \( Y_i \)，协变量向量 \( \mathbf{x}_i \)，设计矩阵 \( X \)。
“想要但观测不到的”：真系数 \( \boldsymbol{\beta}_0 \)（整个参数）；潜在 confrontal 不在此模型中出现（logistic 是原始模型，无潜变量因果结构）。真正难以建立的推断目标，是在 MLE 不存在时，对单个系数 \( \beta_j \) 的置信区间或点估计。

第二步：讲最小内核¶

最简特例：假设我们只有 一个协变量（\( p=1, x \in \mathbb{R} \)），样本量 \( n=2\)，观测数据为： - \( (Y_1=1, x_1=1) \)
- \( (Y_2=0, x_2=-1) \)

显然，不存在常数项能使 \( \hat{\beta} \) 同时满足：\( 1\cdot \beta >0 \) 且 \( -1\cdot \beta < 0 \)。这其实是完全分离（perfect separation）的情形：在 \( \beta \to +\infty \) 时，\(\eta_1 \to +\infty\)，\( p_1 \to 1\)（好），\(\eta_2 \to -\infty\)，\( p_2 \to 0 \)（好）。对数似然：

\[\ell(\beta) = 1\cdot \beta - \log(1+e^\beta) + 0\cdot (-\beta) - \log(1+e^{-\beta}) = \beta - \log(1+e^\beta) - \log(1+e^{-\beta}) .\]

利用恒等式 \( \log(1+e^{-\beta}) = \log(1+e^\beta) - \beta \)，得：

\[\ell(\beta) = \beta - \log(1+e^\beta) - [\log(1+e^\beta) - \beta] = 0 .\]

所以无论 \(\beta\) 取多大，对数似然恒为 0。MLE 不存在（任何 \(\beta \to \infty\) 均可）。这种情况下： - 对 \(\beta\) 的精确置信区间：模型仅告诉我们 \(\beta > 0\)（因为如果 \(\beta < 0\)，收敛方向反了，p₁→0、p₂→1，拟合更差，或不确定）。所以置信集是半无限的：\((0, \infty)\)。无法给出上界。

一般情形（多协变量，更高维）：类似几何——若存在某种方向使得数据可被超平面完美分开，则在那个方向 logistic 系数可被推至无穷大，相应置信区间只能半无限。有限置信区间仅在对“概率向量必须在某一有限范围内”施加额外假设（如同某分量不能太接近 0/1、可能来自观察不到的样本点）时才可能。这就是本文的核心见解：不假装可分性问题不存在，而是诚实报告半无限区间。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：线性可分数据下（高维 logistic 回归中），MLE 不存在给单个回归系数的频率主义推断带来何种本质限制；以及在高维 double-asymptotic 下，是否存在可靠的替代估计量。
核心工具 / 方法：对概率向量施加自然约束（\(0 < p_i < 1\) 且 \(p_i\) 远离边界），将 MLE 不存在时的发散方向“固定”到概率有界性假设下；利用 OLS 极限与 logistic 系数之间的显式代数关系（命题 1/2）构造可估计量的表达式；在弱设计条件下证明均匀一致性。
主要结论：(a) 线性可分时单个系数的精确置信集必须是半无限的（定理 1）——除非隐含地假设置信集对称或有界，这是无法从数据本身获得的虚假信息。(b) 在 double-asymptotic regime 下，约束估计 \(\tilde{\boldsymbol{\beta}}\) 的概率极限可以映射为 OLS 概率极限的已知线性函数，且 \(\tilde{\boldsymbol{\beta}}\) 是合理的、弱条件的（定理 2）。

关键设定与假设¶

在第二节记号基础上补全： - 设定：\( n,p \to \infty \)，\( p/n \to \kappa \in (0,1) \)。数据是可分的（即在一些方向 MLE 发散）。 - 假设 A1（设计矩阵）：\( X \) 的列具有有限二阶矩，且 Gram 矩阵 \( X^\top X / n \) 的特征值有界（从上下界）与正定——类似常用于高维 OLS 的逗留（incoherence）条件。 - 假设 A2（可分性）：定义“完全分离”的标准向量的存在性：存在 \((\mathbf{a}, b)\) 使 \(Y_i(\mathbf{x}_i^\top \mathbf{a} - b) > 0\) 对所有 i 成立。这保证了 MLE 发散的方向。 - 约束：对概率向量施加约束 \(\tilde{\boldsymbol{p}} \in (c, 1-c)^n\)，其中 \(c > 0\) 为很小的常数（不依赖 n、p）。约束的取法相当于要求 \(\boldsymbol{\eta}\) 的每个分量有界：\(|\mathbf{x}_i^\top \tilde{\boldsymbol{\beta}}| \le M\)，\(M = \log((1-c)/c)\)。此约束不假定真值满足（若真值使一些 \(p_i\) 极接近 0/1，这属于“活络”约束——本文处理的是非活络情形）。 - 与已有文献的对比：相比 Silvapulle (1981) 要求约束正确（即真值在约束集内），本文假设约束不活络（non-binding）但并不要求真值满足该约束（这一点是技术的细微但重要的放松？作者未明确说真值是顶点，但假设约束非活络应解释为"以高概率，约束对真值不施加额外限制"，即真值在约束的内点并且概率边界远离样本边界）。未完全清楚。

主要结果¶

结果 1（定理 1，低维/有限样本的精确推断现实）： - 陈述：假设数据线性可分（完全分离），则对每个分量 \(\beta_j\)，其（精确）\(1-\alpha\) 置信区间必定是半无限的——要么 \((L, \infty)\)，要么 \((-\infty, U)\)，要么全实线。不可能在保持频率覆盖的前提下得出有限的两侧置信区间。 - 直觉：可分方向使得似然函数沿着该方向不降，故不存在反对称的阈值；任何两侧有限区间都会被反例（数据缺失一小点无明显可分方向）证伪。 - 必要条件：只需可分性。 - 解决的技术难点：过去人们知道 MLE 不存在，但以为加入复杂度（如带宽、网格）就仍可得到有限区间；本文用集合论方法直接证明，真正的精确推断不可能。证明的关键是观察到 \(\beta_j\) 的 profile 似然在无方向约束下趋于常数——这意味着置信区间的端点（由 profile 似然比检验定义）无法被有限扰动锁住。

结果 2（命题 1 / 2，double-asymptotic 下的 OLS- Logistic 关系）： - 陈述：在 double-asymptotic regime 下，容易证明 OLS 估计量的概率极限 \(\bar{\beta}_{\text{OLS}} = \lim_{n,p \to \infty} (X^\top X)^{-1} X^\top Y\) 存在且唯一，即使 MLE 不存在。logistic 系数与 OLS 极限存在一个显式关系：

\[\bar{\boldsymbol{\beta}}_{\text{OLS}} = \mathbb{E}[ \mathbf{X}^\top \mathbf{X}]^{-1} \mathbb{E}[ \mathbf{X}^\top \mathbf{p}(\tilde{\boldsymbol{\beta}})]\]

其中 \(\mathbf{p}(\tilde{\boldsymbol{\beta}})\) 为用真值计算的 logistic 概率向量（不是 MLE 预测）。若假定设计矩阵服从某种鞅差形式（如独立高斯），则此关系可简化为 \(\tilde{\boldsymbol{\beta}} = \) [简单的函数 of \(\bar{\boldsymbol{\beta}}_{\text{OLS}}\)]。

直觉：Logistic 变换是良定义的（0 到 1 之间），但 MLE 发散只意味着系数在某些方向发散，但概率向量本身仍被“挤”在[0,1]区间，它在“有界”且“方差受限”的条件下，可以用类比于线性投影的形式与 OLS 极限联系起来。

结果 3（定理 2，约束估计量一致性）： - 陈述：在假设 A1-A2 及约束非活络（non-binding）下，约束估计量 \(\tilde{\boldsymbol{\beta}}\) 满足：

\[\|\tilde{\boldsymbol{\beta}} - \boldsymbol{\beta}_0\|_2 = O_p( \sqrt{p/n} ).\]

即参数维度的平方根乘以根号 n 即收敛率（与低维 OLS 的 \(O_p(1/\sqrt{n})\) 基本一致，只出在 p 项，不额外变慢）。 - 必要条件：设计矩阵的谱范数有界、约束的非活络性（即真值 \(p_i\) 不接近 0/1，避免约束对真值“边界”施力）、数据“分离”方向可以被约束张开的窗口“捕获”。 - 解决的技术难点：通常在高维下，logistic 似然的 Hessian 矩阵可能在数据可分时退化。但当约束将所有预测值固定在有界区域内，Hessian 变成良态（正定且有界特征值），因而可用优化理论证明一致性。关键跳跃是：建立约束解与 OLS 极限之间的显式线性关系，然后对 OLS 极限用标准均匀线性模型理论得到收敛率。

证明路线与技术技巧（理论型）¶

整体路线： 1. 第一步：刻画可分性对似然支撑的影响（定理 1 准备）。对任意参数 \(\boldsymbol{\beta}\)，沿分离方向 \(\mathbf{a}\) 做扰动 \(\boldsymbol{\beta} + t \mathbf{a}\)。观察到 profile 似然中 \(\beta_j\) 的似然比统计量函数在 \(t \to \infty\) 时收敛于常数，证明其支持集为半无限。 2. 第二步：引入约束并证明 OLS 极限存在。约束 \(\boldsymbol{p} \in (c,1-c)^n\) 等价于 \(\mathbf{X}\boldsymbol{\beta} \in [-M,M]^n\)，此时最大似然问题是在紧凸集上求凹函数最大解，故解存在唯一。标准推论可得 OLS 极限（命题）：

\[\bar{\boldsymbol{\beta}}_{\text{OLS}} = (X^\top X)^{-1} X^\top \bar{Y}, \quad \text{其中 } \bar{Y} = \lim_{n,p \to \infty} \frac{1}{n} \sum Y_i,\]

存在，且为 p 维。 3. 第三步：建立 OLS 极限与 logistic 系数的关系。通过 logit link 的一阶泰勒展开（接近均匀设计时可近似为线性）：

\[\mathbf{p}(\tilde{\boldsymbol{\beta}}) = \frac{1}{1+e^{-X\tilde{\boldsymbol{\beta}}}}\]

不能直接线性化，但利用 \(p_i\) 接近 0.5（约束限制远离 0/1）以及二项变量方差稳定化，推导 \(p_i\) 可近似为 \(0.5 + (1/4) X\tilde{\boldsymbol{\beta}}\)。（核心引理：在 double-asymptotic 下，因约束使 \(p_i\) 有界，logistic 逆变换可被其线性近似足够好。） 4. 第四步：证明一致率。将步骤三关系代入 \(\bar{\boldsymbol{\beta}}_{\text{OLS}}\) 表达式，得到一个 \(\tilde{\boldsymbol{\beta}}\) 的隐式方程，解出 \(\tilde{\boldsymbol{\beta}} = \text{Implicit}( \bar{\boldsymbol{\beta}}_{\text{OLS}} )\)。用（perturbation）矩阵摄动和设计矩阵的谱条件，证明此映射一致于真值的邻域。\(\sqrt{p/n}\) 率来自普通 OLS 的收敛率乘设计矩阵特征值效应的平方根。

关键跳跃点： - 跳跃 1：为什么 OLS 极限在 logistic 可分时能替代 MLE？关键在于 OLS 的目标函数是平方和，不对概率向量做 logistic 限制，因而不存在“发散方向”——可分数据不导致 OLS 发散，只要 Gram 矩阵可逆。作者将 logistic 的 link 用线性近似拆开，这要求概率在 0.5 附近；此处靠约束保证，是整个推导的核心但在实际操作中可能是强的。 - 跳跃 2：证明约束解与 OLS 极限的线性关系式几乎与真值最优误差同阶——这等价于证明：约束似然的梯度在最优解处为 0，用 score 方程与 OLS 矩条件的差异表达，再通过泰勒展开控制在 \(o_p(1)\) 内。

技术技巧点名： - Empirical process：用于处理设计矩阵随机性的极限（或代替固定设计论证）。作者非显式提及，但“概率极限”存在性证明依赖于鞅差形式的经验测度中心极限定理。 - 矩阵摄动 / 谱条件：约束解与 OLS 极限之间的变换中，用到 Frobenius 范数的扰动界。 - 凸分析 / 对偶：logistic 似然是凹函数，约束集是凸紧集，保证解唯一；证约束不活络的思想是对偶灵活性（Slater 条件）。

真实例子与应用¶

本文为纯理论 （无实证例子或模拟）。结果全部为数学定理与代数推导。无真实数据示例。无模拟实验。

🔎 结论是否比证明窄¶

定理 1 的表述是第一分半无限置信区间是“唯一正确报告”，但证明实际只覆盖了 profile 似然比置信区间这一种构造方式。贝叶斯区间（用先验）或精确条件检验可能给出不同形状。作者假定频率置信区间必须以 profile 似然比为基础，未讨论其他置信区间构造（如 bootstrap 百分位区间——其在极限下也等价于 profile, 因为它同样需要标准误差，但 bootstrap 在可分数据下是否真的“稳定”？未分析）。因此“精确推断必定半无限”的结论严格依赖于“精确指 profile 似然比检验”。
定理 2 的收敛率是在约束非活络假设下证明的。但约束（例如 \(0.01 < p_i < 0.99\)）本身常常靠样本外的知识（如效验信息）才可获得。在实际高维可分数据中，许多预测概率会被推向边界（0/1），那么约束就是活络的——论文的定理就不适用。作者未处理“约束活络”的情形：如果真值本身使一些 \(p_i \approx 0\)（如罕见事件设定），那么约束的改变量将不可忽略，一致性可能不成立。所以结论比标题暗示的窄：并非对所有高维 logistic 可分数据的推断成立，仅针对满足概率非退化约束的情形。

四、开放问题（点到为止，扎根具体语句）¶

如果约束“活络”（即真值的一些概率接近 0/1），约束估计是否仍能一致？一致率是否会退化？——扎根于论文对约束非活络性的频繁引用（定理 2 的前提是“provided the constraint is non-binding”，见第 5 节或附录 A 的声明）。去读 Albert & Anderson (1984) 的重看分离方向与概率极端值之间的关系，测试本文的约束在何时失效。
该 OLS 概率极限的显式表达式能否推广到其他广义线性模型（如 probit、multinomial logit）？——论文在结论节提及“generalisation to other GLMs is possible”，但没做。确认能否将对数几率近似线性化方法的形式套用到其他 link 函数。去查 Benkeser et al. (2017) 等文献有无类似思路。
半无限置信区间的实际使用指导：完全分离时，报告 \((L, \infty)\) 是很奇怪的，如何在实际数据分析软件中自动输出并解释？——未在论文讨论。可能需要后续的“软件工具”或应用论文去定义“置信区间的置信度关键点 L”的精确数值计算方法（现在只能通过 profile 似然比 grid 搜索得到）。
double-asymptotic 下是否可能有更快的收敛率？定理 2 给出 \(\sqrt{p/n}\)，但直观上若设计矩阵有快速衰减的谱（如协方差矩阵的秩远小于 p），可否得到比 \(\sqrt{p/n}\) 更快的率？——扎根在“设计矩阵满足 A1”的具体谱条件下，未尝试更弱的条件。在这个方向上，可考虑用随机矩阵理论去设计更优的预条件器。

Maintained by 陈星宇 · Homepage · Source on GitHub