When Composite Likelihood meets Stochastic Approximation¶

作者: Giuseppe Alfonzetti, Ruggero Bellio, Yunxiao Chen, Irini Moustaki
来源: Journal of the American Statistical Association
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：当全似然不可行（因隐变量、高维依赖或计算不可及）时，如何利用由大量低维边际/条件似然组件拼合而成的复合似然进行参数推断，并在此推断框架下，当组件数 \(K\) 与样本量 \(n\) 均趋向极大（如 \(K \gg n\) 或 \(K\) 与 \(n\) 同阶发散）时，如何突破传统极大复合似然估计（MLE）单次迭代 \(O(nK)\) 的计算瓶颈，使得估计在有限计算资源下仍保持渐近有效性与理论可证性。当前该方向已具备成熟的复合似然渐近理论，但“大 \(K\) 大 \(n\) 下的计算-统计权衡”仍处于理论初步成型期。

发展脉络： - 奠基工作：Lindsay (1988) 首次系统定义复合似然，将其确立为全似然不可行时的替代推断函数，并指出其最优权重选择问题；Varin et al. (2011) 对复合似然的渐近性质、方差调整与模型选择做了全景式综述，确立了复合似然估计的渐近正态性与信息矩阵调整的理论基石。 - 主要进展：随着数据维度与依赖结构复杂化，复合似然组件数 \(K\) 随维数指数级增长的问题凸显。Joe (1997) 与 Cox & Reid (2004) 探讨了极高维依赖结构下边际似然的组合效率损失；近年，Chen & Varin (2019) 等工作开始关注大 \(K\) 下的计算与理论问题，但主要停留在离线优化或变权调整，未触及随机优化引入后的渐近重构。 - 当前 frontier：大规模图模型（如 Ising model）与脆弱模型中，\(K\) 可达数千乃至百万，全梯度计算不可行。Stochastic Approximation (SA) / Stochastic Gradient Descent (SGD) 在全似然下的渐近理论已有较成熟框架（如 Polyak-Ruppert averaging），但在复合似然这一非全似然、非独立同分布组件加和的特殊目标函数下，SA 的渐近分布如何被“数据抽样变异”与“组件抽样噪声”双重刻画，是当前空白。 - 本文的位置：本文首次在复合似然框架下引入 SA，并在 \(n\) 与迭代次数 \(T\) 以特定相对速率发散时，严格证明了估计器的渐近正态性，且其极限方差被解析分解为数据抽样方差与优化噪声方差之和，填补了“复合似然 + 随机优化”的理论空白。

子线索聚类： 1. 复合似然渐近与效率理论：Lindsay (1988), Varin et al. (2011), Cox & Reid (2004)。这一簇确立复合似然估计的 Godambe 信息矩阵、渐近正态性及方差调整（sandwich variance），核心瓶颈在于：当组件非独立时，方差矩阵估计本身亦面临高维计算挑战。 2. 大规模图/依赖模型的计算推断：Joe (1997), Besag (1974)（Ising 模型伪似然）。这一簇处理空间/网络依赖数据的似然构造，瓶颈在于：依赖结构导致组件数 \(K\) 随节点数指数增长，全梯度计算不可行。 3. 随机优化（SA/SGD）的渐近理论：Robbins & Monro (1951), Polyak & Juditsky (1992), Chen et al. (2020)（SA 在全似然 MLE 下的渐近正态）。这一簇为随机迭代提供 Polyak-Ruppert 平均等收敛保证，但均假设目标函数是标准全似然或光滑凸函数，未处理复合似然中组件间的非独立性与权重异质性。

这个方向在追问的核心问题： 1. 计算-统计权衡的精确刻画：在复合似然中，随机抽取组件构造梯度所引入的“优化噪声”，其方差如何与“数据抽样方差”在极限分布中复合？二者能否通过调节抽样分布或迭代速率被分离或压制？ 2. 大 \(K\) 下的方差估计可行性：复合似然的 Sandwich 方差矩阵本身涉及 \(O(K^2)\) 组件协方差计算，当 \(K\) 极大时，如何在不计算全协方差矩阵的前提下获得有效置信区间？ 3. 权重与抽样分布的联合最优：传统复合似然研究权重选择以最小化渐近方差；引入 SA 后，组件抽样分布成为新控制变量——二者是否存在联合最优设计？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“复合似然虽降低了全似然计算难度，但在大 \(K\) 大 \(n\) 下仍计算不可行”，从而引入 SA 成为“显然的下一步”，并声称其框架“首次在复合似然中实现了计算可行且渐近精确的推断”。 - 淡化或回避的竞争路线：Intro 中未提及变分推断或MCMC在大 \(K\) 图模型中的竞争性——这两类方法虽不提供渐近正态解析方差，但在高维依赖模型中是主流计算替代；亦未提及Subsampling-based M-estimation（如 Kleiner et al. 2014 的 Bag of Little Bootstraps）作为大 \(n\) 下计算加速的另一路线。 - 明显该被引却未出现的：高维 M-estimation 的随机优化理论（如 Agarwal et al. 2012, Chen et al. 2020 在高维全似然下的 SA 渐近结果）——本文理论实质上是将高维全似然 SA 结果迁移至复合似然，但 Intro 未与该线索对接；Online/Streaming M-estimation（如 streaming EM）亦未出现，而本文的 SA 框架天然适配流数据。

张力：未见明显对立引用。但存在隐含张力：传统复合似然理论强调“权重选择可逼近全似然效率”，而本文 SA 框架下“优化噪声方差”依赖于组件抽样分布——若权重与抽样分布不一致（如按信息量加权，但按均匀分布抽样），渐近方差中两部分无法同时最优，这一张力本文未深入展开。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(\theta\)：待估参数向量，维度 \(p\)，属于参数空间 \(\Theta \subset \mathbb{R}^p\)。
\(n\)：样本量（独立同分布观测数）。
\(K\)：复合似然组件数（如 \(K\) 个边际/条件似然），\(K\) 可随模型维数发散。
\(\{Y_i\}_{i=1}^n\)：可观测的独立同分布样本，每个 \(Y_i\) 为 \(d\) 维随机向量（如 \(d\) 个二值节点或计数响应），其联合分布 \(f(y;\theta)\) 不可解或计算不可行。
\(\ell_k(y;\theta)\)：第 \(k\) 个似然组件的对数形式（如第 \(k\) 个边际对数似然或条件对数似然），\(k=1,\dots,K\)。
\(w_k\)：第 \(k\) 个组件的预设权重（非负，常取 1 或基于信息量选取）。
\(CL_n(\theta)\)：样本复合似然，定义为 \(\sum_{i=1}^n \sum_{k=1}^K w_k \ell_k(Y_i;\theta)\)。
\(\hat\theta_{CL}\)：传统极大复合似然估计，即 \(\arg\max_\theta CL_n(\theta)\)。
\(T\)：SA 算法的迭代总次数。
\(\xi_t\)：第 \(t\) 次迭代时随机抽取的组件子集索引，服从抽样分布 \(\mathcal{S}\)（如均匀抽取 \(m\) 个组件，\(m \ll K\)）。
\(g_t(\theta)\)：第 \(t\) 次迭代的随机梯度，基于 \(\xi_t\) 与当前样本构造（具体形式见下文）。
\(\gamma_t\)：第 \(t\) 次迭代的步长序列，满足 Robbins-Monro 条件 \(\sum \gamma_t = \infty, \sum \gamma_t^2 < \infty\)。
\(\hat\theta_T\)：SA 估计器，常取 Polyak-Ruppert 平均 \(\bar\theta_T = \frac{1}{T}\sum_{t=1}^T \theta_t\)。

模型：数据生成机制为 \(Y_i \sim f(y;\theta_0)\)，\(f\) 的全似然不可解；复合似然 \(CL_n(\theta)\) 作为推断目标函数，其组件 \(\ell_k\) 之间可存在依赖（同一 \(Y_i\) 可参与多个组件）。

可观测数据：研究者实际观测到 \(\{Y_i\}_{i=1}^n\)（如 \(n\) 个个体的 \(d\) 维响应），潜在/不可观测的是联合分布 \(f(y;\theta)\) 的解析形式及全似然；只能通过 \(K\) 个可解的边际/条件似然组件 \(\ell_k\) 接触参数 \(\theta\)。

第二步：最小内核——Ising 模型下的均匀抽样 SA

剥掉一般权重、一般抽样分布与一般模型，取最简特例：\(d\) 个二值节点的 Ising 模型，权重 \(w_k=1\)，抽样分布 \(\mathcal{S}\) 为均匀抽取单个组件（\(m=1\)）。

Ising 模型：\(Y_i = (Y_{i1},\dots,Y_{id}) \in \{0,1\}^d\)，联合分布 \(P_\theta(y) = \exp(\sum_{(j,k) \in E} \theta_{jk} y_j y_k - A(\theta))\)，\(E\) 为边集，\(A(\theta)\) 为配分函数（计算不可行）。
复合似然组件：取 \(K = |E|\) 个节点对的条件似然，\(\ell_k(y;\theta) = \log P_\theta(y_{j_k} | y_{V_k})\)（\(V_k\) 为第 \(k\) 条边的邻域），每个组件仅涉及局部参数 \(\theta_{jk}\)。
传统估计：\(\hat\theta_{CL} = \arg\max_\theta \sum_{i=1}^n \sum_{k=1}^K \ell_k(Y_i;\theta)\)，单次梯度计算需遍历所有 \(nK\) 个组件-样本对，计算量 \(O(nK)\)。
SA 估计器：每次迭代 \(t\)，均匀随机抽取一条边 \(k_t \sim \text{Uniform}\{1,\dots,K\}\)，并随机抽取一个样本 \(i_t \sim \text{Uniform}\{1,\dots,n\}\)（或用 mini-batch），构造随机梯度 \(g_t(\theta) = n K \cdot \nabla_\theta \ell_{k_t}(Y_{i_t};\theta)\)（无偏估计：\(\mathbb{E}[g_t(\theta)] = \nabla_\theta CL_n(\theta)\)）。迭代：\(\theta_{t+1} = \theta_t + \gamma_t g_t(\theta_t)\)，最终取 \(\bar\theta_T = \frac{1}{T}\sum_{t=1}^T \theta_t\)。

在这个最简特例下，要证的命题退化成什么：证明 \(\sqrt{n}(\bar\theta_T - \theta_0) \xrightarrow{d} N(0, \Sigma)\)，其中 \(\Sigma = H^{-1} J H^{-1} + H^{-1} V_{\text{opt}} H^{-1}\)： - \(H = \mathbb{E}[\nabla^2_\theta \ell_k(Y;\theta_0)]\)（Godambe 信息矩阵的敏感度矩阵部分）。 - \(J = \text{Var}(\sum_{k=1}^K \nabla_\theta \ell_k(Y;\theta_0))\)（变异性矩阵部分，因组件依赖，非简单求和）。 - \(V_{\text{opt}} = \text{Var}(n K \nabla_\theta \ell_{k_t}(Y_{i_t};\theta_0)) = n K^2 \mathbb{E}[\nabla_\theta \ell_k(Y;\theta_0) \nabla_\theta \ell_k(Y;\theta_0)^T]\)（优化噪声方差，均匀抽样下为 \(K^2\) 倍单组件方差）。

证明怎么走、为什么成立：核心难点在于：SA 估计器的渐近方差由数据抽样噪声（\(J\)）与优化噪声（\(V_{\text{opt}}\)）复合，二者在迭代过程中以不同速率累积。证明的关键想法是：当 \(T\) 与 \(n\) 的相对速率满足 \(T \propto n^{1+\delta}\)（\(\delta > 0\)，即迭代次数比样本量发散得快），优化噪声的累积方差被步长序列 \(\gamma_t\) 的衰减压制，使得 \(V_{\text{opt}}\) 对极限方差的贡献收敛为有限常数项，而非发散或消失；此时，\(\bar\theta_T\) 的渐近分布可被严格分解为两部分之和，且优化噪声项可通过调节抽样分布（如增加 mini-batch 大小 \(m\)）被显式控制。若 \(T\) 发散过慢（\(T \propto n\)），优化噪声将主导极限分布，估计器不收敛至 \(\theta_0\)；若 \(T\) 发散过快（\(T \propto n^{2+\delta}\)），优化噪声消失，但计算成本无意义增大。因此，\(T \propto n^{1+\delta}\) 是计算-统计权衡的“甜蜜点”。

三、这篇论文做了什么¶

三句话： ① 研究了大 \(K\) 大 \(n\) 下复合似然估计的计算瓶颈问题，提出基于随机近似（SA）的近似极大复合似然估计器。 ② 核心工具是组件随机抽样构造无偏随机梯度 + Polyak-Ruppert 平均，并在 \(T \propto n^{1+\delta}\) 相对速率下证明渐近正态性。 ③ 主要结论是极限方差可解析分解为数据抽样方差与优化噪声方差之和，后者可通过调节抽样分布与 mini-batch 大小被精确控制。

关键设定与假设：在第二节最小记号基础上补全： - 一般权重 \(w_k\)：组件可带异质权重，目标函数为 \(CL_n(\theta) = \sum_{i=1}^n \sum_{k=1}^K w_k \ell_k(Y_i;\theta)\)。 - 一般抽样分布 \(\mathcal{S}\)：\(\xi_t\) 可服从任意满足 \(\mathbb{E}[g_t(\theta)] = \nabla_\theta CL_n(\theta)\) 的分布（如按权重 \(w_k\) 比例抽样，或均匀抽样 mini-batch \(m\) 个组件）。 - 假设 A1（参数空间与识别）：\(\theta_0\) 为 \(CL_n(\theta)\) 的唯一极大点，且 \(\Theta\) 为紧集；这是复合似然识别的标准假设，与 Varin et al. (2011) 一致。 - 假设 A2（光滑性）：\(\ell_k(y;\theta)\) 对 \(\theta\) 二阶连续可微，且梯度/海瑟矩阵的期望/方差有界；相比全似然 SA 文献（如 Chen et al. 2020），本文需额外处理组件间的依赖性对海瑟矩阵期望的影响。 - 假设 A3（步长与迭代速率）：\(\gamma_t = \gamma_0 / t^\alpha\)，\(\alpha \in (0.5, 1]\)，且 \(T \propto n^{1+\delta}\)（\(\delta > 0\)）；这是保证优化噪声不主导极限分布的关键条件，相比全似然 SA 的 \(T \propto n\) 条件更严格（因复合似然梯度方差更大）。 - 假设 A4（梯度方差有界）：随机梯度的方差 \(\mathbb{E}[||g_t(\theta) - \nabla CL_n(\theta)||^2]\) 在 \(\theta_0\) 邻域内有界；这要求抽样分布 \(\mathcal{S}\) 的设计使得 \(g_t\) 的二阶矩不发散（如均匀抽样下需 \(K^2 \mathbb{E}[||\nabla \ell_k||^2] < \infty\)）。

主要结果： - 定理 1（渐近正态性）：在假设 A1-A4 下，若 \(T = c n^{1+\delta}\)（\(\delta > 0\)），则 \(\sqrt{n}(\bar\theta_T - \theta_0) \xrightarrow{d} N(0, \Sigma_{\text{comp}})\)，其中 \(\Sigma_{\text{comp}} = H^{-1} J H^{-1} + H^{-1} V_{\text{opt}} H^{-1}\)。 - 直觉：数据抽样噪声贡献 \(H^{-1} J H^{-1}\)（即传统复合似然的 Sandwich 方差），优化噪声贡献 \(H^{-1} V_{\text{opt}} H^{-1}\)（因 SA 迭代中随机梯度的方差累积）；二者可加是因为在 \(T \propto n^{1+\delta}\) 速率下，两种噪声源在迭代过程中近似独立累积。 - 必要条件：\(T \propto n^{1+\delta}\) 是保证 \(V_{\text{opt}}\) 不消失也不发散的必要条件；若 \(\delta = 0\)（\(T \propto n\)），优化噪声将与数据噪声同阶，极限方差无解析分离；若 \(\delta < 0\)，估计器不收敛。 - 技术难点：在复合似然下，随机梯度 \(g_t\) 的方差涉及组件间的协方差（因同一 \(Y_i\) 可参与多个组件），需将 \(V_{\text{opt}}\) 分解为组件抽样方差与组件间协方差之和，并证明后者在 mini-batch 抽样下可被压制。 - 定理 2（优化噪声的控制）：若抽样分布 \(\mathcal{S}\) 取 mini-batch 大小 \(m\)，则 \(V_{\text{opt}} \propto K^2 / m\)；当 \(m \propto K\) 时，\(V_{\text{opt}}\) 可降至与 \(J\) 同阶，此时 \(\Sigma_{\text{comp}}\) 的优化噪声项与数据噪声项可比，总方差约为传统复合似然方差的 2 倍。 - 直觉：增加 mini-batch 大小 \(m\) 可平滑随机梯度的方差，但计算成本从 \(O(1)\) 升至 \(O(m)\)；\(m \propto K\) 是使优化噪声与数据噪声同阶的最低成本设计。 - 解决的技术难点：如何在 \(m \ll K\) 下仍保证 \(V_{\text{opt}}\) 有界，且不破坏无偏性——本文通过按权重比例抽样（而非均匀抽样）实现。

证明路线与技术技巧： - 整体路线： 1. SA 迭代的线性化：在 \(\theta_0\) 邻域内，将迭代 \(\theta_{t+1} = \theta_t + \gamma_t g_t(\theta_t)\) 泰勒展开为 \(\theta_{t+1} = \theta_t + \gamma_t [\nabla CL_n(\theta_0) + H(\theta_t - \theta_0) + \epsilon_t]\)，其中 \(\epsilon_t = g_t(\theta_t) - \nabla CL_n(\theta_t)\) 为随机梯度噪声。 2. 噪声分解：将 \(\epsilon_t\) 分解为“数据噪声”（\(\nabla CL_n(\theta_0)\) 的随机性）与“优化噪声”（\(\epsilon_t\) 的条件方差），并证明二者在迭代过程中渐近独立。 3. Polyak-Ruppert 平均的渐近分析：利用 \(\bar\theta_T = \frac{1}{T}\sum_{t=1}^T \theta_t\) 的递推式，将 \(\sqrt{n}(\bar\theta_T - \theta_0)\) 表达为数据噪声项与优化噪声项的加权和，并计算各自的极限方差。 4. 速率匹配：通过调节 \(\gamma_t\) 与 \(T/n\) 的相对速率，使得数据噪声项收敛至 \(H^{-1} J H^{-1}\)，优化噪声项收敛至 \(H^{-1} V_{\text{opt}} H^{-1}\)，且二者可加。 - 关键跳跃点： - 引理 2（噪声独立性）：证明在 \(T \propto n^{1+\delta}\) 下，数据噪声 \(\nabla CL_n(\theta_0)\) 与优化噪声 \(\epsilon_t\) 的累积协方差趋于 0；这是复合方差可加性的核心，难点在于 \(\epsilon_t\) 依赖于 \(\theta_t\)（从而间接依赖数据），需用鞅差分结构剥离。 - 引理 4（优化噪声方差计算）：将 \(V_{\text{opt}}\) 解析表达为抽样分布 \(\mathcal{S}\) 的二阶矩与组件协方差矩阵的函数；难点在于组件间依赖性使得协方差矩阵非对角，需用 Stein 方程或耦合论证控制非对角项的贡献。 - 技术技巧点名： - Polyak-Ruppert averaging：用于将 SA 迭代的离散噪声平滑为渐近正态分布，起“方差压制”作用。 - 鞅差分分解：将随机梯度噪声 \(\epsilon_t\) 分解为条件期望 0 的鞅差分项与余项，用于证明噪声独立性。 - Stein's method / coupling：用于控制组件间依赖对 \(V_{\text{opt}}\) 非对角项的影响，在 Ising 模型下依赖图结构的度数有界性。 - 泰勒展开 + 留一法：在线性化步骤中，用 leave-one-out 论证 \(\theta_t\) 对单次噪声 \(\epsilon_t\) 的依赖可忽略，保证鞅结构成立。

真实例子与应用： - Ising 模型模拟： - 数据/场景：\(d=50\) 个二值节点的 Ising 模型，边数 \(K \approx 500\)，样本量 \(n=1000\)；参数 \(\theta_{jk}\) 随机生成。 - 怎么用上去：取复合似然为节点对条件似然，SA 抽样分布取均匀抽取 \(m=10\) 个组件，步长 \(\gamma_t = 0.1/t^{0.7}\)，迭代 \(T=5000\)。 - 得到什么结果：SA 估计器 \(\bar\theta_T\) 的经验方差与理论 \(\Sigma_{\text{comp}}\) 吻合，优化噪声项约占总方差的 30%；相比传统极大复合似然估计（计算时间 \(O(nK)\)），SA 计算时间降至 \(O(Tm)\)，约快 10 倍，方差仅增加约 1.3 倍。 - 想说明什么：验证理论预测的方差分解，展示 SA 在大 \(K\) 图模型下的计算优势与方差可控性。 - Gamma frailty 模型模拟： - 数据/场景：\(n=500\) 个独立簇，每簇 5 个计数响应，簇内依赖由 gamma frailty 引入；参数 \(\theta\) 含回归系数与 frailty 参数。 - 怎么用上去：复合似然取簇内对条件似然，\(K=500\)；SA 抽取 \(m=5\) 个簇，\(T=3000\)。 - 得到什么结果：SA 估计器与传统估计器的偏差相近，方差增加约 1.2 倍，计算时间减少约 8 倍。 - 想说明什么：验证 SA 在非图模型（计数数据/脆弱模型）下的适用性，展示优化噪声在 mini-batch 抽样下的压制效果。 - 大规模心理健康调查真实数据： - 数据/场景：英国成人精神健康调查数据，\(n \approx 7000\)，\(d=12\) 个精神症状二值指标，拟合 Ising 模型（\(K=66\) 条边）。 - 怎么用上去：用 SA 估计 Ising 模型参数，推断症状网络结构；与传统极大伪似然估计对比。 - 得到什么结果：SA 估计的网络边权重与传统估计高度一致（相关系数 > 0.95），计算时间从约 120 秒降至约 15 秒。 - 想说明什么：展示 SA 在真实大规模调查数据下的实用性，验证其推断结果与传统方法的一致性。

🔎 结论是否比证明窄： - 泛泛 claim：Intro 中声称“SA 框架适用于任何复合似然”，但定理 1 的证明依赖假设 A4（梯度方差有界），在组件方差异质极大（如某些组件 \(\ell_k\) 的梯度方差随 \(K\) 发散）或组件间强依赖（如高维图模型中节点度数无界）时，A4 可能不成立，此时结论是否成立未严格证明。 - Conjecture：文中提及“当 \(m \propto K\) 时，优化噪声可降至与数据噪声同阶”，但定理 2 仅在均匀抽样或按权重比例抽样下证明，对一般抽样分布（如按信息量自适应抽样）仅给出启发式论证，未严格证明 \(V_{\text{opt}}\) 的下界。

四、开放问题（点到为止，扎根具体语句）¶

组件间强依赖下的 \(V_{\text{opt}}\) 控制：定理 2 证明 \(V_{\text{opt}} \propto K^2/m\) 时隐含假设组件间协方差可被 mini-batch 抽样压制（假设 A4）；当图模型节点度数无界（如幂律度分布），组件间协方差非对角项可能主导 \(V_{\text{opt}}\)，此时 \(m \propto K\) 是否仍能保证优化噪声有界？扎根点：定理 2 证明中“协方差项可被 \(m\) 压制”的论证（Section 4.2）。
权重与抽样分布的联合最优设计：文中分别讨论了权重选择（最小化 \(H^{-1} J H^{-1}\)）与抽样分布选择（最小化 \(V_{\text{opt}}\)），但二者是否可联合优化（如按信息量加权并按信息量比例抽样）以最小化 \(\Sigma_{\text{comp}}\)？扎根点：Section 5 讨论“practical guidance”时仅给出分步建议，未提联合最优。
\(T \propto n^{1+\delta}\) 速率的必要性与放宽：定理 1 要求 \(T \propto n^{1+\delta}\)（\(\delta > 0\)），这在计算上意味着迭代次数需远超样本量；若采用自适应步长（如 \(\gamma_t\) 依赖梯度方差估计）或二阶 SA（如 Newton-Raphson SA），是否可在 \(T \propto n\) 下仍保证渐近正态性？扎根点：定理 1 的速率条件（假设 A3）及 Section 6 的“rate condition”讨论。
方差估计的计算可行性：\(\Sigma_{\text{comp}}\) 涉及 \(J\)（\(K \times K\) 组件协方差矩阵）与 \(V_{\text{opt}}\) 的估计，当 \(K\) 极大时，\(J\) 的计算仍不可行；是否可基于 SA 迭代轨迹（如 \(\theta_t\) 的样本协方差）或随机抽样的组件子集构造 \(\Sigma_{\text{comp}}\) 的一致估计？扎根点：Section 5 提及“variance estimation via subsampling”但未给出理论保证。

Maintained by 陈星宇 · Homepage · Source on GitHub

When Composite Likelihood meets Stochastic Approximation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论