Inference methods for unit-specific coefficients in panel data models with latent group structure¶

作者: Mikihito Nishi, Ryo Okui
主题: 经济理论 / 应用
相关性: 6/10
链接: https://arxiv.org/abs/2606.22035

一、领域脉络与小综述¶

这个方向是什么¶

本子方向聚焦于面板数据模型中存在潜在分组结构时的统计推断问题。其根本（统计）问题是：假设各横截面单位（如州、国家、公司）的回归系数服从“组内同质、组间异质”的块状模式，但分组身份未知、需从数据中估计。在这种情况下，如何对每个单位自身的系数进行有效的统计推断（置信区间、假设检验）？这一方向当前成熟度中等：大量工作解决了组别系数的估计与推断（组级推断），但针对更精细的单位级推断且同时考虑分组不确定性传播的工作仍非常有限，该文正是直接填补此缺口。

发展脉络¶

奠基工作与早期探索：最早一批工作建立并证明了“对系数施加潜在分组结构”这一框架的估计可行性。主要进展集中在 Hahn and Moon (2010)、Lin and Ng (2012)、Bonhomme and Manresa (2015) 和 Su, Shi, and Phillips (2016)。
- Bonhomme and Manresa (2015) 系统地建立了含分组固定效应的面板模型，提出了KMeans型估计算法，证明了其渐近性质，但他们的推断聚焦于组别固定效应（组级），且依赖 “分类一致性”（所有单位的分组估计以概率1趋于真实）作为大样本推论的基础。作者指出：“Bonhomme and Manresa (2015, S.2.2)” 的方差估计对短T情形的潜在误分类不够稳健，该文在 Section 5.2 扩展了此工作。
- Su, Shi, and Phillips (2016) 和 Wang, Phillips, and Su (2018) 进一步发展了 Lasso 型（如 CLasso）的分组估计方法，提供了丰富的理论结果，包括分组估计的一致性、组级系数的渐近正态性，但其推断也基本停留在组级层面。
方法多样化与细节深化：随着基本框架确立，后续工作从不同角度完善了估计方法，如谱方法（Chetverikov and Manresa, 2022；Yu, Gu, and Volgushev, 2024）、过指定组数时的识别（Liu, Shang, Zhang, and Zhou, 2020）、内生性下的估计（Mehrabani, 2023）、以及更简洁的算法（Mugnier, 2025）。但作者明确指出：“Existing works mostly focus on group-level inferences”（p.2）。
当前 Frontier：分组不确定性的显式建模与推断：这是最关键的节点。关键工作有两点：
- Dzemski and Okui (2021, 2024)：前者（2021）从理论上揭示了“部分单位的分组可被一致估计，而另一些（方差较大的）单位分组不确定”这一重要现象，打破了“所有单位分组一致估计”这一传统的、过于乐观的假设。作者指出：“Dzemski and Okui (2021) show that such situations occur when the group memberships of a sufficient number of units—not necessarily all—are consistently estimated, while other units with larger error variances have uncertain group assignments”。后者（2024）则进一步提出了一个对分组身份的置信集（confidence set for group membership, CSGM），这为后续对单位级系数进行“分组不确定性感知”的推断提供了核心工具。
- Wan, Sun, and Xu (2025) 和 Akgun and Okui (2025) 考虑了“聚类后推断”，但作者强调他们的焦点仍在组级系数。Beyhum and Mugnier (2024) 也考虑了聚类后推断，但作者说明其兴趣在全样本共有的参数。
本文的位置：本文正是建立在 Dzemski and Okui (2024) 的 CSGM 之上，首次系统地提出了单位级系数的推断方法，这两种方法将组级置信区间与 CSGM 结合，以传播分组不确定性。

子线索聚类¶

这些被引文献大致可聚为3条线索：

估计方法与算法：关注如何在未知分组下估计组级系数。代表：Bonhomme and Manresa (2015) （KMeans）、Su et al. (2016) （CLasso）、Mehrabani (2023) （GMM/内生性）、Mugnier (2025) （简化算法）、Chetverikov and Manresa (2022) & Yu et al. (2024) （谱方法）。本文的工作在此线索上相对中立，采用第一种（KMeans型）作为例子，但声明其方法可适配任何满足其假设的估计量。
推断方法（组级）：关注对组而非单位进行推断，且通常依赖“超一致性”假设。代表：Bonhomme and Manresa (2015) （部分推断）、Su et al. (2016) （渐近分布）、Wan et al. (2025) & Akgun and Okui (2025) （聚类后推断，但仍是组级）。
分组不确定性的量化： 这是本文的直接基础。代表：Dzemski and Okui (2021) （揭示部分单位无法一致估计）、Dzemski and Okui (2024) （提出对分组身份的置信集）。本文的工作完全在这一条线索上，将其从“量化分组不确定性”推进到“用此不确定性进行单位级推断”。

核心问题与当前主流方法的瓶颈¶

本方向追问的核心问题有4个：

如何检测和选择组数？ 主流方法是信息准则（如 Su et al., 2016 中的 BIC 型准则），该方法有效但假设强。
如何高效估计组结构和组系数？ 主流是迭代优化（如 KMeans 型）、惩罚回归（CLasso）、谱方法。瓶颈：计算复杂度（尤其是对大数据）和陷入局部最优。
如何对组级系数做有效的统计推断？ 主流是利用分类一致性假设，将组级 OLS 的渐近性推广。瓶颈：该假设在有限样本或短面板中极可能不成立，导致推断有偏。
如何对单位级系数做正确的统计推断？ 这是该文直接回答的核心问题。在本文之前，无直接成熟方法。两个极端是：忽略分组不确定性（Naive, 有偏）和忽略分组结构用时间序列回归（极度低效）。

⚠️ 作者的 Framing（这是作者的说法）：

作者将缺口 Frame 成“现有文献只关注组级系数推断，而实际工作者（如政策制定者）需要的是单位级系数。在分组不确定的场景下，组级推断不能直接用于单位级，但时间序列推断又低效”。因此，本文成为“显然的下一步”。作者淡化了两种竞争路线： - 经验贝叶斯（Empirical Bayes）：作者在文献综述结尾专门用一整段空间讨论经验贝叶斯，明确区分：“Our method is related to empirical Bayes in terms of purpose, but is fundamentally different... （它）利用所有单位的信息改善估计（Random effects-type shrinkage），而本文假设一个潜在分组结构，将单位参数视为组内共同的固定参数”。这是正确的区分，但作者没有讨论是否可用 EB 的变体（如对分组概率做 shrinkage）来近似解决此问题。这是值得研究者核实的点：EB 方法是否能自然产生“分组不确定性调整后的单位置信区间”？ - 贝叶斯方法：本文完全没有提及贝叶斯框架（如分层贝叶斯模型，其中分组是一个潜在变量，其后验可自然给出不确定性）。这可能是因为在经济学中，贝叶斯推断不如频率学派普遍，或者计算成本（MCMC）过高。明显该被引 / 该存在、却没出现在 intro 里的：Gibbs sampling / MCMC based hierarchical group models（可将分组和系数的不确定性通过一次 MCMC 一并处理）。作者可能因方法学派的偏好或对计算效率的要求而回避了这条路。

张力¶

未见明显对立的引用。所有引用的工作都建立在“潜在分组”这一范式下，主要分歧在估计方法上。一种可能需要留意的微妙张力在 “分组超一致性” 假设的普遍性与 Dzemski and Okui (2021, 2024) 提出的“部分单位不一致” 之间——前者是过去多数理论工作的前提，而后者（以及本文）反驳了其普适性，并以此为基础提出新方法。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- i = 1, ..., N: 横截面单位（如州）；t = 1, ..., T: 时间点。
- \(y_{it}\): 单位 i 在时间 t 观测到的标量结果变量（可观测）。
- \(x_{it}\): \(p \times 1\) 协变量向量（可观测）。
- \(\beta_i\): \(p \times 1\)，单位 i 的系数向量（不可直接观测，是我们要推断的参数/ estimand）。
- \(\beta_i^0\): \(\beta_i\) 的真实值。
- \(g_i \in \mathcal{G} = \{1, ..., G\}\): 单位 i 的组身份（潜在/latent，不可观测）。
- \(g_i^0\): \(g_i\) 的真实值。
- \(\theta_g\): \(p \times 1\)，第 g 组的共同系数向量（需估计的参数）。
- \(\theta_g^0\): \(\theta_g\) 的真实值。
- 关系假设: \(\beta_i^0 = \theta_{g_i^0}\) （核心结构假设）。
- \(\varepsilon_{it}\): 随机误差项（不可观测，假设独立？，有方差）。
- \(\hat{\theta}_g\): 从数据中估计出的第 g 组系数。（可观测/可计算量）。
- \(\hat{g}_i\): 从数据中估计出的单位 i 的组身份。（可观测/可计算量）。
- \(CS_{i, \alpha_1}\): 在置信水平 \(1-\alpha_1\) 下，单位 i 的组身份的置信集（包含的可能组）。这是从 Dzemski and Okui (2024) 方法得出的（可计算量）。
模型：
- 观测模型: \(y_{it} = x_{it}' \beta_i + \varepsilon_{it}\)。
- 结构模型: \(\beta_i^0 = \theta_{g_i^0}\)。
- 估计量通过最小化以下目标函数得到： \( \{\{\hat{\theta}_g\}_{g \in \mathcal{G}}, \{\hat{g}_i\}_{i=1,...,N} \} = \arg\min \sum_{i=1}^N \frac{1}{T} \sum_{t=1}^T (y_{it} - x_{it}' \theta_{g_i})^2 \)。即，我们同时寻找最优的分组和组内系数来最小化总残差平方和。这是个组合优化问题，通常通过 KMeans 型迭代算法求解（见 Section 2.2）。已知的条件是协变量 \(x_{it}\) 是外生的（与误差项 \(\varepsilon_{it}\) 不相关）。
可观测数据：研究者能观测到的是 \(\{y_{it}, x_{it}: i=1,...,N; t=1,...,T\}\)。
- 想要但测不到：每个单位的真实系数 \(\beta_i^0\)（或 \(\theta_g^0\)），每个单位的真实组别 \(g_i^0\)。误差项 \(\varepsilon_{it}\) 也测不到，但可以估计。

第二步：讲最小内核¶

这是整篇论文的核心思路最容易体现的例子：两个单位、两个组、一个协变量（p=1）、T很大（可以忽略时间序列抽样误差）。

假设1（极端情况，帮助理解）：假设真实情况是单位 1 (\(\beta_1^0 = 1\)) 和单位 2 (\(\beta_2^0 = 2\))，它们分别属于组 1 和组 2。数据模型是 \(y_{it} = \beta_i^0 + \varepsilon_{it}\) （即 \(x_{it}=1\)），误差方差 \(\sigma_1^2 << \sigma_2^2\)（单位 2 的数据噪声巨大）。
第一步（估计）：我们用 KMeans 算法估计分组和组系数。由于单位 1 的估计 \(\hat{\beta}_1\)（来自时间序列）非常“干净”（方差小），而单位 2 的估计 \(\hat{\beta}_2\) 非常“脏”（方差大），算法很可能会正确地分配单位 1 到组 1 (\(\hat{g}_1 = 1\))，但可能会把单位 2 错误地分配到组 1 或组 2 中的任何一个（取决于初始化和算法收敛；假设独特的噪声模式让单位 2 看起来更像组 1）。因此，我们得到 \(\hat{\theta}_1 = \text{mean}(\hat{\beta_1}, \hat{\beta_2}) \approx 1.5\), \(\hat{\theta}_2 = \text{mean}(\hat{\beta_2})\)。
第二步（识别分组不确定性，Dzemski & Okui的CS）：我们计算单位 2 的 CSGM，即 \(CS_{2, \alpha_1}\)。因为单位 2 的估计噪声极大，我们无法确定它到底属于哪一组，因此 \(CS_{2, \alpha_1} = \{1, 2\}\)（两个组都在置信集内）。
第三步（单位2）的推断：我们要对单位 2 的真实效应 \(\beta_2^0 = 2\) 做推断。
- Naive 法（忽略不确定性）：直接使用 \(\hat{\theta}_{\hat{g}_2}\)。假设 \(\hat{g}_2 = 1\)，则中心为 1.5。置信区间为 [1.5 - z_α * se(\(\hat{\theta}_1\)), 1.5 + z_α * se(\(\hat{\theta}_1\))]。因为 se(\(\hat{\theta}_1\)) 是基于单位 1 的方差算的，非常小。最后，这个区间很窄，但严重偏离真实值 2（不覆盖）。
- 单位级时间序列法（Unit-by-unit）：直接对单位 2 的时间序列数据做平均，得到估计 \(\hat{\beta}_2\)。因为方差 \(\sigma_2^2\) 很大，置信区间非常宽，覆盖了 2 但同时也覆盖了大量的无用区域。
- 本文方法1 (最小型，Minimum-type)：我们不只依赖 \(\hat{\theta}_{\hat{g}_2}\)，而是取 \(CS_{2, \alpha_1}\) 中所有组（这里是组 1 和组 2）的置信区间的并集。组 1 的区间是 [1.5 ± z_α * se_1]，组 2 的是 [中心未知 ± z_α * se_2，但这里中心是基于少数但干净的组2成员算出的，设为2]。这个并集可能会因为两组中心不同而变得不连通（有间隙），但总体比单位级区间窄，且正确覆盖了真实值 2。这个并集就是给单位 2 的最终置信集。
- 本文方法2 (偏差校正，Bias-correction)：我们仍以 \(\hat{\theta}_{\hat{g}_2}=1.5\) 为中心，但为了覆盖可能的真实组（组2），我们必须将区间拉伸到能包含“从中心到最远可能组中心”的偏移。所以置信区间是 [1.5 - z_α * max(se_1, se_2) - |\hat{\theta}_1 - \hat{\theta}_2|, 1.5 + z_α * max(se_1, se_2) + |\hat{\theta}_1 - \hat{\theta}_2| ]。本质上，我们以中心 1.5 为基础，向左加入“最大位移”和“最大标准误”。这保证区间连通，但非常保守（宽度是可观测组间差异的级别），可能近似于单位级区间的宽度。

这个最小内核清楚地展示了：对于噪声大的单位，其分组不确定。忽略它会导致覆盖不足（Naive）；考虑它，则会通过Union（可间断但更精确）或Stretching（连续但保守）的方式来构建有效的单位级推断。这也表明本文讨论的核心推断问题本质上是一个存在非一致估计的离散型 nuisance parameter（组别）时，如何构建目标参数的置信区间。

三、这篇论文做了什么¶

三句话¶

研究问题：在面板数据线性回归模型中，当系数呈现潜在分组结构（组内同质、组间异质）时，提出了全新的统计推断方法，用于构建每个单位自身（unit-specific） 系数的置信集。
核心工具/方法：将基于组级回归系数的标准推断（t检验、Wald检验）与分组身份的置信集（Dzemski & Okui, 2024）结合。提出了两种具体策略：最小型测试统计量（在CSGM上最小化统计量，生成置信集的并集）和偏差校正统计量（对因分组误判导致的偏差进行上下界校正，生成一个连通区间）。
主要结论：理论上证明了两种方法在温和条件下能够实现名义覆盖水平（定理1，2）。模拟显示，对于误差方差大的单位，本文方法（尤其最小型）产生的置信区间比单位级时间序列方法更窄，而Naive方法（忽略分组不确定性）则会导致严重的覆盖扭曲。实证中（美国各州最低工资效应），指出了忽略分组不确定性可能导致的误导性统计结论。

关键设定与假设¶

在第二节记号基础上，完整设定补充如下：

模型：标准化为 \(y_{it} = x_{it} \beta_i + \varepsilon_{it}\)，其中 \(\beta_i = \theta_{g_i^0}\)。即潜在分组结构是通过系数向量完全同质来定义的，而不是通过截距或其他维度。误差项 \(\varepsilon_{it}\) 可随时间序列相关、跨单位独立。
假设：
- Assumption 1 (组级系数渐近性)：\(\sqrt{N_g T} (\hat{\theta}_{\sigma(g)} - \theta_g^0) \xrightarrow{d} N(0, \Sigma_g)\)。这个假设强在：
  1. 它要求组级系数估计量本身就存在（已经很多文献证明）。
  2. 更重要的是，它不要求对每个单位的组身份估计是\(\sqrt{N_g T}\) 一致的。Dzemski and Okui (2021) 已经证明这在“部分单位分组不一致”下仍成立。这点是本文方法有效性的理论基础。
- Assumption 2 (样本量一致性)：\(\hat{N}_g / N_g \xrightarrow{p} 1\)。即，估计出的每组样本量趋于真实样本量。这通常由分类一致性保证，但 Dzemski and Okui (2021) 也证明其在“部分不一致”下仍成立。
- Assumption 3 (方差估计一致性)：\(\hat{\Sigma}_g \xrightarrow{p} \Sigma_g\)。Section 5 专门讨论了如何构建这样的估计量，即使在分组误判下也一致（特别是 Lemma 1）。
- Assumption 4 (CSGM的覆盖)：\(\lim \inf_{N, T \to \infty} \min_{i} P(g_i^0 \in CS_{i, \alpha_1}) \ge 1 - \alpha_1\)。即我们需要的组身份置信集（来自 Dzemski & Okui 2024）至少以 \(1-\alpha_1\) 的概率覆盖真值。这是本文方法能工作的核心外部保障。

主要结果¶

定理 1（最小型置信集的覆盖）：对一元回归系数(r=1)和多元系数/多元线性组合(r≥2)，最小型置信集CI_MT和CS_MW都能实现渐近覆盖概率至少为 \(1-\alpha\)。证明关键：利用了CSGM会包含真组（概率≥\(1-\alpha_1\)），且在该条件下，最小统计量退化为检验真组的统计量，后者满足 \(1-\alpha_2\) 覆盖。
定理 2（偏差校正置信集的覆盖）：对一元和多元情形，偏差校正置信集CI_BC和CS_BC都能实现渐近覆盖概率至少为 \(1-\alpha\)。证明关键：将CSGM内的所有组对应的估计放入一个保守的区间/集合。
长度分析（比较）：
- 单位级区间长度：\(O_p(1/\sqrt{T})\)。
- Naive区间长度：\(O_p(1/\sqrt{NT})\)。更短，但无效。
- 最小型区间长度：\(O_p(1/\sqrt{NT})\)（是有限个这种长度区间的并集，每个长度仍为\(O_p(1/\sqrt{NT})\)）。显著短于单位级区间。
- 偏差校正区间长度：\(O_p(1)\)（保守），因为需要覆盖CSGM内组中心的差异。这是保连通代价。

证明路线与技术技巧¶

整体路线（以定理1的一元情形为例）：
1. 分裂概率：将未覆盖概率按CSGM是否覆盖真实组别分为两部分。
2. 控制第一部分：利用 Assumption 4，CSGM未覆盖真实组的概率 ≤ \(\alpha_1 + o(1)\)。
3. 控制第二部分：在CSGM覆盖真实组的高概率事件下，检验真实组被包含在最小化过程中。因此，目标统计量（如t统计量的最小值）必然 ≤ 检验真实组的正确统计量。所以，不覆盖只会在“真实组的检验被拒绝”时发生，其概率 ≤ \(\alpha_2\)。
4. Sum up：总未覆盖概率 ≤ \(\alpha_1 + \alpha_2 = \alpha\)。证毕。
关键跳跃点：这个证明本身很简单，其关键在于假设 Assumptions 1-4 必须成立。尤其是 Assumption 1，它确保了即使分组不一致，“真组”的系数估计量也是渐近正态的，这是整个“以NM_MT方法覆盖真组”方案的前提。证明的技术核心不是技巧多高深，而是对“被误判组在与真组混合后，其估计量仍可被分离出来并用作正式检验”这一事实的严谨假设与利用。

真实例子与应用¶

存在实证例子。

数据/场景：分析美国各州最低工资变化对就业的影响。数据来自 Dube, Lester, and Reich (2010)，季度数据 (1990Q1-2006Q2)，共 N=51 个州（面），T=66 个季度，每个州包含多个县。模型为： \( \log(\text{emp}_{ict}) = \theta_{g_i^0, 1} \log(\text{mw}_{ict}) + \theta_{g_i^0, 2} \log(\text{pop}_{ict}) + \theta_{g_i^0, 3} \log(\text{emp}_{tot, ict}) + \phi_c + \tau_t + \varepsilon_{ict} \) 关注的核心是 \(\theta_{g_i,1}\)，即每个州自身的最低工资对就业的弹性系数。时间固定效应 \(\tau_t\) 使得单位级时间序列回归无效（因为缺乏组内变异，见Remark 3）。
怎么用：先通过 CLasso 方法估计出4个组的组级系数 \(\hat{\theta}_g\)（表1），并用固定T方差估计得到标准误。然后，通过 Dzemski and Okui (2024) 的方法构建每个州的组身份置信集 \(CS_{i,0.05}\)（表2）。最后，作者计算了90%的 naive、最小型（图2）和偏差校正（图3）置信区间，并分类展示了结果。
结果：
- 对照表2和图1：Naive 方法显示组1（7个州）效应显著为正，组4（7个州）效应显著为负。
- 然而，图2（最小型）和图3（偏差校正）显示：当考虑分组不确定性后，Colorado, Nebraska, South Dakota, Utah 这些在组4边界（CS包含组3和组4）的州效应不再显著。这说明忽视分组不确定性会得到误导性的统计结论（虚假显著的负面效应）。
- 图2还展示了最小型区间可能断开（disconnected），而图3的偏差校正区间是连通的但更长。
说明什么：这个例子验证了理论结论——对于分组不确定的单位，Naive方法无效（错误发现），本文方法通过传播不确定性提供了更诚实的推断，但也展示了连通性与功率/trade-off。

🔎 结论是否比证明窄¶

需要严格定位作者的说法：

“We also propose an asymptotic variance estimator valid under fixed-T asymptotics … may be of independent interest.” (Section 5.2) 这个声明是合理的。证明经由 Pollard (1981, 1982) 和 Bonhomme and Manresa (2015) 给出。但这“独立价值”只在特定场景（T固定且小、存在分组不确定性）下成立。对于大T场景，其实现上与 Cluster-robust 标准误（Arellano 1987）的差异被淡化了。
Theorem 1 & 2 的陈述是精准的：它只保证了“对每个单位（unit-wise, marginal）的渐近覆盖”。对应 Remark 1，作者明确指出“The joint coverage across N units can also be established ... by jointly setting the critical values for CSi”。但这句话止步于“can be established”。在整个论文中，并未提供联合覆盖的正式定理证明（真正的关键证明在 Theorem 1 & 2 的 marginal case；Appendix D 只是给了如何调整临界值的思路，但未给出依赖具体构造的收敛定理）。这是个明显窄化的点：论文的主定理只针对 marginal coverage，而实证和模拟只报告了marginal覆盖。作者把一个更强的“Joint coverage”的要求完全推给了未来。
关于内生性：在开放问题里，作者提到“The current paper focuses on situations in which the covariates are exogenous”。这是一个诚实的限制。但在推论中，他们多次假设 Assumption 1 成立，此假设的核心应是 KMeans（或其他所依赖的算法）估计量在给定模型下的渐近性。对于内生性 \(E[x_{it} \varepsilon_{it}] \neq 0\)，估计量的性质（Assumption 1）和 CSGM 的性质（Assumption 4）都未验证。因此在模型适用性上，结论严格限于 外生协变量 + 线性模型。

四、开放问题¶

从 Marginal 到 Joint Coverage 的实际方法：论文的 Theorem 1 & 2 保证了每个单位的 marginal 覆盖。对于有 N 个单位的面板，我们要的是同时覆盖所有单位的概率（如 Family-wise error rate）。Appendix D 给出了调整临界值的逻辑，但未提供具体的、可操作的且证明了的算法。这是一个具体的 gap：“具体如何构造一个能实现 Joint coverage 的 \(CS_i\)（需要调整其名义水平），并给出其联合覆盖的证明？”
偏差校正区间的长度收敛性：Section 4.4 指出，偏差校正区间长度 \(O_p(1)\)（不收缩），只有在 CSGM 收缩为单点时才可能是小量。但 CSGM 的收缩速率（即“分组不确定性消失”的速率）是什么样的？作者承认 “We may establish conditions under which \(\max_{g,f} (\hat{\theta}_g - \hat{\theta}_f) = O_p(1/g(N,T))\) ... although doing so requires analyzing the power of the confidence set”。这是一个具体的开放理论问题：“在什么偏差/噪声条件下，\(CS_i\) 能以多快的速率收缩，从而使 Bias-correction 区间也具有 \(O_p(1/\sqrt{NT})\) 长度？证明其极限覆盖率与长度的关系。”
对内生性协变量模型的扩展：引言和结论都承认当前工作只限于外生协变量。作者提到，此时组级系数估计（Assumption 1）和 CSGM（Assumption 4）都欠妥当。具体开放问题：“需要开发对组身份置信集 (CSGM) 的新方法，用于存在内生性、用 IV/GMM 估计的模型”。作者指出：“In those cases, methods to construct confidence sets for group membership have not been developed.”

请注意：这些开放问题是扎实的，根植于论文的具体段落或其缺失部分。需要提醒你的是，要判断这些是否是真gap，去阅读最近5年（2020-2025）关于“分组面板”和“聚类后推断”的5-10篇论文的intro和future work部分。如果大部分都指向“缺乏从marginal到joint的正式理论”或“CSGM在内生性模型下的延伸”，那它们是真gap；反之则可能不是。

Maintained by 陈星宇 · Homepage · Source on GitHub