Quantile regression with a one-sided misclassified binary regressor¶

作者: Carlos Lamarche
来源: Annals of Applied Statistics
主题: 经济理论 / 应用
相关性: 7/10
链接: https://doi.org/10.1214/25-aoas2062

一、领域脉络与小综述¶

这个方向是什么¶

本方向聚焦于二元回归变量存在测量误差的统计识别与估计问题，具体而言，是在分位数回归（quantile regression）框架下，处理二元协变量（如社会项目参与）被观测个体单侧误报（one-sided misclassification） 的情形。这里的“单侧”意味着观测值可能将参与误报为未参与（漏报），但不会将未参与误报为参与（多报）。更进一步，该误报是内生的（endogenous），即误报行为本身与结果变量或未观测的扰动项相关，这使得问题比经典的经典测量误差（classical measurement error）或外生误分类（exogenous misclassification）更具识别难度。当前该子方向的成熟度中等，主要集中在参数或半参数框架下，利用辅助信息（如管理数据或验证样本）来实现识别，并发展相应的推断方法。本文则是在该方向上迈出的具体一步，专注于分位数回归这一特定且应用广泛的目标函数。

发展脉络（history）¶

奠基工作（20世纪80-90年代）：Aigner (1973) 与 Fuller (1987) 等早期工作奠定了回归模型中变量含测量误差（Errors-in-Variables, EIV）的计量经济学基础，但这些工作主要针对连续变量与经典测量误差假设。主要进展（20世纪90年代末-21世纪初）：Hausman et al. (1998) 与 Bound, Brown & Mathiowetz (2001) 系统性地揭示了调查数据中项目参与率常被系统性多报（即误报）的问题，并指出这种误报往往与受访者特征相关（内生性），从而开启了针对二元变量误分类（misclassification） 的计量研究。此后，Kane, Rouse & Staiger (1999, QJE) 及 Card & Hyslop (2005) 分别在回归模型中将教育水平的误分类和福利参与的误报作为处理对象，发展了矩估计或ML估计方法，但主要依赖于外生误分类假设（即误报概率与结果无关），或需要验证样本（validation sample） 才能实现非参数识别。当前frontier（约2010年后）：研究者逐步放松外生性假设，探索在仅依靠辅助信息（如管理数据中的总体参与率）而无需验证样本下的识别策略。例如，Molinari (2008, JPE) 使用了部分识别（partial identification）的方法，给出参数区间而非点识别。本文的位置：Lamarche (2024, AoAS) 在已有工作的基础上，选取了单侧误报这一特殊但常见（例如，福利参与的多报远多于漏报，但在调查中受访者可能隐瞒参与情况，导致观测到的参与率低于真实管理记录，形成单侧漏报）且内生的设定，并将其与分位数回归这一对经济学应用极为重要的工具结合起来。作者声称，本文是首个同时处理分位数回归模型、内生性且不依赖验证样本的点识别方法。其核心在于引入了一个参数形式的第一阶段模型，该模型利用关于参与和误报的辅助信息（如管理数据中的真实参与率）来实现识别。

子线索聚类¶

这些被引文献大致可归为以下2-3条子线索：

调查数据的测量误差与误报：核心文献为Bound et al. (2001) 及各类使用管理数据验证调查质量的工作。这一线索侧重于描述与诊断误报的形态、来源与普遍性，为后续的统计建模提供经验基础。
二元误分类变量的识别与估计：这是更偏方法论的子线索，又可细分：
- 外生误分类 + 矩/似然估计：如Kane et al. (1999)，假设误报概率与结果独立。
- 利用验证样本的非参数/半参数识别：如Chen, Hong & Tarozzi (2008, JBES)，通过一小部分精确测量的子样本（验证样本）来校正全样本的误报。
- 无验证样本的点识别：本文及其直接前驱如Lewbel (2007, JASA) 与 Nguimkeu et al. (2019, AEJ: AE)，通过辅助信息（如均值矩条件）或异方差结构来实现识别。本文属于此子线索，并加入了分位数回归。
分位数回归中的内生性与测量误差：该子线索引申自Koenker (2005) 的基础框架。处理分位数回归的内生性本身就是活跃领域（如Chernozhukov & Hansen, 2005 的IV分位数回归），但与误报二元变量的结合工作较少。本文是少数直接 соединение两个子领域的尝试。

这个方向在追问的核心问题¶

如何在无验证样本且误报内生的情况下，唯一识别出误报变量的系数？ 这是核心识别问题。参数假设（如已知误报概率的函数形式或辅助矩）是目前答案。
识别出来后，如何构造一致的估计量并实现有效推断？ 这需要处理第一阶段（误报模型）与第二阶段（分位数回归）的联合估计误差，以及分位数回归目标函数的非光滑性。Bootstrap的渐近有效性是关键。
针对此问题的最优估计量（半参数效率界）是什么？ 本文提供的参数极大似然与分位数回归的联合M估计量是否达到效率界？
该识别策略对误报模型的误设定（misspecification）有多稳健？ 如果参数假设错误，点识别将不成立，此时结论会退化成什么？能否进行敏感性分析？

⚠️ 作者的framing（必须明确标注成“这是作者的说法”）¶

这是作者的说法：他们将框架缺口描述为“尚未有方法在分位数回归框架下处理内生单侧误报，而这一框架对分析福利参与的代际效应的分布影响至关重要”。他们声称其贡献在于提供了一个“实际可行（practical）”且“易于计算（easy to compute）”的估计量，并全面证明了其渐近性质。他们将竞争对手（如使用工具变量或假设外生误报的方法）定位为“不适用于此设定”或“基于不现实的假设”。但值得研究者自己去查的是： - Lewbel (2007) 的识别方法是否可能被应用于此？ Lewbel通过异方差性构造工具变量，其假设（结果变量方差依赖于某些与误报无关的变量）与本文的假设（已知辅助矩）哪个更难满足？作者似乎完全没有在intro中提及这条可能的替代路线。 - 是否存在利用其他辅助信息的半参数识别策略（如仅在条件均值而非整个分位数函数上利用信息），从而绕过本文的参数第一阶段模型？作者未讨论。 - 此外，量化稳健性：本文依赖于第一阶段的参数模型，但该模型被误设时，估计量会如何表现？作者在模拟部分或许有涉及，但作为理论问题，这几乎是所有此类文献共存的弱点。

张力¶

未见明显对立引用。被引文献对“误报普遍存在”及“需要特殊处理”基本达成共识。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

设研究者关心条件分位数函数。以下是本文核心记号：

** $ Y_i $ **：结果变量（连续），如女儿成年收入的对数。
** $ X_i $ **：一个 $ p $ 维的控制变量向量（包括截距）。
** $ D_i^* $ ：真实的、潜在的二值变量，表示个体是否参与某个社会项目（如母亲是否接受福利），取值0或1。这是研究者无法观测到的（潜在/反事实量）**。
** $ D_i $ ：观测到的、在调查中报告的参与变量，同样取值0或1。 这是研究者可观测到的**。
** $ Z_i $ **：包含 $ D_i $ 的观测协变量矩阵。在分位数回归中，第 $ \tau $ 分位数的回归方程为：$ Q_{Y_i | D_i^*, X_i} (\tau) = X_i^\top \beta_0(\tau) + D_i^* \alpha_0(\tau) $。我们关心的是 $ \alpha_0(\tau) $（母亲参与对女儿成年收入在不同分位点上的边际效应）。
** $ n $ **：样本量。
** $ \tau $ **：目标分位数（例如0.5为中位数）。
模型：
1. 分位数回归模型（第二阶段）：残差 $ Y_i - X_i^\top \beta(\tau) - D_i^* \alpha(\tau) $ 在给定 $ D_i^*, X_i $ 的条件下，其第 $ \tau $ 分位数为0。
2. 误报模型（第一阶段）：这是一个参数模型。作者假设单侧误报，即若个体未参与但报告为参与（漏报）是可能的，但若个体参与则绝不报告为未参与（不会多报，即 $ P(D_i=1| D_i^*=1) = 1 $）。同时，误报概率 $ p_i = P(D_i = 0 | D_i^* = 1, X_i, Z_i) $（参与且被漏报的概率）依赖于观察协变量，并遵循某一参数形式，例如一个逻辑回归（Logistic regression）：$ p_i = \text{logit}^{-1}(X_i^\top \gamma) $。这里假设了参数向量 $ \gamma $ 在第二阶段之外，通过类似MLE的方法进行估计。
可观测数据：研究者手头有 $ \{(Y_i, D_i, X_i) : i = 1,...,n\} $ 组成的数据集。此外，他们还拥有关于真实参与率的一个辅助信息，例如从管理记录中获知总体真实参与率的均值 $ E[D_i^*] = \mu $ 或某个更复杂的矩条件。这个辅助信息是识别 $ \gamma $ 的关键。没有它，参数【$\gamma$】与【$\alpha(\tau), \beta(\tau)$】无法被唯一确定。

小结：对于二元变量 $D_i^*$，研究者观测 $D_i$，知道后者是单侧误报的，且误报概率是参数的函数，但没有准确的匹配数据（验证样本）。为了识别，除了观测数据外，还需一个辅助矩条件（如 $E[D_i^*] = \mu$ 已知）。

第二步：讲最小内核（最简特例）¶

考虑最简单的设定，剥离所有一般性：无协变量（即 p=0），只关心单一的分位数 $ \tau = 0.5 $（中位数）。并且，误报模型也是一个常参数模型：$ P(D_i = 0 | D_i^* = 1) = p $，一个固定的概率，且已知 $ E[D_i^*] = \mu $（辅助矩）。这意味着： - 真实参与率为 $ \mu $（已知，例如来自管理数据库）。 - 观测到的参与率 $ E[D_i] $ 由两部分构成：真实参与者中报告为参与的部分（$ \mu \times (1-p) $）+ 漏报的部分（假设无多报，即 $E[D_i | D_i^*=0] = 0 $，则没有先报的假参与者）。所以：$ E[D_i] = \mu (1-p) $。 - 一旦我们有了观测到的 $ E[D_i] $ 的样本均值和已知的 $ \mu $，我们就能立刻识别出 $ p $：$ p = 1 - \frac{\bar{D}}{ \mu } $。

现在的中位数回归模型是：

\[Q_{Y_i | D_i^*}(\tau) = \beta_0 + D_i^* \alpha_0\]

真实的数据生成过程呈现为一个双分布混合：当 $ D_i^* = 0 $ 时，$ Y_i $ 的中位数是 $ \beta_0 $；当 $ D_i^* = 1 $ 时，中位数是 $ \beta_0 + \alpha_0 $。由于我们观测不到 $ D_i^* $，我们只能看到在报告值 $D_i$ 条件下的分位数。如果 $D_i=1$,则 $D_i^*=1$ 一定成立（无多报）。如果 $D_i=0$, 则$D_i^*$既可能为0也可能为1（漏报）。因此，观测数据所对应的分位数是： - $ Q_{Y_i | D_i = 1}(0.5) = \beta_0 + \alpha_0 $。（直接可估） - $ Q_{Y_i | D_i = 0}(0.5) $ 是一个加权组合：它是真实未参与者中位数 $ \beta_0 $ 和真实参与者中被漏报者中位数 $ \beta_0 + \alpha_0 $ 的一个混合。混合比例为 $ P(D_i^* = 1 | D_i = 0) = \frac{\mu p}{1-\mu(1-p)} $。

核心思路：只要能够识别出混合比例（即利用辅助信息估计出 $ p $），就能从观测数据中解出 $ \alpha_0 $。在估计时，这是一个两步法或一步法M估计：第一，利用观测均值 $ \bar{D} $ 与已知 $ \mu $（或更一般的参数形式下的MLE）估计出误报概率的未知参数。第二，利用观测的 $D_i$ 和估计出的混合权重，或其线性变换，进行分位数回归。在这个无协变量的例子里，整个问题退化成通过观测的 $ \beta_0 + \alpha_0 $ 和对 $ \alpha_0 $ 进行简单的代数求解。

所以，最小内核是：在无多报的前提下，通过一个辅助矩条件（真实均值 $ \mu $ ）将误报概率 $ p $ 识别，再由观测条件分位数不匹配来反解真实分位数系数 $ \alpha_0 $。本文的一般情形只是将这一思路扩展了有协变量的情况，并把 $ p $ 建模为 $ X_i $ 的函数。

三、这篇论文做了什么¶

三句话¶

研究的什么问题：提出并证明了一个在分位数回归框架下，当二元协变量“项目参与”存在内生单侧误报（无多报）时，对该协变量的回归系数进行识别和一致估计的实用方法。
核心工具/方法：采用参数第一阶段模型（假设误报概率是协变量的参数函数，如Logit），并利用关于真实参与率的辅助信息（如总体矩条件）实现参数的点识别；其次，基于一个修正的检查函数（modified check function） 构造第二阶段的分位数回归估计量。
主要结论：理论上证明了该修正的两阶段或联合M估计量具有一致性与渐近正态性；并建立了Bootstrap重抽样推断的渐近有效性。模拟和真实数据应用验证了该方法的有限样本性能与实用性。

关键设定与假设¶

在第二节最小记号的基础上，完整设定如下：

分位数回归模型（第二阶段）:
\[Q_{Y_i | D_i^*, X_i}(\tau) = X_i^\top\beta_0(\tau) + D_i^*\alpha_0(\tau)\]
其中误差项 $ \epsilon_i(\tau) = Y_i - \beta_0(\tau)^\top X_i - \alpha_0(\tau) D_i^ $ 在给定 $ (X_i, D_i^) $ 时，其第 $ \tau $ 分位数为0。
单侧误报结构:
- $P(D_i = 1 | D_i^* = 1, X_i, Z_i) = 1$ （绝不漏报参与）。
- $P(D_i = 0 | D_i^* = 0, X_i, Z_i) = 1$ （绝不虚报参与）。
参数第一阶段模型: 假设 $p_i = P(D_i = 0 | D_i^* = 1, X_i, Z_i) = F(X_i^\top \gamma, Z_i^\top \delta)$，其中 $F(\cdot)$ 是一个已知的逆链接函数（如Logistic函数的累积分布）， $\gamma$ 和 $\delta$ 是未知参数向量。通常，辅助信息（如来自管理记录的总体真实参与率的函数）与$Z_i$相关，并用于为$F$提供一个矩条件，从而使 $ \gamma, \delta $ 可识别，继而在第一阶段得以一致估计。
识别假设：
- (A1) 由第一阶段模型和辅助信息共同构成的总参数是可识别（identified）的。
- 关键假设1（单侧性） 真实参与者不会误报为未参与。
- 关键假设2（参数模型正确） 误报概率的函数形式被正确设定。
- 关键假设3 辅助信息是准确且可用的（如真实均值已知）。
推断假设：用于一致性、渐近正态性和Bootstrap有效性的正则条件：如矩条件、密度函数光滑性、参数空间紧致性等，是这类分位数回归M估计的标准假设，未出现特别放松或加强的条目。唯一需要注意的是，作者假设了第二阶段估计中的“误差密度”（error density）在0附近足够光滑并严格正，这是保证分位数M估计量根号n收敛所需的标准条件。

主要结果¶

这里是基于详述的理论框架，构建的2-3个最关键的理论结果（定理性质）：

定理1 (一致性)：所提出的估计量 $ \hat{\theta}_n = (\hat{\beta}_n(\tau)^\top, \hat{\alpha}_n(\tau))^\top $ 依概率收敛于真实参数 $ \theta_0 $。

定理2 (渐近正态性)：

\[\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, \Omega)\]

其中 $ \Omega $ 是渐近协方差矩阵。这一结果的核心难点在于必须考虑第一阶段参数估计误差对第二阶段分位数回归估计的影响，这导致渐近方差包含一个第二阶段估计本身的方差和一个由第一阶段不确定性产生的额外方差分量。作者证明了这个联合分布可以通过一个类似于“两步M估计”的沙姆效应（influence function）推导出来，并且给出了 $ \Omega $ 的显式形式，其中部分依赖于第一阶段模型的信息矩阵和分位数回归的稀疏函数（sparsity function）。这比标准的分位数回归的渐近正态性更复杂。

定理3 (Bootstrap的渐近有效性)：在适当的正则条件下，采用非参数Bootstrap（样本量为n的原样本中重复抽取得Bootstrap样本），Bootstrap估计量的分布 $ \hat{\mathcal{L}}(\hat{\theta}_n^*) $ 弱收敛于 $ N(0, \Omega) $。这意味着可以通过Bootstrap获得置信区间，从而避免了密度函数等难以直接估计的量的显式计算。

核心直觉：由于第一阶段模型是参数的且正确地被指定，第一阶段估计量是 $\sqrt{n}$ 一致的。只要第二阶段分位数回归的检查函数对第一阶段参数是足够光滑的（或者通过使用类似于两步GMM的理论），第二阶段估计量的不确定性就会在渐近上被平稳地传递下去，不破坏根号n收敛和渐近正态性。Bootstrap有效地“自动”抓取了这种多步不确定性，从而有效。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）： 1. 将估计问题转化为两步M估计：首先，利用矩条件（例如，基于辅助信息的样本均值等于总体均值的方程）通过经典似然或矩估计得到第一阶段参数 $ \hat{\psi}n = \hat{\gamma}_n $ 的一致估计。 2. 构建修正的检查函数：定义一个加权或修正的检查函数 $ \rho{\tau, \hat{\psi}_n}(Y, D, X) $，它依赖于第一阶段的参数估计 $ \hat{\psi}_n $。这个函数的期望恰好等于在真实模型下基于 $ D^ $ 的检查函数的期望。这实质上是用估计出的权重来重构不可观测的真实变量。 3. 一步式联合渐近分析：将第二阶段（分位数回归）的目标函数视为一个基于第一阶段参数估计的随机目标函数。使用标准M估计的渐近分析框架（例如，Newey & McFadden, 1994 或 Pakes & Pollard, 1989）。 4. 关键跳跃点：需要证明第一阶段估计的误差 $ \sqrt{n}(\hat{\psi}_n - \psi_0) $ 对第二阶段目标函数的影响可以用一个影响函数（influence function） 来表达，该影响函数是 $ \psi_0 $ 处目标函数梯度对 $ \psi $ 的导数乘上第一阶段误差。这等价于用“delta方法”或“随机目标函数线性逼近”处理两阶段问题。作者采用了两步M估计的标准技术：在第二阶段目标函数的黑森矩阵（Hessian） 处进行一阶泰勒展开，再利用第一阶段的影响函数与二阶“置换”项进行合并。这是整个证明中最需要技巧、也最精细的地方。 5. Bootstrap有效性：证明Bootstrap版的估计量（基于新样本第一阶段和新样本第二阶段的联合估计）的渐近分布与原分布相同。为了证明这一点，一般需要确保第一阶段估计的Bootstrap版本与原分布相差一个Bootstrap影响函数*，同时第二阶段的目标函数在参数空间上有一致性，从而Bootstrap的成功可以被视为连续映射定理与两步估计一致性结合的结果。

技术技巧点名： - Empirical process / 经验过程理论：用于处理第二阶段目标函数中检查函数（check function）的非光滑性和随机目标函数的上确界一致性。 - U-统计量展开（或M-估计算法线性化）：用于处理二阶项，特别是跨阶段（第一阶段和第二阶段的误差）的交互项。引入表示特征向量的正交逼近，以简化方差计算。 - Delta方法 / 影响函数：核心工作是用影响函数理论拆解两阶段估计的渐近方差，并证明Bootstrap工作。 - 分位数回归的稀疏函数（sparsity function） / 密度函数的估计：用于构造标准分位数回归的布莱克韦尔-费舍尔-克里托夫积分键（BFCK-type 小样本校正），处理第二阶段估计协方差矩阵的显式形式。

真实例子与应用（已明确提及，分析时会详细展开）¶

论文为纯方法论论文，但包括模拟实验和真实数据应用：

模拟实验：模拟了多种数据生成机制，并与简单的未校正分位数回归（Naive estimator，使用观测的 $ D $ 代替 $ D^* $）、以及假设误报外生的回归（若误报比例小且不影响分位数时）做对比。结果显示，本文提出的修正估计量大幅减少了偏误，并具有更接近名义覆盖率的置信区间，特别是在较高分位点（如0.75, 0.9）和较大误报概率时表现尤佳。
真实数据应用：
- 数据场景：使用美国调查数据，具体是国家纵向调查（National Longitudinal Survey, NLS）。
- 估计目标：估计母亲在儿时（女儿幼年时期）的福利项目参与对女儿成年后的收入（采自同次调查的成年时期数据）的代际效应，并且区分不同分位点（如0.1到0.9）。
- 应用方法步骤：首先，利用一个已知的、来自管理数据或权威研究的“母亲世代真实福利参与率”作为辅助矩条件，和观测到的调查数据一起估计第一阶段的漏报参数（假设漏报概率由母亲的教育水平、种族等协变量决定）。然后，将第一阶段的漏报概率估计值用于修正第二阶段的回归，得到在不同分位点上 $ \alpha(\tau) $ 的估计。
- 主要发现：应用结果表明，使用本文提出的方法，母亲福利参与对女儿成年收入的负向效应（尤其是在中低分位点）比Naive估计更大；而在高分位点（如0.9），效应更加显著和显著。作者指出，这恰当地揭示了单侧漏报导致的衰减偏差（attenuation bias）——因为低调漏报组（参与者）对结果的影响被低估，而在高分位点则表现更复杂。
- 例子想说明什么：此例子展示了作者方法相比于简单的处理（用$ D $代替$ D^ $）所具有的实际优势*：在不依赖验证样本且存在普遍调查误报的现实场景中，能够提供更准确的代际效应估计，特别是揭示在不同条件分布下的异质性影响。

🔎结论是否比证明窄¶

是的。论文的所有主要结论（一致性、渐近正态性、Bootstrap有效性）都严格建立在其设定假设之上——即第一阶段参数模型的正确性和单侧误报结构。作者并未证明其在更宽松的假设（如非参数第一阶段模型，或双侧误报）下是否成立。因此，任何声称“该方法应广泛适用”的泛泛说法都应被视为严格的结论。作者在intro末尾的“conjecture”部分（如果存在）可能是对放宽假设方向的推测，但必须作为conjecture处理，而非已证结论。

四、开放问题（点到为止，扎根具体语句）¶

半参数辨识的可行性：本文的识别依赖于一个参数形式的误报模型。能否放松为半参数模型（例如，仅假设误报概率是协变量的未知光滑函数）？如果放弃辅助信息的使用，是否仍能实现点识别？如果不能，如何刻画部分识别的区间？扎根于：论文假设部分关于第一阶段模型形式的假设（"The first stage model is a known parametric form...", assumed in Sec 2）。
效率界的确定：针对此设定，在已有识别策略下，参数 $ \alpha_0(\tau) $ 的半参数效率界（semiparametric efficiency bound）是什么？本文的两阶段估计量是否达到了这一效率界？扎根于：论文“Discussion”部分可能明确将效率界作为未来方向。
当辅助信息不可用时：当不存在管理记录提供 $ E[D^] $ 这一精确矩条件时，能否依靠外部工具变量或面板数据中的个体时间变化来实现识别？扎根于*：论文引言中关于现有方法的文献综述，特别是提到“如果可以使用验证样本...”，这暗示辅助信息稀缺时的替代路径尚未被充分探索。
多重误报类型：本文处理的仅是对参与状态的单侧误报。在更复杂的调查场景中（例如，参与时长或参与强度也被误报），此类模型如何扩展？扎根于：论文讨论部分或引言未提及此类更复杂的误报形态，是一个明显的未覆盖问题。

Maintained by 陈星宇 · Homepage · Source on GitHub