跳转至

Correcting for Endogeneity in Models with Bunching

作者: Carolina Caetano, Gregorio Caetano, Eric Nielsen
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Georgia(US News 前 50,免分进入精读)
链接: https://doi.org/10.1080/07350015.2023.2252471


一、领域脉络与小综述

这个方向是什么

本子方向的核心问题是:当处理变量(treatment variable)的分布在其支撑集的某个角点(corner)存在显著的“堆积”(bunching)时,如何从观测数据中一致地估计和推断内生处理变量的因果效应?“堆积”通常源于处理变量是一个受约束的选择,且部分个体选择了角点解(例如:零消费、零工作时间、零电视时间)。该设定下的内生性根源是:选择“堆积”与否以及堆积的大小,均可能与未观测到的混杂因子相关。

该方向当前的成熟度属于发展中。已有方法要么依赖强排他性限制(如工具变量),要么在无排他性限制时做出强分布假设或产生慢收敛率。本文提出的“形状限制”方法属于在无排他性限制下的一个新分支。

发展脉络(history)

  • 奠基工作:处理选择了内生性。传统处理内生性(含选择)的经典框架是 Heckman (1979) 的样本选择模型(控制函数方法),其依赖误差项的正态性假设和(或)排他性约束。另一个奠基工作是 Wooldridge (2015) 在《计量经济学杂志》的论文,系统梳理了控制函数框架,并指出其在处理内生二元变量时的经典路径:通过第一阶段(如probit)构建广义残差(Generalized Residual),将其纳入第二阶段回归。
  • 主要进展(针对堆积的直接建模)
    • Sasaki & Ura (2022) 是本文最直接的先驱。他们同样处理处理变量有堆积的情形,但提出了一个基于“支持平移”(support shift)的识别策略。作者评价其结论是:“the structural function is identified in the compact interior region of the distribution of U, but can not be identified at the edges”。留下的口子:其估计量收敛速度慢于sqrt(n)(具体为n^(1/6)或类似)。
    • Caetano (2015) 及其后续工作(如Caetano, Caetano & Feliciano, 2022)提出用“分布形状限制”(distributional shape restrictions)——具体为“平行外生性”(parallel exogeneity)——来解决无排他性限制时的内生性问题。其基本思想是:假设结果的未观测异质性(U)对处理变量的条件分布函数(CDF)产生“单调且平行”的平移效应。这构成了本文技术核心的根基。作者评价:“平行外生性”在特定场景下比排他性约束更易满足,并且能解决堆积问题。
  • 当前Frontier & 本文定位

    • 当前Frontier围绕两点:1) 放松排他性限制;2) 处理变量是非连续/混合型分布(含堆积)。Sasaki & Ura (2022) 代表了第一代方法(基于支持平移),但其估计量的收敛速度慢(非sqrt(n)-收敛),且依赖于某种形式的“支持变化”来提供识别信息。
    • 本文定位:作者明确将本文定位为 “不使用排他性限制,且实现sqrt(n)-收敛估计” 的方法,并填补了Sasaki & Ura (2022)留下的“边缘识别缺口”。其创新在于利用 分布形状限制(平行外生性) 替代支持平移,从而不仅恢复了识别性,还改善了估计的收敛性质。
  • Note:作者刻意回避了更为主流的工具变量(IV) 方法作为竞争路线。如果存在一个强有力的、满足排他性的工具变量,堆积问题可以被视为测量误差或一个两阶段分段线性问题。但本文强调的是无可用IV或IV较弱的场景。研究者需自行判断:在自身应用领域,排他性限制(IV)是否比形状限制更容易辩护。

子线索聚类

被引文献(根据intro及作者引用句)大致分为三簇:

  1. 经典控制函数/样本选择(基于正态性/半参数):如 Heckman (1979), Wooldridge (2015)。核心:通过第一阶段(如probit)的广义残差控制内生性。缺陷:依赖误差项的正态性或参数化形式,且排他性限制通常是必要的。
  2. 聚焦于堆积(Bunching)本身的文献
    • Sasaki & Ura (2022): 支持平移策略,但收敛慢。
    • Barseghyan et al. (2021) 等:计量经济学中关于“堆积”的实证和理论文献,研究其来源(如税收引起的拐点)。作者引用它们来论证“堆积是常见现象,且有内在经济机制驱动”。
  3. 弱识别/不规则识别(Non-regular/Weak Identification)及形状限制
    • Caetano (2015) 及其“平行外生性”:提倡用分布形状替代排他性。这是本文的骨架
    • Cattaneo, Jansson & Newey (2022):讨论Kink(拐点)设计的非参数识别。与本文关系:Kink设计也是一种利用分布形状(在kink点处的导数不连续)识别,但需要已知的政策规则;本文假设形状限制无处不在。

核心问题与瓶颈

  • 核心问题1:当处理变量有堆积时,因果效应如何识别(识别帘条件)?答:本文通过假设分布形状(平行外生性)而非排他性,将未观测的U的分布与可观测的T和Y的联合分布联系起来。
  • 核心问题2:识别后的估计量能否达到sqrt(n)-收敛?答:本文证明了可以达到(通过两阶段半参数估计)。
  • 瓶颈:平行外生性假设本身(骨架假设)。它假定处理变量(T)的条件分布函数(CDF across U)仅在位置(location)上发生平移,而形状保持不变。这个假设在何种应用场景下合理?它实际上施加了很强的边际处理效应(MTE)同质性——不同个体在面对U上升一个单位时,其“从堆积中退出”的概率增加幅度是一样的。这在经济学/流行病学中可能是一个严格的约束。

⚠️ 作者的Framing(必须明确标注)

  • 这是作者的说法:作者把缺口frame成一个 “不需要排他性限制,且能恢复sqrt(n)-收敛” 的估计问题,使得本文成为 “无IV但有堆积” 场景下的“显然下一步”。
  • 被淡化或回避的竞争路线
    • 严格参数模型(如Tobit II型模型):如果有信心施加正态性+协方差结构的参数假设,问题本身就是常规的MLE问题,收敛速度是sqrt(n)。作者在文中将此列为“假设更严格”。
    • 基于倾向得分的逆概率加权(IPW)或双重稳健(DR)方法:如果堆积仅发生在处理变量上,且结果模型正确,处理变量分段可看作是缺失数据,可以采用IPW。但IPW依赖强的可忽略性假设(no unconfoundedness),这与作者的内生性设定(存在未观测混杂U)直接冲突。作者全文未提IPW/DR是合理的,因为内生性是其核心假设。
  • 什么明显该被引却没出现? Bun & Harrison (2019)关于“控制函数与IV”的综述,或者是 Imbens & Newey (2009)关于非参数控制函数的论文(他们利用含有连接函数的CDF来恢复U)。Imbens & Newey (2009)也是用形状限制(单调性)来递增识别,但与本文的“不变性”(平行假设)不同。检查一下:如果他们引了Imbens-Newey,应该会讨论两者区别。推测是:本文的平行外生性比Imbens-Newey的单调性更强(不移动形状),但非参数性更弱(假设平行)。研究者需去核查:Imbens & Newey (2009)是否已被本文引用?若没引,是否是一个被绕过的直接竞争方法?

张力

未见明显对立引用。目前的被引工作基本是融洽的——Sasaki & Ura (2022)是前辈,解决不同识别假设下的问题;Caetano (2015)是基础。没有供给上矛盾结论的论文。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚(必做)

  • 命名

    • \( Y \):结果变量(outcome,标量)。
    • \( T \):处理变量(treatment,标量)。注意,\( T \) 的取值范围包含一个堆积点,通常取0。例如,\( T \)可以是看电视的小时数,大量个体看0小时。
    • \( \Delta \):堆积指示器。\( \Delta = 1\{T = 0\} \),如果处理变量在角点堆积。如果处理变量在\( T \)的其他值堆积,类似处理。
    • \( U \):不可观测的异质性(unobservable),是一个标量连续随机变量,是核心内生变量。它与\( T \)\( Y \)都相关。所有因果效应基于\( U \)的条件。
    • \( F_{T|U}(\cdot | u) \):给定\( U = u \)时,\( T \)的条件累积分布函数(CDF)。这是一个关键的对象。
    • \( F_{\Delta|U}(0 | u) = P(T=0|U=u) \),即给定U时的堆积概率。
    • \( m \):结构函数(structural function)。结果方程:\( Y = m(T, U, \epsilon) \),其中\( \epsilon \)是独立于\( (T, U) \)的随机扰动,或经控制函数后可处理为条件独立的扰动。
    • \( g \):形状限制关系(shape restriction relationship)。\( F_{T|U}(t | u) = G(t - f(u), u) \)?不,本文形状限制简化为:\( F_{T|U}(t | u) = K(t - h(u)) \),即\( K \)不依赖\( u \),只依赖一个位置参数\( h(u) \),且\( h \)\( u \)的严格单调函数。这是“平行”的含义。
    • \( X \):外生协变量向量,不影响核心识别逻辑,但可用于效率提升和去除混杂(若存在)。本文框架允许存在,但简洁起见,先忽略。
  • 模型

    • 结果方程:\( Y = m(T, U) + \epsilon \),其中\( \epsilon \perp T, U \)(条件独立于一切)。关键:\( m \)是未知函数,我们关心的是估计因果效应\( \frac{\partial m(T, U)}{\partial T} \)(连续处理)或平均因果效应ACE = \( E[Y(1) - Y(0)] \)(二值处理)。
    • 处理生成机制:\( T = s(U, \eta) \),其中\( \eta \)是与U相关的随机项。然而,本文不估计s,而是直接利用平行外生性假设来恢复U。
    • 可观测数据:研究者观测到的是一组i.i.d.样本:\( \{Y_i, T_i, X_i\}_{i=1}^n \)唯一不可观测的是\( U \)。堆积效应体现在:数据分布中\( T=0 \)的观测比例显著高于一个基于潜变量连续分布所预期的比例。
    • 想要但观测不到的量:核心是\( U \)(潜变量)和\( m(T, U) \)中的相互作用。由于\( T \)\( U \)相关,直接回归\( Y \) on \( T \)是有偏的。

第二步:最小内核(破坏假设、找最简特例)

最简特例:假设处理变量是二值的,堆积在\( T=0 \),且结果方程是线性的\( Y = \alpha + \beta T + U + \epsilon \)。去掉协变量\( X \)。核心是想识别因果参数\( \beta \)

在这个特例下,步骤是什么?

  1. 堆积识别\( \Delta = 1\{T=0\} \)。可观测的概率是\( P(T=0) \)。但因为内生性,不知道\( P(T=0 | U=u) \)。但根据形状限制(平行外生性):

    • 关键假设(形状限制):给定一个单调函数\( h \)\( P(T=0 | U=u) = K( u - h(0) ) \)的形式(较一般化的形式)。更简单的版本是:存在一个严格单调的变换,使得\( U \)\( T \)的分布的影响仅仅是位置的平移。即:\( F_{T|U}(t|u) = \Phi(t - u) \),其中\( \Phi \)是某个单调递增的函数(例如标准正态CDF)。这个假设意味着,随着\( U \)的增加,整个\( T \)的分布向右平移,且形状不变。
    • 识别核心:在这个假设下,如何基于可观测的\( Y \)\( T \)恢复\( U \)?不行——因为\( U \)不可观测。但是,我们可以通过堆积点(T=0) 来识别\( U \)的分位数。
    • 具体操作:观察\( T=0 \)的堆积。令\( q = P(T=0) \)(总堆积率)。由于平行外生性,\( P(T=0|U=u) = \Phi(0 - u) = \Phi(-u) \)。因此,在人群中的概率:\( q = \int \Phi(-u) dF_U(u) \)。如果\( F_U \)均匀分布(可以标准化为[0,1]),那么\( q = \int_0^1 \Phi(-u) du \)。这本身不直接解决内生性。

    • 本文的关键视角:不直接解出\( u \),而是利用控制函数:构造一个广义残差(generalized residual),记为\( V \),这个V是\( P(T=0 | U) \)的反函数或某种分位数。

      • 观察堆积点\( T=0 \)。对于所有\( T>0 \)的观测,其U不能太大(否则不会选择堆积)。但U的具体值未知。
      • 核心思想:平行外生性保证了U在可观测的T上的条件分布是一对一的。例如,在\( T>0 \)的区域,即非堆积点中,U是T的严格单调函数:\( U = h(T) \),其中h是某未知但严格增的函数。由于平行性,这个h完全由\( G^{-1}(T) \)决定——但是G未知。
      • 怎么办? 作者利用了一个关键关系:在非堆积点(T>0),U是T的单调变换。因此,我们可以通过T的分布与U的分布之间的“形状不变”关系来恢复U。具体地,对于任何可观测的t,\( U = F_{T|U}^{-1}(t | U) \)?不对,U是未知的。但我们可以用分位点转换:假设U在(0,1)上均匀分布,那么n个观测的U值是其在(0,1)上的顺序统计量吗?不行,选择性使得U的分布被截断了(有T=0的观测被排除)。
    • 最小内核的最终简化:在一篇更早同作者的文章(Caetano 2015)中,最小内核归结为:通过比较堆积群和非堆积群的可观测特征(如Y的条件均值),并结合单调性(T和U的关系在非堆积区域是单调的),识别出U对结果的效应。具体到本文,他们构建了一个控制函数,这个控制函数是条件密度函数\( f(T|U) \)的某种归一化分数
    • 一句话归纳:最小内核是“利用平行形状假设,通过\( T>0 \)时的变量值来构造一个潜变量U的代理变量(控制函数)”,这个代理变量与结果方程中的未观测混杂U完美相关(因为假设T由U唯一决定),从而可以将其插入结果方程(如线性或半参数模型)中以消除偏倚。

    • 数学难点在于:U的连续性和单调性关系仅在连续处理下成立。当处理是离散或部分连续(堆积)时,必须处理堆积点带来的退化——这正式的恢复路径是通过估计\( P(T=0 | U) \)这个概率函数,然后取\( \Phi^{-1}(P(T=0 | U)) \)作为控制函数,从而将堆积点的信息也纳入控制函数中。(平行外生性保证了\( P(T=0|U) \)是U的单调函数。)


三、这篇论文做了什么(重心)

三句话

  • 研究了什么问题:在处理变量支撑集一角存在堆积(bunching)时,如何在不使用排他性限制(IV)的条件下,利用分布形状限制识别并估计因果效应。
  • 核心工具/方法:提出了一种两步控制函数法。第一步:半参数地估计堆积概率(即给定U下的T=0的概率),构造出一个广义控制函数(其本质是潜变量U在堆积区间的分位数)。第二步:将估计出的控制函数加入结果方程,得到因果参数的一致估计。
  • 主要结论:1) 在平行外生性假设下,因果结构函数在堆积点处也被识别(这是比Sasaki & Ura 2022的推进);2) 所提出的两阶段估计量是渐近正态的,且收敛速率为\( \sqrt{n} \)(不牺牲速度);3) Bootstrap程序可用于构建有效置信区间;4) 提出了针对识别假设(平行外生性)的检验程序。

关键设定与假设

  • 堆积定义:处理变量\( T \)的分布在其支撑集一角(设为0)有堆积,即\( P(T=0) > 0 \)
  • 主要假设(平行外生性,Parallel Exogeneity)
    • 形状限制\( F_{T|U}(t | u) \)\( u \)方向是“平行”的。具体地,存在一个单调函数\( c \)和位置函数\( v(u) \)使得:\( F_{T|U}(t | u) = G( t - v(u) ) \),或更一般地,\( T \)的完整分布由某个索引(index)和单调未知函数控制。即U只影响T分布的位置,不影响形状。这是识别的基础。
    • 共同支持:U和T之间有某种共同支持/关系(通常U的分布支持不是离散的)。
    • 严单调(Strict Monotonicity):在非堆积区域,即\( T>0 \)\( T \)是U的严格单调函数。这意味着对于任何观测\( T_i,T_j>0 \)\( T_i < T_j \)意味着\( U_i < U_j \)
  • 外生协变量X:所有假设可能包含X的条件形式。估计方程通过半参数方法(如核估计)利用X。
  • 与Sasaki & Ura (2022)的对比:Sasaki & Ura依靠的是\( \frac{d}{dt} F_T(t|u) \)(条件密度)的点有界性来识别,这要求U的分布支持在堆叠区域有所变化。本文通过平行外生性,避免了对支持变化的依赖,直接识别U。

主要结果(有三个核心定理,理论型)

  • 定理1(识别性):在平行外生性假设下,结构函数\( m(T, U) \)在堆积区域(T=0)外是可识别的,且在堆积点T=0也是可识别的(挑战Sasaki & Ura的结论)。直觉:平行外生性允许我们将堆积点处的信息(即概率质量)与U的对应部分联系起来;Sasaki & Ura的“支持平移”只在边界处失效,而平行外生性在边界处也生效。
  • 定理2(渐近正态性):提出并分析了两阶段半参数估计量。估计量的收敛速度是\( \sqrt{n} \)核心难点:估计量涉及第一阶段的非参数估计(估计条件概率\( P(T=0|U) \)),其偏差需要在第二阶段通过适当的退化(undersmoothing)或偏差校正来处理。证明使用了经验过程理论(Empirical Process)U-statistics展开必要条件:第一阶段核估计的带宽需要比经典最优带宽更小,以实现偏差的核外补偿(这通常意味着估计量是次优收敛,但没有牺牲收敛速率——即\( \sqrt{n} \)收敛)。
    • 补充细节:作者提到“残差项是以\( o_p(n^{-1/4}) \)速度收敛”,这是通过两次Bootstrap来验证的。
  • 定理3(Bootstrap一致性):作者证明了采用普通bootstrap(非野生bootstrap) 的程序对构建的统计量是有效的。这对于两阶段估计的实际操作和置信区间构造至关重要,因为标准误差公式很复杂。
  • 识别假设检验:基于“平行外生性”和“单调性”,提出了一个过识别检验程序(over-identification test)。核心逻辑:如果平行外生性成立,那么基于不同分位点的T值估计出的“控制函数”应该给出相似的\( U \)排名结果;如果不成立,则会产生矛盾。检验统计量是分段估计参数间的差异的某种范数。

证明路线与技术技巧(理论型必写)

整体路线(三步主逻辑): 1. 阶段一:控制函数的构建。基于平行外生性,首先将处理变量\( T \)的条件分布\( F_{T|U}(t|u) \)分解为“平行形式”。通过观察堆积点(T=0)的概率\( P(T=0|U) \),作者将其转化为一个广义残差\( V \)。实际上,\( V \)定义为\( \Phi^{-1}(P(T=0|U)) \)(如果假设正态分布函数),或者更一般地,一个单调变换。这个\( V \)等价于在堆积区域内的\( U \)的某种标准化版本,或等价于一个自锚定变量。在这个设置下,构造了一个核估计量来估计\( P(T=0 | U) \),从而得到V。 * 技术难点:U是不可观测的,如何估计\( P(T=0|U) \)?答案:通过可观测的\( T \)的支撑集(非堆积部分)加上平行外生性,作者证明了V等于某个已知函数的求逆(类似于用可观测的T对可观测的Y进行分位匹配)。具体地,构造\( \hat{V}_i \) 作为第一阶段半参数估计的输出。 2. 阶段二:结果方程估计。将第一阶段的估计量\( \hat{V}_i \)当作已知的代理变量,放入结果方程\( Y_i = \beta T_i + \gamma \hat{V}_i + ... \)(线性情形)。由于\( V_i \)捕捉了全部的混杂效应(因为U的影响都通过V表现了),那么\( T_i \)的系数\( \beta \)对于内生性是一致的(即\( \beta \)是一致的因果效应估计)。 * 关键跳跃点:为什么插入V消除了内生性?因为平行外生性+单调性保证了,在控制累积概率V后,处理变量T与误差项(U)的条件独立成立(类似于控制函数法的经典原理)。证明依赖于:\( P(T=0 | U) \)是U的函数,U是V的单调变换,所以在第二阶段,T和U的关系中“内生部分”完全被V吸收。 3. 渐近分析(主要贡献): * 偏差分析:作者将最终的估计量的偏差分解为: * 抽样误差(来自第二阶段的回归)。 * 第一阶段的估计误差(\( \hat{V} - V \))。 * 核心技巧:利用经验过程U-统计量的投影(Hájek projection),将第一阶段误差对第二阶段的影响“线形化”(approximated by an i.i.d. average)。具体地,将最终的估计量\( \hat{\beta} \)表示为:

\[\sqrt{n}(\hat{\beta} - \beta_0) = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \psi(Z_i, m(\cdot), \beta_0) + o_p(1)\]
其中\( \psi \)是影响函数(Influence Function)。证明的关键在于找到合适的核函数使得第一阶段的留一估计(leave-one-out)可以通过一阶展开(类似于去中心化)被吸收,且没有导致主占优项(first-order dominant term)被污染。 * 难点:验证Donsker(或类型2)类条件,确保第一阶段估计的弱点能被经验过程控制,从而保证第二阶段的渐近正态性。

技术技巧点名: * 半参数估计理论:整体框架是半参数的(参数部分\( \beta \))。 * 经验过程理论(Empirical Process):用来统一处理第一阶段非参数估计量\( \hat{V} \)的随机性,并通过败、斜、斯等式控制其影响。作者明确提到用“Donsker类”假设控制第一阶段的随机误差。 * 高阶U-统计量展开:由于第二阶段回归的估计方程通常涉及U-统计量(检验两阶段残差的某种均值结构)。通过高阶展开分解U-统计量,如Herrmann(1998)用于偏差项。 * 留一法(Leave-one-out):用于构造第一阶段的预测\( \hat{V}_i \),以避免过度拟合(overfitting)和负偏置,这在伪变量回归中常见(如贝叶斯核回归)。 * Bootstrap收敛性:利用Bootstrap的Edgeworth展开或基于估计的影响函数(EIF的Bootstrap版本)来证明Bootstrap估计量的后验分布近似于真实分布。

真实例子与实证(有!)

  • 数据:Panel Study of Income Dynamics (PSID) 数据,研究儿童看电视时间对认知技能和非认知技能的影响
  • 内生性理由:看电视时间是家庭选择(内生),例如父母的教育水平、对子女的意愿等决定。看电视时间存在堆积(大量儿童看0小时电视,还有大量看2-3小时)。
  • 方法应用
    • 第一步:用半参数模型(Probit或核密度)拟合孩子看电视时间是否为0的概率,基于父母特征(收入、教育)和儿童特征。
    • 第二步:将第一步得到的广义残差(控制函数)\( \hat{V} \)加入线性结果方程,控制内生性。结果方程是:认知技能/非认知技能 ~ 电视时间 + 控制函数 \( \hat{V} \) + 其他外生X。
    • 使用的处理:电视时间(连续)。
  • 结果
    • 看电视对儿童认知技能无显著效应(点估计为微小正相关,但不显著)。
    • 对非认知技能有显著的负效应(看电视时间增加1小时,非认知得分下降若干分,显著)。
  • 例子想说明什么

    1. 展示方法在真实数据场景中的可行性:电视时间堆积是典型场景(0小时与几小时的分布特征),传统IV困难(缺乏好的工具变量),本文方法解决了这个问题。
    2. 验证理论模拟结果:模拟显示当平行外生性假设成立时,方法表现良好,真实数据结论符合预期(理论上,电视可能打击非认知能力但阅读时间对认知无害)。
    3. 对比OLS的偏误:标准的OLS回归可能因为内生性给出有偏估计(本文未做对比,但由此出发:即使OLS给出正相关,控制函数后变为无/负,说明OLS向上偏)。
  • 数据特征:使用了数千个儿童-年份观测。

🔎 结论是否比证明窄

。 * 定理中的识别方案依赖于平行外生性的严格形状限制(U只影响位置)。但实证例子中,隐式使用了更强的、外生协变量X也是可加独立的假设。作者在结论和模拟中虽然讨论了对X的放松,但正式证明集中在“无X”或“X使形状平行”的简化情况。在某些角落提到:“multiple X... if parallel exogeneity holds conditional on X, the method is straightforward”——但并未给出X为该假设下的完整证明。 * 估计量的渐近方差表达式虽然在文中给出,但未被证明是最优(efficient)。文中未讨论半参数效率界。这意味着该估计量在类控制函数设定下可能不是Anecharico的。 * 对于堆积点的识别,作者声称“当T=0时,U的分布也被识别”,但实际证明的“识别”是指通过平行分布形状推出U在0处的极限(limiting value),而非完全恢复U。这在非参数阶段需要额外的正则条件(如U的密度在边界处非零)。


四、开放问题(点到为止,扎根语句)

  1. 扩展至完全非参数的模型:本文的结果方程是线性/半参数的(\( E[Y|T,U] = \beta T + g(U) \))。但假设结果方程为完全非参数形式\( E[Y|T,U] = m(T,U) \)时,在堆积点处是否能识别?作者在第四节的limitation中明确说要“扩展到完全非参数模型”。扎根于:论文第四部分“Future work”讨论。(原文大意:我们的识别主要对线性/可加模型有效,完全非参数是一个挑战)
  2. 处理变量是连续的但有堆积时的情形:作者假设处理变量在0点外面是连续的(用于单调性)。如果处理变量本身是分段常数(如离散的几个点),平行外生性是否直接导出控制函数?这需要进一步研究。扎根于:假设2:“strict monotonicity of T in U for T>0”,要求T>0区域是连续且有界内点支撑。如果T是离散,此假设不成立。
  3. 对平行外生性假设的检验的扩展:本文提出了一个对这些假设的检验(基于一个过识别条件)。但检验是否对U的高阶矩形状限制敏感?能否发展一个更简单的基于矩的检验(如Hausman类型检验)?扎根于:论文Section 5.3的检验程序,它是基于分位回归的散乱统计量。
  4. 半参数效率界:本文未给出控制函数估计量的效率界。对于给定形状限制的设定,最优收敛速率是什么?是否存在比目前估计量更简单且更有效的估计方法(如直接条件矩估计而非两步法)?扎根于:全文未出现“efficient”、“semiparametric efficiency bound”一词,这是计量经济学论文里一个显著的空白。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论