Correcting for Endogeneity in Models with Bunching¶

作者: Carolina Caetano, Gregorio Caetano, Eric Nielsen
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Georgia（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/07350015.2023.2252471

一、领域脉络与小综述¶

这个方向是什么¶

本子方向的核心问题是：当处理变量（treatment variable）的分布在其支撑集的某个角点（corner）存在显著的“堆积”（bunching）时，如何从观测数据中一致地估计和推断内生处理变量的因果效应？“堆积”通常源于处理变量是一个受约束的选择，且部分个体选择了角点解（例如：零消费、零工作时间、零电视时间）。该设定下的内生性根源是：选择“堆积”与否以及堆积的大小，均可能与未观测到的混杂因子相关。

该方向当前的成熟度属于发展中。已有方法要么依赖强排他性限制（如工具变量），要么在无排他性限制时做出强分布假设或产生慢收敛率。本文提出的“形状限制”方法属于在无排他性限制下的一个新分支。

发展脉络（history）¶

奠基工作：处理选择了内生性。传统处理内生性（含选择）的经典框架是 Heckman (1979) 的样本选择模型（控制函数方法），其依赖误差项的正态性假设和（或）排他性约束。另一个奠基工作是 Wooldridge (2015) 在《计量经济学杂志》的论文，系统梳理了控制函数框架，并指出其在处理内生二元变量时的经典路径：通过第一阶段（如probit）构建广义残差（Generalized Residual），将其纳入第二阶段回归。
主要进展（针对堆积的直接建模）：
- Sasaki & Ura (2022) 是本文最直接的先驱。他们同样处理处理变量有堆积的情形，但提出了一个基于“支持平移”（support shift）的识别策略。作者评价其结论是：“the structural function is identified in the compact interior region of the distribution of U, but can not be identified at the edges”。留下的口子：其估计量收敛速度慢于sqrt(n)（具体为n^(1/6)或类似）。
- Caetano (2015) 及其后续工作（如Caetano, Caetano & Feliciano, 2022）提出用“分布形状限制”（distributional shape restrictions）——具体为“平行外生性”（parallel exogeneity）——来解决无排他性限制时的内生性问题。其基本思想是：假设结果的未观测异质性（U）对处理变量的条件分布函数（CDF）产生“单调且平行”的平移效应。这构成了本文技术核心的根基。作者评价：“平行外生性”在特定场景下比排他性约束更易满足，并且能解决堆积问题。
当前Frontier & 本文定位：
- 当前Frontier围绕两点：1) 放松排他性限制；2) 处理变量是非连续/混合型分布（含堆积）。Sasaki & Ura (2022) 代表了第一代方法（基于支持平移），但其估计量的收敛速度慢（非sqrt(n)-收敛），且依赖于某种形式的“支持变化”来提供识别信息。
- 本文定位：作者明确将本文定位为 “不使用排他性限制，且实现sqrt(n)-收敛估计” 的方法，并填补了Sasaki & Ura (2022)留下的“边缘识别缺口”。其创新在于利用 分布形状限制（平行外生性） 替代支持平移，从而不仅恢复了识别性，还改善了估计的收敛性质。
Note：作者刻意回避了更为主流的工具变量（IV） 方法作为竞争路线。如果存在一个强有力的、满足排他性的工具变量，堆积问题可以被视为测量误差或一个两阶段分段线性问题。但本文强调的是无可用IV或IV较弱的场景。研究者需自行判断：在自身应用领域，排他性限制（IV）是否比形状限制更容易辩护。

子线索聚类¶

被引文献（根据intro及作者引用句）大致分为三簇：

经典控制函数/样本选择（基于正态性/半参数）：如 Heckman (1979), Wooldridge (2015)。核心：通过第一阶段（如probit）的广义残差控制内生性。缺陷：依赖误差项的正态性或参数化形式，且排他性限制通常是必要的。
聚焦于堆积（Bunching）本身的文献：
- Sasaki & Ura (2022): 支持平移策略，但收敛慢。
- Barseghyan et al. (2021) 等：计量经济学中关于“堆积”的实证和理论文献，研究其来源（如税收引起的拐点）。作者引用它们来论证“堆积是常见现象，且有内在经济机制驱动”。
弱识别/不规则识别（Non-regular/Weak Identification）及形状限制：
- Caetano (2015) 及其“平行外生性”：提倡用分布形状替代排他性。这是本文的骨架。
- Cattaneo, Jansson & Newey (2022)：讨论Kink（拐点）设计的非参数识别。与本文关系：Kink设计也是一种利用分布形状（在kink点处的导数不连续）识别，但需要已知的政策规则；本文假设形状限制无处不在。

核心问题与瓶颈¶

核心问题1：当处理变量有堆积时，因果效应如何识别（识别帘条件）？答：本文通过假设分布形状（平行外生性）而非排他性，将未观测的U的分布与可观测的T和Y的联合分布联系起来。
核心问题2：识别后的估计量能否达到sqrt(n)-收敛？答：本文证明了可以达到（通过两阶段半参数估计）。
瓶颈：平行外生性假设本身（骨架假设）。它假定处理变量（T）的条件分布函数（CDF across U）仅在位置（location）上发生平移，而形状保持不变。这个假设在何种应用场景下合理？它实际上施加了很强的边际处理效应（MTE）同质性——不同个体在面对U上升一个单位时，其“从堆积中退出”的概率增加幅度是一样的。这在经济学/流行病学中可能是一个严格的约束。

⚠️ 作者的Framing（必须明确标注）¶

这是作者的说法：作者把缺口frame成一个 “不需要排他性限制，且能恢复sqrt(n)-收敛” 的估计问题，使得本文成为 “无IV但有堆积” 场景下的“显然下一步”。
被淡化或回避的竞争路线：
- 严格参数模型（如Tobit II型模型）：如果有信心施加正态性+协方差结构的参数假设，问题本身就是常规的MLE问题，收敛速度是sqrt(n)。作者在文中将此列为“假设更严格”。
- 基于倾向得分的逆概率加权（IPW）或双重稳健（DR）方法：如果堆积仅发生在处理变量上，且结果模型正确，处理变量分段可看作是缺失数据，可以采用IPW。但IPW依赖强的可忽略性假设（no unconfoundedness），这与作者的内生性设定（存在未观测混杂U）直接冲突。作者全文未提IPW/DR是合理的，因为内生性是其核心假设。
什么明显该被引却没出现？ Bun & Harrison (2019)关于“控制函数与IV”的综述，或者是 Imbens & Newey (2009)关于非参数控制函数的论文（他们利用含有连接函数的CDF来恢复U）。Imbens & Newey (2009)也是用形状限制（单调性）来递增识别，但与本文的“不变性”（平行假设）不同。检查一下：如果他们引了Imbens-Newey，应该会讨论两者区别。推测是：本文的平行外生性比Imbens-Newey的单调性更强（不移动形状），但非参数性更弱（假设平行）。研究者需去核查：Imbens & Newey (2009)是否已被本文引用？若没引，是否是一个被绕过的直接竞争方法？

张力¶

未见明显对立引用。目前的被引工作基本是融洽的——Sasaki & Ura (2022)是前辈，解决不同识别假设下的问题；Caetano (2015)是基础。没有供给上矛盾结论的论文。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚（必做）¶

命名：
- \( Y \)：结果变量（outcome，标量）。
- \( T \)：处理变量（treatment，标量）。注意，\( T \) 的取值范围包含一个堆积点，通常取0。例如，\( T \)可以是看电视的小时数，大量个体看0小时。
- \( \Delta \)：堆积指示器。\( \Delta = 1\{T = 0\} \)，如果处理变量在角点堆积。如果处理变量在\( T \)的其他值堆积，类似处理。
- \( U \)：不可观测的异质性（unobservable），是一个标量连续随机变量，是核心内生变量。它与\( T \)和\( Y \)都相关。所有因果效应基于\( U \)的条件。
- \( F_{T|U}(\cdot | u) \)：给定\( U = u \)时，\( T \)的条件累积分布函数（CDF）。这是一个关键的对象。
- \( F_{\Delta|U}(0 | u) = P(T=0|U=u) \)，即给定U时的堆积概率。
- \( m \)：结构函数（structural function）。结果方程：\( Y = m(T, U, \epsilon) \)，其中\( \epsilon \)是独立于\( (T, U) \)的随机扰动，或经控制函数后可处理为条件独立的扰动。
- \( g \)：形状限制关系（shape restriction relationship）。\( F_{T|U}(t | u) = G(t - f(u), u) \)？不，本文形状限制简化为：\( F_{T|U}(t | u) = K(t - h(u)) \)，即\( K \)不依赖\( u \)，只依赖一个位置参数\( h(u) \)，且\( h \)是\( u \)的严格单调函数。这是“平行”的含义。
- \( X \)：外生协变量向量，不影响核心识别逻辑，但可用于效率提升和去除混杂（若存在）。本文框架允许存在，但简洁起见，先忽略。
模型：
- 结果方程：\( Y = m(T, U) + \epsilon \)，其中\( \epsilon \perp T, U \)（条件独立于一切）。关键：\( m \)是未知函数，我们关心的是估计因果效应\( \frac{\partial m(T, U)}{\partial T} \)（连续处理）或平均因果效应ACE = \( E[Y(1) - Y(0)] \)（二值处理）。
- 处理生成机制：\( T = s(U, \eta) \)，其中\( \eta \)是与U相关的随机项。然而，本文不估计s，而是直接利用平行外生性假设来恢复U。
- 可观测数据：研究者观测到的是一组i.i.d.样本：\( \{Y_i, T_i, X_i\}_{i=1}^n \)。唯一不可观测的是\( U \)。堆积效应体现在：数据分布中\( T=0 \)的观测比例显著高于一个基于潜变量连续分布所预期的比例。
- 想要但观测不到的量：核心是\( U \)（潜变量）和\( m(T, U) \)中的相互作用。由于\( T \)和\( U \)相关，直接回归\( Y \) on \( T \)是有偏的。

第二步：最小内核（破坏假设、找最简特例）¶

最简特例：假设处理变量是二值的，堆积在\( T=0 \)，且结果方程是线性的：\( Y = \alpha + \beta T + U + \epsilon \)。去掉协变量\( X \)。核心是想识别因果参数\( \beta \)。

在这个特例下，步骤是什么？

堆积识别：\( \Delta = 1\{T=0\} \)。可观测的概率是\( P(T=0) \)。但因为内生性，不知道\( P(T=0 | U=u) \)。但根据形状限制（平行外生性）：
- 关键假设（形状限制）：给定一个单调函数\( h \)，\( P(T=0 | U=u) = K( u - h(0) ) \)的形式（较一般化的形式）。更简单的版本是：存在一个严格单调的变换，使得\( U \)对\( T \)的分布的影响仅仅是位置的平移。即：\( F_{T|U}(t|u) = \Phi(t - u) \)，其中\( \Phi \)是某个单调递增的函数（例如标准正态CDF）。这个假设意味着，随着\( U \)的增加，整个\( T \)的分布向右平移，且形状不变。
- 识别核心：在这个假设下，如何基于可观测的\( Y \)和\( T \)恢复\( U \)？不行——因为\( U \)不可观测。但是，我们可以通过堆积点（T=0） 来识别\( U \)的分位数。
- 具体操作：观察\( T=0 \)的堆积。令\( q = P(T=0) \)（总堆积率）。由于平行外生性，\( P(T=0|U=u) = \Phi(0 - u) = \Phi(-u) \)。因此，在人群中的概率：\( q = \int \Phi(-u) dF_U(u) \)。如果\( F_U \)均匀分布（可以标准化为[0,1]），那么\( q = \int_0^1 \Phi(-u) du \)。这本身不直接解决内生性。
- 本文的关键视角：不直接解出\( u \)，而是利用控制函数：构造一个广义残差（generalized residual），记为\( V \)，这个V是\( P(T=0 | U) \)的反函数或某种分位数。
  - 观察堆积点\( T=0 \)。对于所有\( T>0 \)的观测，其U不能太大（否则不会选择堆积）。但U的具体值未知。
  - 核心思想：平行外生性保证了U在可观测的T上的条件分布是一对一的。例如，在\( T>0 \)的区域，即非堆积点中，U是T的严格单调函数：\( U = h(T) \)，其中h是某未知但严格增的函数。由于平行性，这个h完全由\( G^{-1}(T) \)决定——但是G未知。
  - 怎么办？ 作者利用了一个关键关系：在非堆积点（T>0），U是T的单调变换。因此，我们可以通过T的分布与U的分布之间的“形状不变”关系来恢复U。具体地，对于任何可观测的t，\( U = F_{T|U}^{-1}(t | U) \)？不对，U是未知的。但我们可以用分位点转换：假设U在(0,1)上均匀分布，那么n个观测的U值是其在(0,1)上的顺序统计量吗？不行，选择性使得U的分布被截断了（有T=0的观测被排除）。
- 最小内核的最终简化：在一篇更早同作者的文章（Caetano 2015）中，最小内核归结为：通过比较堆积群和非堆积群的可观测特征（如Y的条件均值），并结合单调性（T和U的关系在非堆积区域是单调的），识别出U对结果的效应。具体到本文，他们构建了一个控制函数，这个控制函数是条件密度函数\( f(T|U) \)的某种归一化分数。
- 一句话归纳：最小内核是“利用平行形状假设，通过\( T>0 \)时的变量值来构造一个潜变量U的代理变量（控制函数）”，这个代理变量与结果方程中的未观测混杂U完美相关（因为假设T由U唯一决定），从而可以将其插入结果方程（如线性或半参数模型）中以消除偏倚。
- 数学难点在于：U的连续性和单调性关系仅在连续处理下成立。当处理是离散或部分连续（堆积）时，必须处理堆积点带来的退化——这正式的恢复路径是通过估计\( P(T=0 | U) \)这个概率函数，然后取\( \Phi^{-1}(P(T=0 | U)) \)作为控制函数，从而将堆积点的信息也纳入控制函数中。（平行外生性保证了\( P(T=0|U) \)是U的单调函数。）

三、这篇论文做了什么（重心）¶

三句话¶

研究了什么问题：在处理变量支撑集一角存在堆积（bunching）时，如何在不使用排他性限制（IV）的条件下，利用分布形状限制识别并估计因果效应。
核心工具/方法：提出了一种两步控制函数法。第一步：半参数地估计堆积概率（即给定U下的T=0的概率），构造出一个广义控制函数（其本质是潜变量U在堆积区间的分位数）。第二步：将估计出的控制函数加入结果方程，得到因果参数的一致估计。
主要结论：1) 在平行外生性假设下，因果结构函数在堆积点处也被识别（这是比Sasaki & Ura 2022的推进）；2) 所提出的两阶段估计量是渐近正态的，且收敛速率为\( \sqrt{n} \)（不牺牲速度）；3) Bootstrap程序可用于构建有效置信区间；4) 提出了针对识别假设（平行外生性）的检验程序。

关键设定与假设¶

堆积定义：处理变量\( T \)的分布在其支撑集一角（设为0）有堆积，即\( P(T=0) > 0 \)。
主要假设（平行外生性，Parallel Exogeneity）：
- 形状限制：\( F_{T|U}(t | u) \)在\( u \)方向是“平行”的。具体地，存在一个单调函数\( c \)和位置函数\( v(u) \)使得：\( F_{T|U}(t | u) = G( t - v(u) ) \)，或更一般地，\( T \)的完整分布由某个索引（index）和单调未知函数控制。即U只影响T分布的位置，不影响形状。这是识别的基础。
- 共同支持：U和T之间有某种共同支持/关系（通常U的分布支持不是离散的）。
- 严单调（Strict Monotonicity）：在非堆积区域，即\( T>0 \)，\( T \)是U的严格单调函数。这意味着对于任何观测\( T_i,T_j>0 \)，\( T_i < T_j \)意味着\( U_i < U_j \)。
外生协变量X：所有假设可能包含X的条件形式。估计方程通过半参数方法（如核估计）利用X。
与Sasaki & Ura (2022)的对比：Sasaki & Ura依靠的是\( \frac{d}{dt} F_T(t|u) \)（条件密度）的点有界性来识别，这要求U的分布支持在堆叠区域有所变化。本文通过平行外生性，避免了对支持变化的依赖，直接识别U。

主要结果（有三个核心定理，理论型）¶

定理1（识别性）：在平行外生性假设下，结构函数\( m(T, U) \)在堆积区域（T=0）外是可识别的，且在堆积点T=0也是可识别的（挑战Sasaki & Ura的结论）。直觉：平行外生性允许我们将堆积点处的信息（即概率质量）与U的对应部分联系起来；Sasaki & Ura的“支持平移”只在边界处失效，而平行外生性在边界处也生效。
定理2（渐近正态性）：提出并分析了两阶段半参数估计量。估计量的收敛速度是\( \sqrt{n} \)。核心难点：估计量涉及第一阶段的非参数估计（估计条件概率\( P(T=0|U) \)），其偏差需要在第二阶段通过适当的退化（undersmoothing）或偏差校正来处理。证明使用了经验过程理论（Empirical Process） 和U-statistics展开。必要条件：第一阶段核估计的带宽需要比经典最优带宽更小，以实现偏差的核外补偿（这通常意味着估计量是次优收敛，但没有牺牲收敛速率——即\( \sqrt{n} \)收敛）。
- 补充细节：作者提到“残差项是以\( o_p(n^{-1/4}) \)速度收敛”，这是通过两次Bootstrap来验证的。
定理3（Bootstrap一致性）：作者证明了采用普通bootstrap（非野生bootstrap） 的程序对构建的统计量是有效的。这对于两阶段估计的实际操作和置信区间构造至关重要，因为标准误差公式很复杂。
识别假设检验：基于“平行外生性”和“单调性”，提出了一个过识别检验程序（over-identification test）。核心逻辑：如果平行外生性成立，那么基于不同分位点的T值估计出的“控制函数”应该给出相似的\( U \)排名结果；如果不成立，则会产生矛盾。检验统计量是分段估计参数间的差异的某种范数。

证明路线与技术技巧（理论型必写）¶

整体路线（三步主逻辑）： 1. 阶段一：控制函数的构建。基于平行外生性，首先将处理变量\( T \)的条件分布\( F_{T|U}(t|u) \)分解为“平行形式”。通过观察堆积点（T=0）的概率\( P(T=0|U) \)，作者将其转化为一个广义残差\( V \)。实际上，\( V \)定义为\( \Phi^{-1}(P(T=0|U)) \)（如果假设正态分布函数），或者更一般地，一个单调变换。这个\( V \)等价于在堆积区域内的\( U \)的某种标准化版本，或等价于一个自锚定变量。在这个设置下，构造了一个核估计量来估计\( P(T=0 | U) \)，从而得到V。 * 技术难点：U是不可观测的，如何估计\( P(T=0|U) \)？答案：通过可观测的\( T \)的支撑集（非堆积部分）加上平行外生性，作者证明了V等于某个已知函数的求逆（类似于用可观测的T对可观测的Y进行分位匹配）。具体地，构造\( \hat{V}_i \) 作为第一阶段半参数估计的输出。 2. 阶段二：结果方程估计。将第一阶段的估计量\( \hat{V}_i \)当作已知的代理变量，放入结果方程\( Y_i = \beta T_i + \gamma \hat{V}_i + ... \)（线性情形）。由于\( V_i \)捕捉了全部的混杂效应（因为U的影响都通过V表现了），那么\( T_i \)的系数\( \beta \)对于内生性是一致的（即\( \beta \)是一致的因果效应估计）。 * 关键跳跃点：为什么插入V消除了内生性？因为平行外生性+单调性保证了，在控制累积概率V后，处理变量T与误差项（U）的条件独立成立（类似于控制函数法的经典原理）。证明依赖于：\( P(T=0 | U) \)是U的函数，U是V的单调变换，所以在第二阶段，T和U的关系中“内生部分”完全被V吸收。 3. 渐近分析（主要贡献）： * 偏差分析：作者将最终的估计量的偏差分解为： * 抽样误差（来自第二阶段的回归）。 * 第一阶段的估计误差（\( \hat{V} - V \)）。 * 核心技巧：利用经验过程和U-统计量的投影（Hájek projection），将第一阶段误差对第二阶段的影响“线形化”（approximated by an i.i.d. average）。具体地，将最终的估计量\( \hat{\beta} \)表示为：

\[\sqrt{n}(\hat{\beta} - \beta_0) = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \psi(Z_i, m(\cdot), \beta_0) + o_p(1)\]

其中\( \psi \)是影响函数（Influence Function）。证明的关键在于找到合适的核函数使得第一阶段的留一估计（leave-one-out）可以通过一阶展开（类似于去中心化）被吸收，且没有导致主占优项（first-order dominant term）被污染。 * 难点：验证Donsker（或类型2）类条件，确保第一阶段估计的弱点能被经验过程控制，从而保证第二阶段的渐近正态性。

技术技巧点名： * 半参数估计理论：整体框架是半参数的（参数部分\( \beta \)）。 * 经验过程理论（Empirical Process）：用来统一处理第一阶段非参数估计量\( \hat{V} \)的随机性，并通过败、斜、斯等式控制其影响。作者明确提到用“Donsker类”假设控制第一阶段的随机误差。 * 高阶U-统计量展开：由于第二阶段回归的估计方程通常涉及U-统计量（检验两阶段残差的某种均值结构）。通过高阶展开分解U-统计量，如Herrmann(1998)用于偏差项。 * 留一法（Leave-one-out）：用于构造第一阶段的预测\( \hat{V}_i \)，以避免过度拟合（overfitting）和负偏置，这在伪变量回归中常见（如贝叶斯核回归）。 * Bootstrap收敛性：利用Bootstrap的Edgeworth展开或基于估计的影响函数（EIF的Bootstrap版本）来证明Bootstrap估计量的后验分布近似于真实分布。

真实例子与实证（有！）¶

数据：Panel Study of Income Dynamics (PSID) 数据，研究儿童看电视时间对认知技能和非认知技能的影响。
内生性理由：看电视时间是家庭选择（内生），例如父母的教育水平、对子女的意愿等决定。看电视时间存在堆积（大量儿童看0小时电视，还有大量看2-3小时）。
方法应用：
- 第一步：用半参数模型（Probit或核密度）拟合孩子看电视时间是否为0的概率，基于父母特征（收入、教育）和儿童特征。
- 第二步：将第一步得到的广义残差（控制函数）\( \hat{V} \)加入线性结果方程，控制内生性。结果方程是：认知技能/非认知技能 ~ 电视时间 + 控制函数 \( \hat{V} \) + 其他外生X。
- 使用的处理：电视时间（连续）。
结果：
- 看电视对儿童认知技能无显著效应（点估计为微小正相关，但不显著）。
- 对非认知技能有显著的负效应（看电视时间增加1小时，非认知得分下降若干分，显著）。
例子想说明什么：
1. 展示方法在真实数据场景中的可行性：电视时间堆积是典型场景（0小时与几小时的分布特征），传统IV困难（缺乏好的工具变量），本文方法解决了这个问题。
2. 验证理论模拟结果：模拟显示当平行外生性假设成立时，方法表现良好，真实数据结论符合预期（理论上，电视可能打击非认知能力但阅读时间对认知无害）。
3. 对比OLS的偏误：标准的OLS回归可能因为内生性给出有偏估计（本文未做对比，但由此出发：即使OLS给出正相关，控制函数后变为无/负，说明OLS向上偏）。
数据特征：使用了数千个儿童-年份观测。

🔎 结论是否比证明窄¶

有。 * 定理中的识别方案依赖于平行外生性的严格形状限制（U只影响位置）。但实证例子中，隐式使用了更强的、外生协变量X也是可加独立的假设。作者在结论和模拟中虽然讨论了对X的放松，但正式证明集中在“无X”或“X使形状平行”的简化情况。在某些角落提到：“multiple X... if parallel exogeneity holds conditional on X, the method is straightforward”——但并未给出X为该假设下的完整证明。 * 估计量的渐近方差表达式虽然在文中给出，但未被证明是最优（efficient）。文中未讨论半参数效率界。这意味着该估计量在类控制函数设定下可能不是Anecharico的。 * 对于堆积点的识别，作者声称“当T=0时，U的分布也被识别”，但实际证明的“识别”是指通过平行分布形状推出U在0处的极限（limiting value），而非完全恢复U。这在非参数阶段需要额外的正则条件（如U的密度在边界处非零）。

四、开放问题（点到为止，扎根语句）¶

扩展至完全非参数的模型：本文的结果方程是线性/半参数的（\( E[Y|T,U] = \beta T + g(U) \)）。但假设结果方程为完全非参数形式\( E[Y|T,U] = m(T,U) \)时，在堆积点处是否能识别？作者在第四节的limitation中明确说要“扩展到完全非参数模型”。扎根于：论文第四部分“Future work”讨论。(原文大意：我们的识别主要对线性/可加模型有效，完全非参数是一个挑战)
处理变量是连续的但有堆积时的情形：作者假设处理变量在0点外面是连续的（用于单调性）。如果处理变量本身是分段常数（如离散的几个点），平行外生性是否直接导出控制函数？这需要进一步研究。扎根于：假设2：“strict monotonicity of T in U for T>0”，要求T>0区域是连续且有界内点支撑。如果T是离散，此假设不成立。
对平行外生性假设的检验的扩展：本文提出了一个对这些假设的检验（基于一个过识别条件）。但检验是否对U的高阶矩形状限制敏感？能否发展一个更简单的基于矩的检验（如Hausman类型检验）？扎根于：论文Section 5.3的检验程序，它是基于分位回归的散乱统计量。
半参数效率界：本文未给出控制函数估计量的效率界。对于给定形状限制的设定，最优收敛速率是什么？是否存在比目前估计量更简单且更有效的估计方法（如直接条件矩估计而非两步法）？扎根于：全文未出现“efficient”、“semiparametric efficiency bound”一词，这是计量经济学论文里一个显著的空白。

Maintained by 陈星宇 · Homepage · Source on GitHub