The Impact of Incarceration on Employment, Earnings, and Tax Filing¶
作者: Andrew Garin, Dmitri Koustas, Carl McPherson, Samuel Norris, Matthew Pecenco et al.
来源: Econometrica
主题: 经济理论 / 应用
相关性: 9/10
机构绿灯: Carnegie Mellon University(US News 前 50,免分进入精读)
链接: https://doi.org/10.3982/ecta22028
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本因果推断问题是:监禁对个体后续经济产出(工资、自雇、税收与转移支付)的因果效应是什么? 核心统计困难在于"选择性偏差"(selection bias)——被监禁者与未被监禁者在犯罪历史、人力资本、社会网络等维度上存在系统性差异,直接对比两者的收入轨迹无法得到因果结论。当前该方向在实证经济学中已高度成熟,主流识别策略已从早期的面板数据固定效应、匹配法,全面转向依赖制度设计的准实验方法(IV 与 RD)。
发展脉络: - 奠基工作:早期关于监禁经济后果的文献多受混杂困扰,无法剥离因果。Kling (2006) 利用随机法官分配作为工具变量,首次在较干净的设计下发现监禁对后续就业与收入的长期效应接近零甚至为正,打破了"监禁必然摧毁职业生涯"的直觉。 - 主要进展:随后一系列工作沿两条路线推进:Aizer & Doyle (2015) 利用青少年法庭的随机法官分配,发现监禁对成年后收入有负向因果效应,但该设定中样本为青少年,且收入度量依赖自我报告;Mueller-Smith (2015) 与 Loeffler (2016) 在更广泛的成年样本与行政数据中,重新检验了 Kling 的发现,结论在长期效应的方向与幅度上存在分歧。 - 当前 frontier:近年文献的瓶颈在于两点:一是数据精度,自我报告收入遗漏了自雇、转移支付与地下经济,导致估测偏误;二是识别策略的稳健性,单一依赖随机法官 IV 或单一 RD 断点,其 instrument validity 与 complier 人群的代表性常受质疑。 - 本文的位置:本文同时引入两个州的行政税收数据(覆盖自雇与转移支付)与两个独立的准实验设计(sentencing guideline RD + 随机法官 IV),在同一框架下估计局部平均处理效应(LATE),并通过对无前科者的子样本分析,试图将"监禁本身的因果效应"与"上游既有劣势的混淆"剥离开来。
子线索聚类: 1. 随机法官 IV 路线:Kling (2006) → Mueller-Smith (2015) → Loeffler (2016)。核心思路是将法官的严厉度倾向作为 instrument,利用案件随机分配到法官的制度假设剥离混杂。这条线的已知瓶颈是:法官严厉度可能通过非监禁渠道(如缓刑条件、罚金)影响后续收入,违反 exclusion restriction。 2. 量刑指南 RD 路线:主要在近年实证中兴起。利用量刑指南中犯罪史与罪行严重度的网格划分,在刚好跨越监禁门槛的边界处,用 RD 估计局部效应。瓶颈是:边界处的 complier 人群极其特殊,外推性受限。 3. 行政数据与收入度量路线:传统文献依赖 NLSY 等调查数据 → 近年转向 IRS 税收记录与州级失业保险(UI)工资记录。本文同时使用了 W-2/1099 等税表,首次在因果框架下覆盖了自雇与转移支付。
这个方向在追问的核心问题: 1. Estimand 的界定:监禁的因果效应,其 estimand 应该是"对累计收入的效应"还是"对收入轨迹(动态路径)的效应"?短期下降与长期恢复的动态结构如何? 2. Instrument validity 的边界:法官严厉度是否只通过监禁时长影响收入?量刑指南的断点处,是否存在法官的" discretionary override"导致 RD 处理分配非精确? 3. LATE 的外推与机制拆解:complier 人群(边界处的边际罪犯)的效应,能否代表整体?长期效应为零的结论,是因为监禁本身无持久伤害,还是因为 complier 人群本就处于劳动力市场的长期边缘状态?
⚠️ 作者的 framing(这是作者的说法): 作者将缺口 frame 为:既有文献要么数据不全面(遗漏自雇与转移支付),要么识别设计单一(只用 IV 或只用 RD),导致对"监禁本身"的长期因果效应估测有偏。作者通过双州、双设计的叠加,声称其结论"监禁对五年后的就业与工资无显著负向效应"比前人更稳健,并据此推断"上游因素(既有市场脱节或其他司法接触)才是低收入的成因"。 被淡化或回避的竞争路线:作者未引用任何基于结构模型或面板数据动态选择的文献,也未讨论"监禁通过社会资本或心理健康产生的间接效应"如何在其 LATE 框架中被捕获或遗漏。 明显该被引却未出现的:关于 IV exclusion restriction 违反的敏感性分析文献(如 Conley et al., 2012 的 plausibly exogenous 方法,或近年 Proximal IV 文献),在本文的法官 IV 设定中极为关键,但 intro 中未见。这是值得研究者去查的缺口:作者凭什么假设法官严厉度只改变监禁时长,而不改变缓刑监管强度?
张力: 被引的 Kling (2006) 与 Aizer & Doyle (2015) 在长期效应的方向上存在对立(前者发现长期效应近零或正,后者发现显著负向)。本文的结论在方向上与 Kling 一致,但作者并未在 intro 中正面解释这种对立的来源(是样本年龄差异?是收入度量差异?还是 complier 人群差异?),而是通过强调自己的数据与设计更全面来回避对立。这种对立本身是一个高价值信号:如果长期效应的方向对设定敏感,那么 LATE 的外推性与机制拆解就比点估计更值得深挖。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(Z\)(Instrument / Running variable):在 RD 设计中,\(Z\) 是量刑指南网格中的得分(基于犯罪史点数与罪行严重度),决定了被告是否"刚好"跨越监禁门槛;在 IV 设计中,\(Z\) 是案件被随机分配到的法官的严厉度倾向指数。
- \(D\)(Treatment / 处理变量):二值或有序处理,\(D=1\) 表示被告被判处监禁(并进入监狱),\(D=0\) 表示未被判处监禁(缓刑等)。在部分设定中,\(D\) 也取监禁时长(连续值)。
- \(Y\)(Outcome / 结果变量):被告在后续年份的经济产出,包括工资收入(W-2)、自雇收入(1099)、转移支付(税收记录中的退款与补贴),以及累计收入。可观测为连续值。
- \(X\)(Covariates / 协变量):被告的犯罪史(prior record)、年龄、种族、罪行类型等。在 RD 设定中,\(X\) 部分编码在 \(Z\) 的计算公式里。
- \(U\)(不可观测的混杂 / 潜在变量):被告的人力资本、社会网络、劳动力市场依附状态、其他司法系统接触(如缓刑监管强度)。这些是研究者想要但观测不到的,也是 IV/RD 试图剥离的对象。
- 潜在结果:\(Y(d, z)\) 表示在处理 \(D=d\)、instrument 取值 \(Z=z\) 下的潜在收入。LATE 框架下,complier 的潜在收入为 \(Y(1)\) 与 \(Y(0)\)。
- 可观测数据:研究者实际观测到的是 \((Z_i, D_i, Y_i, X_i)\) 的 i.i.d. 样本,来自北卡与俄亥俄的行政法庭记录与税收记录匹配数据集。样本量在数万到数十万级别。不可观测的是:法官严厉度是否通过非监禁渠道影响 \(Y\)(exclusion 违反),以及被告在未被监禁时的反事实收入轨迹 \(Y_i(0)\) 对那些实际被监禁的 always-takers。
模型与数据生成机制: - RD 设定:存在一个已知阈值 \(c\),使得 \(Z \geq c\) 时监禁概率跳跃。模型假设在 \(Z=c\) 处,潜在结果 \(Y(d)\) 与混杂 \(U\) 的分布连续,即 \(\lim_{z \uparrow c} E[Y(d) | Z=z] = \lim_{z \downarrow c} E[Y(d) | Z=z]\),从而跳跃只来自处理分配 \(D\) 的变化。 - IV 设定:法官严厉度 \(Z\) 满足独立性(案件随机分配)、相关性(\(Z\) 影响 \(D\))与 exclusion restriction(\(Z\) 只通过 \(D\) 影响 \(Y\))。模型假设 \(Z\) 对 \(D\) 是单调的(monotonicity:更严厉的法官只会增加监禁概率,不会减少)。
第二步:最小内核——量刑指南 RD 的二值处理特例
剥掉所有动态面板、多州对比、多收入来源的复杂性,支撑整篇论文因果识别的最小内核是:在量刑指南网格边界 \(c\) 处,用局部线性回归估计监禁对五年累计收入的 RD-LATE。
在最简特例下: - \(D_i = 1[Z_i \geq c]\)(假设处理分配是精确的,无法官 override)。 - \(Z_i\) 是一维得分。 - 估测目标为 \(\tau_{RD} = \frac{\lim_{z \downarrow c} E[Y | Z=z] - \lim_{z \uparrow c} E[Y | Z=z]}{\lim_{z \downarrow c} E[D | Z=z] - \lim_{z \uparrow c} E[D | Z=z]}\)。
在这个特例下,要证的命题退化成:在边界 \(c\) 的局部邻域 \([c-h, c+h]\) 内,用局部线性回归 \(\min_{\alpha, \beta, \tau, \gamma} \sum_{i: |Z_i-c| \leq h} (Y_i - \alpha - \beta(Z_i-c) - \tau D_i - \gamma D_i(Z_i-c))^2 K_h(Z_i-c)\) 得到的 \(\hat{\tau}\),在 \(h \to 0\) 且样本量 \(n \to \infty\) 时,收敛到 \(\tau_{RD}\)。
为什么成立?因为连续性假设保证了在 \(c\) 处,混杂 \(U\) 的条件期望无跳跃,所以 \(Y\) 的条件期望跳跃只能来自 \(D\) 的跳跃。局部线性回归在边界处的一阶偏导拟合,消除了 \(Z\) 的线性趋势,剩下的跳跃就是处理效应。论文的一般情形(法官 override 导致模糊 RD、IV 与 RD 的 meta-analysis、多期动态收入)只是这个最小内核的"加壳":模糊 RD 下分母换成监禁概率的跳跃,IV 下换成 \(Cov(Y, Z)/Cov(D, Z)\),多期收入换成对每个 \(t\) 分别估测再累加。
三、这篇论文做了什么¶
三句话: ①研究了监禁对被告后续工资、自雇与税收转移的因果效应,核心 estimand 是监禁对累计收入的动态轨迹。 ②核心工具是两个独立的准实验设计:量刑指南断点的(模糊)RD 与随机法官分配的 IV,并在两个州(北卡、俄亥俄)的行政税收数据上实施。 ③主要结论:一年刑期使五年累计收入下降 13%(主要由监禁期间的收入零值驱动),但五年之后的就业率、工资与自雇收入在两个州与无前科子样本中均无显著下降,结论指向上游因素而非监禁本身是低收入成因。
关键设定与假设: 1. Sentencing Guideline Discontinuity (RD):量刑指南将犯罪史点数与罪行严重度映射到一个网格,网格单元格规定了推荐刑期。当被告的得分刚好跨越"监禁门槛"时,监禁概率有跳跃。假设:潜在结果与混杂在门槛处连续;法官的 override 不破坏单调性(模糊 RD 允许概率跳跃而非精确跳跃)。 2. Random Judge Assignment (IV):案件随机分配给法官,法官间严厉度有系统性差异。假设:独立性(随机分配)、相关性(严厉度影响监禁概率)、exclusion restriction(严厉度只通过监禁时长影响后续收入,不通过缓刑条件、罚金等渠道)、单调性(更严厉法官只会增加监禁概率)。 3. LATE 识别:两个设计估测的都是 complier 的局部平均处理效应——RD 的 complier 是得分在门槛附近的边际被告;IV 的 complier 是对法官严厉度敏感的边际被告。 4. 数据设定:北卡与俄亥俄的法庭记录与 IRS 税收记录(W-2, 1099, 1040)的合并数据,覆盖监禁前后最多 15 年的收入轨迹。样本限制在量刑指南有效覆盖的年份与罪行范围内。
主要结果: 1. 短期效应(监禁期间):监禁直接导致收入接近零。一年刑期使五年累计收入下降 13%(北卡与俄亥俄一致),下降幅度几乎完全由监禁期间的收入缺失解释。 2. 长期效应(五年后):在两个州中,五年后的就业率、工资收入与自雇收入均无显著负向效应。对无前科者的子样本(最接近"纯监禁效应"的人群),长期效应同样不显著。 3. 反事实收入水平:作者估测 complier 人群在未被监禁时的反事实年收入仅约 $5000,表明这些边际被告本就处于劳动力市场的极端边缘状态,监禁并未进一步将其推远。 4. 稳健性:RD 与 IV 两个设计在两个州中得出方向一致的结论,且对带宽选择、控制变量、子样本划分稳健。
证明路线与技术技巧(实证型,重点拆方法设计与稳健性检验): - 整体路线: 1. 数据构建:将法庭记录(含量刑指南得分、法官 ID、刑期)与税收记录(含 W-2 工资、1099 自雇、转移支付)按个体 ID 合并,构建面板数据。 2. First-stage 诊断:对 RD 设计,估计监禁概率在门槛处的跳跃(模糊 RD 的分母);对 IV 设计,估计法官严厉度指数对监禁概率的回归系数。两个 first-stage 的 F-statistic 均远超常规弱 IV 门槛。 3. Reduced-form 估计:直接估计 \(Z\) 对 \(Y\) 的效应,验证跳跃存在。 4. LATE 估计:RD 用局部线性回归(三角核,带宽由 MSE 最优准则交叉验证选取);IV 用两阶段最小二乘(2SLS),法官严厉度指数作为 instrument。 5. 动态轨迹估计:对监禁后每一年 \(t\) 分别估计 LATE,绘制效应的动态路径,验证"短期下降、长期恢复"的形状。 6. 子样本与机制拆解:对无前科者子样本估计 LATE,试图剥离"既有犯罪史导致的劳动力市场脱节"与"监禁本身的效应"。 - 关键跳跃点: 1. Exclusion restriction 的验证:作者无法直接证明法官严厉度不通过非监禁渠道影响收入。他们通过以下间接证据支撑:法官严厉度对缓刑条件、罚金等非监禁判决的影响在统计上不显著或幅度极小;法官严厉度对监禁前收入无效应(预检验)。 2. RD 处理分配的模糊性:法官常 override 量刑指南的推荐,导致在门槛处监禁概率跳跃非 1。作者使用模糊 RD 框架,将分母替换为监禁概率的跳跃,并验证 override 不破坏单调性。 - 技术技巧点名: 1. Local Linear Regression (RD):用于估计门槛处的条件期望跳跃,三角核加权,带宽由 MSE 最优准则选取。起作用:消除 \(Z\) 的线性趋势,隔离处理跳跃。 2. 2SLS (IV):法官严厉度指数作为 instrument,估计 LATE。起作用:剥离混杂,利用随机分配的独立性。 3. Event-study 动态图:对每个 \(t\) 估计 LATE,绘制动态轨迹。起作用:展示短期下降与长期恢复的形状,验证"长期效应为零"的结论。 4. Falsification / Pre-trend 检验:估计监禁前年份的 LATE,验证接近零。起作用:支撑连续性假设与 exclusion restriction。
真实例子与应用: - 数据:北卡 与俄亥俄 的法庭-税收合并数据。北卡样本约 500,000 个被告,俄亥俄约 200,000。时间跨度覆盖 1990s-2010s。 - 应用方式:对每个州分别实施 RD 与 IV 估计,报告 first-stage、reduced-form 与 LATE 的点估计与置信区间。对累计收入(5 年、10 年、15 年)与逐年收入分别估计。 - 结果:北卡一年刑期使 5 年累计收入下降 13%(标准误约 3%),俄亥俄下降幅度类似;5 年后的逐年收入效应在两个州中均不显著(\(p > 0.1\))。无前科子样本的长期效应同样不显著。 - 想说明什么:验证"监禁本身的长期因果效应近零"这一结论在双州、双设计下稳健,并指出 complier 人群的反事实收入极低($5000/年),暗示劳动力市场既有脱节是低收入的主因。
🔎 结论是否比证明窄: 作者在结论中推断"上游因素(其他司法接触或既有市场脱节)是低收入成因",但这一推断超出了 LATE 证明的范围。LATE 只证明了"对 complier 人群,监禁本身对长期收入无显著负向效应",并未证明"上游因素是低收入成因"——这需要额外的识别策略(如对上游因素的直接 IV/RD 估计),本文未提供。作者也未讨论 LATE 对 always-takers(无论法官严厉度如何都会被监禁的严重罪犯)的外推性,而 always-takers 可能占被监禁人群的主体。这些泛泛 claim 在结论部分出现,但严格证明只覆盖了 complier 的局部效应。
四、开放问题(点到为止,扎根具体语句)¶
- Exclusion restriction 的敏感性分析:作者假设法官严厉度只通过监禁时长影响收入(exclusion restriction),但未提供 formal sensitivity analysis。要估测什么:在 exclusion 违反幅度 \(\delta\) 下,LATE 的偏误界与置信区间如何变化?扎根点:作者在 Supporting Information 中承认"we cannot directly test the exclusion restriction"(具体语句见 SI Section X),仅提供间接预检验。
- LATE 的外推性与 always-takers 的效应:本文估测的是 complier 的 LATE,但 always-takers(严重罪犯)的效应可能截然不同。要估测什么:在 monotonicity 与边际效应单调假设下,always-takers 的效应界如何?扎根点:结论部分声称"incarceration itself does not cause long-term earnings drops",但定理只覆盖了 complier(局部人群),未覆盖 always-takers。
- 上游因素的直接因果识别:作者推断"上游因素(其他司法接触或既有市场脱节)是低收入成因",但未提供对上游因素的直接因果估计。要证什么:缓刑监管强度、罚金、逮捕记录等上游因素对收入的因果效应?扎根点:结论最后一段明确将低收入归因于"upstream factors",但正文未包含对这些因素的识别策略。
- 动态轨迹的半参数建模:本文对每年分别估计 LATE,未对动态轨迹施加结构约束。要估测什么:在半参数动态面板模型下,监禁对收入轨迹的长期效应是否有更精确的界?扎根点:Figure 3 的动态轨迹估计在长期年份的置信区间极宽(样本量衰减),半参数建模可能收紧界。
要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub