Producing Health: Measuring Value Added of Nursing Homes¶

作者: Liran Einav, Amy Finkelstein, Neale Mahoney
来源: Econometrica
主题: 经济理论 / 应用
相关性: 5/10
机构绿灯: Stanford University（US News 前 50，免分进入精读）
链接: https://doi.org/10.3982/ecta21016

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计与科学问题是：如何在存在非随机样本选择的情况下，从观测数据中识别并估计机构（如学校、医院、养老院）对个体产出（如考试成绩、健康恢复）的因果效应——即“价值添加”。当前该方向在应用计量经济学中已高度成熟，存在标准化的参数化识别框架；但在半参数/非参数识别与高维异质性估计的交叉地带，仍有未完全闭合的统计缺口。

发展脉络 - 奠基工作：价值添加估计的起点是教育领域的教师/学校效应评估。Hanushek, Kain & Rivkin (1998) 与 Chetty, Friedman & Rockoff (2014a,b) 建立了基于固定效应或残差增益的基线模型，但这类模型默认忽略了学生/患者按自身预期产出自选机构所带来的选择偏差。 - 主要进展（选择偏差的引入）：为了纠正自选偏差，Altonji & Mansfield (2018) 提出了基于排他性约束的 selection-correction 模型，这是本文最直接的理论前驱。作者在 intro 中明确引用并定位了它：“Altonji and Mansfield (2018) ... develop a selection-correction approach to estimating school value added that accounts for selection both on observed gain and on unobserved gain.” 此外，Eldar & Shorrer (2022) 从机制设计视角指出了传统 VA 估计中的“自选择偏误”问题，为纠正模型提供了理论动机。 - 当前 frontier 与本文位置：当前 frontier 集中在将选择纠正框架拓展至医疗场景，并处理更复杂的进出双向选择。本文的位置是：将 Altonji & Mansfield 的单向（入学）选择纠正，推广至双向（入院+出院）选择纠正，并将其大规模应用于约 14000 家养老院（SNF）的异质性估计。

子线索聚类 被引文献大致落在三条子线索上： 1. 基线 VA 估计（忽略选择）：以 Chetty et al. (2014) 为代表，用大规模行政数据做固定效应/增益残差估计，不处理内生选择。 2. Selection-Corrected VA（参数化识别）：以 Altonji & Mansfield (2018) 为代表，引入排他性约束与参数化 Heckman 式纠正，处理单向选择。 3. 医疗场景中的产出测量与选择：如 Doyle et al. (2019) 估计医院对老年患者存活率的 VA；Gowrisankaran & Town (1999) 用选择模型估计医院质量。本文横跨线索 2 与 3，将参数化选择纠正首次系统性地搬入 SNF 场景。

核心追问与已知瓶颈 - 核心追问 1：在个体按不可观测的预期产出自选机构时，VA 的非参数识别条件是什么？当前主流依赖参数化 Heckman 式排他性约束，瓶颈在于识别对排他性变量与分布假设的极度敏感。 - 核心追问 2：如何测量并验证 VA 的大规模异质性？当前瓶颈是异质性估计的标准误极易被选择纠正的残差方差吞噬，导致“看似有异质性、实则统计不显著”。 - 核心追问 3：出院选择（右截断）如何与入院选择（左截断）叠加扭曲 VA？这是本文独有的追问，此前文献几乎只看入院。

⚠️ 作者的 framing - 作者的 framing：作者把缺口 frame 为“现有 VA 估计只纠正了入院选择，忽略了出院选择同样受不可观测健康水平驱动”，从而让双向选择纠正模型成为“显然的下一步”。 - 淡化或回避的竞争路线：intro 完全回避了半参数/非参数识别路线（如基于边际结构模型或 IV 的半参数纠正），也未讨论不依赖排他性约束的 sensitivity analysis 方法。整篇框架被锁定在参数化正态 Heckman 模型内。 - 明显该被引却缺席的：半参数选择模型（Ahn & Powell, 1993）或现代因果推断中的 sensitivity analysis（如 Ding & VanderWeele 近年工作）未在 intro 出现。这是一个值得研究者去查的缺口：作者是否因为参数化假设便于大规模计算而刻意回避了半参数文献？

张力未见明显对立引用。Altonji & Mansfield 与 Chetty et al. 的分歧是“要不要纠正选择”，而非在相同设定下得相反结论；本文在 Altonji & Mansfield 基础上叠加出院选择，逻辑是顺延而非颠覆。

二、最核心、最简单的例子 / 数学问题¶

第一步：交代符号、模型、可观测数据

\(i\)：患者索引，\(i=1,\dots,N\)（约 600 万）。
\(j\)：养老院（SNF）索引，\(j=1,\dots,J\)（约 14000）。
\(Y_{ij}^*\)：潜在健康水平，连续变量。这是不可观测的潜在量。
\(Y_{ij}\)：可观测的健康产出（如功能性独立测量 FIM得分），只在患者进入 SNF 后观测到。
\(T_{ij}\)：住院时长，可观测的连续变量。
\(X_i\)：患者入院前的可观测特征向量（如年龄、入院前健康状况、原发诊断），维度为 \(p\)。
\(Z_i\)：排他性约束变量——影响患者选择哪家 SNF、但不直接影响患者在 SNF 内的健康恢复速度 \(Y_{ij}^*\)。本文中 \(Z_i\) 为地理距离变量（患者住处到各 SNF 的距离向量）。
\(\mu_j\)：SNF \(j\) 的价值添加，即本文要估的 estimand。定义为在控制了患者特征与选择偏差后，SNF \(j\) 对患者健康恢复的因果效应。
\(D_{ij}\)：选择指示变量，\(D_{ij}=1\) 表示患者 \(i\) 选择了 SNF \(j\)，否则为 0。可观测。
\(S_{ij}\)：出院选择指示变量，\(S_{ij}=1\) 表示患者 \(i\) 从 SNF \(j\) 出院，否则为 0。可观测。

模型（数据生成机制） 本文采用参数化正态选择模型： 1. 入院选择方程：\(D_{ij}^* = \alpha_j X_i + \gamma_j Z_i + U_{ij}^{(D)}\)，\(D_{ij}=1\) iff \(D_{ij}^* > 0\)。 2. 出院选择方程：\(S_{ij}^* = \delta_j X_i + \eta_j Y_{ij}^* + U_{ij}^{(S)}\)，\(S_{ij}=1\) iff \(S_{ij}^* > 0\)。 3. 健康产出方程：\(Y_{ij}^* = \mu_j + \beta_j X_i + U_{ij}^{(Y)}\)。 4. 不可观测误差联合分布：\((U_{ij}^{(D)}, U_{ij}^{(S)}, U_{ij}^{(Y)}) \sim \mathcal{N}(0, \Sigma)\)，三者允许相关，这正是选择偏差的来源。

可观测数据 研究者实际能观测到的是：对于每个患者 \(i\)，观测其入院前特征 \(X_i\)、距离向量 \(Z_i\)、其选择的唯一 SNF \(j\)（即 \(D_{ij}=1\) 的那个 \(j\)）、在该 SNF 的住院时长 \(T_{ij}\)、以及出院时的健康评分 \(Y_{ij}\)。不可观测的是：患者若去其他 SNF 的潜在健康 \(Y_{ik}^*\) (\(k \neq j\))、以及驱动选择与出院的误差项 \(U_{ij}^{(D)}, U_{ij}^{(S)}, U_{ij}^{(Y)}\)。

第二步：最小内核——双向选择纠正下的 VA 识别

剥掉 14000 家 SNF 与 600 万患者的规模，最小内核是一个只有 2 家 SNF (\(j=1,2\))、单一维度距离 \(Z_i\)、正态误差的特例。在这个特例下，要证的命题退化为：在双向选择下，\(\mu_1 - \mu_2\) 可以被识别并一致估计，且其方差可控。

核心思路走通的过程： 1. 只有入院选择（经典 Heckman）：如果只有 \(D_{ij}\) 决定我们是否看到 \(Y_{ij}\)，那么 \(E[Y_{ij} | D_{ij}=1, X_i, Z_i] = \mu_j + \beta_j X_i + E[U_{ij}^{(Y)} | U_{ij}^{(D)} > -\alpha_j X_i - \gamma_j Z_i]\)。正态假设下，最后一项是逆米尔斯比，可由 \(Z_i\) 的排他性变异识别出 \(\gamma_j\) 后纠正。 2. 叠加出院选择（本文最小内核的吃劲点）：现在，我们观测到 \(Y_{ij}\) 的条件不仅是 \(D_{ij}=1\)（进了 SNF），还要 \(S_{ij}=1\)（出了 SNF，即健康恢复到阈值才出院）。此时 \(E[Y_{ij} | D_{ij}=1, S_{ij}=1, X_i, Z_i]\) 中，\(U_{ij}^{(Y)}\) 的条件期望同时受 \(U_{ij}^{(D)}\) 和 \(U_{ij}^{(S)}\) 的截断约束。因为 \(U_{ij}^{(S)}\) 中含有 \(\eta_j Y_{ij}^*\)，而 \(Y_{ij}^*\) 又含 \(U_{ij}^{(Y)}\)，这构成了误差项的内生循环截断。 3. 怎么破：在正态联合分布假设下，这个双向截断的条件期望可以写成 \(X_i, Z_i\) 与两个逆米尔斯比的已知函数。关键在于：出院方程中的 \(\eta_j\)（健康水平对出院概率的敏感度）与入院方程中的 \(\gamma_j\)（距离对入院概率的敏感度）提供了两个不同的排他性/结构锚点，使得联合截断的协方差结构可被识别。这就是“双向选择反而比单向选择提供了更多识别矩”的数学实质——最小内核在此成立。

三、这篇论文做了什么¶

三句话 ① 研究了在患者按不可观测健康水平自选入院与出院的条件下，如何识别并估计养老院（SNF）对患者健康恢复的因果效应（价值添加 VA）。 ② 核心工具是拓展的参数化正态 Heckman 双向选择纠正模型，辅以地理距离作为入院排他性约束。 ③ 主要结论是 SNF 的 VA 存在巨大异质性：90th 分位与 10th 分位 SNF 的效果差距约为中位住院时长的 1/4（近一周），且同一市场内的异质性几乎与全国异质性相当。

关键设定与假设 在第二节最小记号基础上补全： - 排他性约束假设：\(Z_i\)（患者住处到 SNF 的距离向量）影响 \(D_{ij}^*\)，但不进入 \(Y_{ij}^*\) 与 \(S_{ij}^*\) 方程。统计含义：距离只改变患者去哪家 SNF 的概率，不直接改变患者在某 SNF 内的恢复速度或出院阈值。相比 Altonji & Mansfield (2018) 的学区距离约束，本文将其推广至多选项（多家 SNF）距离。 - 正态性与联合正态假设：\((U^{(D)}, U^{(S)}, U^{(Y)})\) 服从三元联合正态。这是最核心的参数化假设，统计含义：允许将双向截断的条件期望写成闭式的逆米尔斯比组合。相比半参数文献（如 Ahn & Powell 1993），这是极大的限制，但作者以此换取了 14000 家 SNF 的大规模可计算性。 - 单调出院选择假设：健康水平越高，出院概率越大（\(\eta_j > 0\)）。统计含义：保证了出院截断方向的一致性，避免了非单调选择下的识别复杂化。 - SUTVA 隐含假设：患者 \(i\) 在 SNF \(j\) 的潜在健康 \(Y_{ij}^*\) 不依赖于其他患者的分配。文中未显式讨论溢出，但在大规模 SNF 估计中这是常规隐含假设。

主要结果 1. 识别定理（隐含于模型设定）：在双向选择模型与排他性约束下，\(\mu_j\) 与选择方程参数可被联合识别。直觉：入院距离 \(Z_i\) 提供了入院选择的排他性锚点，出院阈值与健康的内生联动提供了出院选择的识别矩，联合正态闭式化了这些矩。 2. 异质性估计结果（核心量化结论）：90-10 分位 VA 差距约为 0.25 个中位住院时长（约 7 天）。必要条件：正态假设成立、距离排他性成立。技术难点：在 14000 个 \(\mu_j\) 的联合估计中，如何防止选择纠正的方差膨胀吞噬异质性信号。 3. 市场内 vs 全国异质性对比：同一医院服务区（HRR）内的 90-10 差距约为全国的 85%。这说明异质性主要不是跨区域的质量分层，而是同一区域内高低质量 SNF 并存。

证明路线与技术技巧 本文是应用/方法型，其“证明”实质是模型的可计算性与估计策略的可行性： - 整体路线： 1. 建立三元联合正态双向选择模型，写出可观测健康 \(Y_{ij}\) 与住院时长 \(T_{ij}\) 在双向截断下的条件期望闭式。 2. 将多选项入院选择（选哪家 SNF）简化为二元比较（选 \(j\) vs 选最可能的替代 \(k\)），构造 pairwise 入院选择方程以避免多选项正态选择的维数灾难。 3. 对出院选择方程，利用住院时长 \(T_{ij}\) 作为出院选择的时间累积指标，将 \(S_{ij}\) 的截断转化为 \(T_{ij}\) 的截断期望。 4. 使用两步估计法：第一步用 probit 估计入院与出院选择方程的系数与逆米尔斯比；第二步将逆米尔斯比代入健康产出方程，用 OLS 估计 \(\mu_j\)。 5. 对 \(\mu_j\) 的估计值进行 shrinkage（经验贝叶斯收缩），以纠正小样本 SNF 的噪声。 - 关键跳跃点：从多选项入院选择（\(J \approx 14000\)）跳跃到 pairwise 二元 probit。这是计算可行性的核心卡点——直接估 14000 选项的多项 probit 不可行，作者通过构造“患者 \(i\) 面对 SNF \(j\) 与其最近替代 \(k\) 的二元选择”绕过了维数灾难。 - 技术技巧点名： - Heckman 双向选择纠正：用于同时修正入院与出院的样本选择偏差，产出逆米尔斯比项。 - Pairwise Probit：用于降维多选项选择问题，避免多项 Probit 的计算瓶颈。 - 经验贝叶斯收缩：用于对小样本 SNF 的 VA 估计 \(\hat{\mu}_j\) 进行方差缩减，借鉴了 Chetty et al. (2014) 的 shrinkage 思路。 - 排他性约束构造：用地理距离向量作为入院选择的 \(Z_i\)，这是识别的锚点。

真实例子与应用 - 用的什么数据：2011–2016 年约 600 万 Medicare SNF 患者的行政数据，包含入院前健康评估、出院健康评估（FIM 类指标）、住院时长、患者住址与 SNF 地址。 - 怎么把方法用上去：对患者计算到各 SNF 的距离作为 \(Z_i\)，对每家 SNF 构造 pairwise 入院选择样本，估计双向选择模型，提取 \(\hat{\mu}_j\)，再进行 shrinkage。 - 得到什么结果：90-10 VA 差距约 7 天（中位住院 28 天）；市场内差距约 5.9 天（全国 7 天的 85%）。高 VA SNF 不仅出院快，且出院后 30 天再入院率与死亡率更低。 - 想说明什么：验证了双向选择纠正的可行性（相比不纠正或只纠正单向，VA 分布有实质性偏移）；展示了政策含义——同区域内患者重新分配到高 VA SNF 即可大幅缩短住院时长，无需跨区调配。

🔎 结论是否比证明窄 - 本文的异质性结论（90-10 差距 7 天）是在正态假设与 pairwise probit 近似下得出的，但作者在陈述政策含义时泛泛 claim “substantial gains through reallocation”，未将此结论的成立边界严格限定在正态与排他性约束的敏感性之内。这是一个典型的“结论比证明窄”的信号：证明只保证了在参数化模型内部估计一致，但政策结论的因果有效性依赖于模型设定对现实的近似度，后者未被证明。 - 另一处：作者 claim “within-market heterogeneity is almost as large as nationwide”，但 shrinkage 过程会压缩小样本 SNF 的极端值，这可能人为缩小全国异质性、使得市场内占比偏高。这一 shrinkage 偏差未被显式量化。

四、开放问题（点到为止）¶

半参数化识别：在放弃三元联合正态假设后，双向选择下的 VA \(\mu_j\) 是否仍可被非参数或半参数识别？需要什么新的排他性约束结构？扎根点：intro 回避了半参数文献，且模型设定完全依赖正态闭式。
排他性约束的敏感性分析：距离 \(Z_i\) 是否真的不直接影响恢复速度 \(Y_{ij}^*\)？（例如，近距离可能增加家属探视频率，从而直接影响恢复）。扎根点：作者在假设中声明 \(Z_i\) 不进入 \(Y_{ij}^*\)，但未提供敏感性量化。
多选项选择的完整建模：pairwise probit 是对 14000 选项的近似，它是否引入了选择概率的不一致？扎根点：估计路线的第 2 步，作者用 pairwise 二元选择绕过维数灾难，但未讨论这是否破坏了多项选择逻辑的内部一致性。
shrinkage 对异质性分布的扭曲：经验贝叶斯收缩如何改变 90-10 分位差距的估计？扎根点：主要结果中“市场内异质性几乎与全国相当”可能受 shrinkage 压缩全国极端值的影响，作者未显式纠正此偏差。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Producing Health: Measuring Value Added of Nursing Homes¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论