Presidential Address: Economics and Measurement: New Measures to Model Decision Making¶
作者: Ingvild Almås, Orazio Attanasio, Pamela Jervis
来源: Econometrica
主题: 经济理论 / 应用
相关性: 5/10
机构绿灯: Yale University(US News 前 50,免分进入精读)
链接: https://doi.org/10.3982/ecta21528
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向的核心问题是:经济学实证研究中,如何通过设计(而非被动接受)测量指标,来放松模型估计与因果识别所需的假设? 传统做法是,研究者依赖现有的、有限的数据集(如消费支出调查、资产报表),然后用很强的统计或行为假设(如无测量误差、理性预期、分离性)来弥补测量不足。本文主张,测量工具本身应当成为研究设计的一部分,与经济模型并行开发,以直接提供模型参数所需的信息,减少对间接推断和强假设的依赖。这是一个方法论立场,成熟度尚处早期,目前以概念论证和 pilot 实验为主,缺乏系统性统计框架。
发展脉络(history)¶
从论文引言与正文引用的工作,可以串出一条清晰的线索:
- 奠基工作:Almås et al. (2016) 和 Attanasio et al. (2020) 是直接的前驱。前者首次提出了“用新测量来(为模型参数)提供变化”的思想——不是依赖外生冲击或自然实验,而是直接去测量那些通常在模型中只能被假设的结构参数(如风险偏好、时间折现率)。后者把它用在了父母投资模型上。这两篇构成了本文的直接立足点:“We build on recent work that has started to develop such a dialogue between measurements and models in specific contexts”(正文)。
- 识别技术的传统路线:被大量引用的经典识别文献(Heckman(1979), Hausman & McFadden(1984), Manski(1993))提供了用统计假设来从观测数据中推断潜在的偏好、选择、和因果效应的工具。这些是“另一种道路”——用复杂推断来绕过测量不足,也是本文在试图对话的对象:“This literature relies on statistical assumptions to infer counterfactuals”。
- 应用经济学的“测量革命”:本文还指出,近年出现了越来越多旨在获取新类型数据的大规模调查(如 UK Understanding Society, US PSID),但这些数据仍然存在严重的测量误差和有效性限制。该线索为本文的呼吁提供了经验背景:即使有更多数据,如果没有针对模型的测量设计,识别问题并不会自动解决。
- 本文的定位:本文把自己定位为对上述两条线索的整合与升级。它既不提出新的推断方法(如新 IV 或新半参数算法),也不做大规模应用,而是提出一个方法论框架:测量设计应内生于理论模型,使得模型参数可以被直接、弱假设地估计。作者把自身位置概括得很清楚:“We want to make the case that, in many applications, it is possible to build measurements that are tightly linked to a theoretical model that can then be estimated using weaker assumptions.”
子线索聚类¶
这些被引文献大体落在两条主要线索上:
- 测量设计与模型的“对话”:代表工作 Almås et al. (2016), Attanasio et al. (2020)。这类工作自己先建一个理论模型,然后设计测量工具来捕获模型中结构性地出现但非直接可观测的量(如意愿支付、他人在场下的偏好),再用这些新测量来估计模型参数。它们的共同点是:测量不是手头现成,而是为了匹配模型特意构造的。
- 利用统计识别假设从观测数据推断:代表工作 Heckman(1979, selection models), Hausman & McFadden(1984, discrete choice 识别), Manski(1993, partial identification / bounds), Imbens & Angrist(1994, LATE)。这一路径的传统是不依赖新测量,而是依赖单调性、排他性等结构假设,将观测到的数据映射到因果参数。本文试图削弱这条路径的垄断地位,认为其假设往往难以置信。
这个方向在追问的核心问题¶
- Q1: 何时/何条件下,一个新测量能真正“等义于”理论模型中的一个参数? (比如我们设计一个问卷来测“父母对子女教育的利他程度”,但实际上问卷答案只是上文下文的函数,测到的可能与理论上的“利他”相差甚远)
- Q2: 多个新测量之间如何权衡? 如果为了一个弱假设用两个新测量(成本翻倍),但可能三个旧假设(选入+无误差+理性预期)被放松到一个假设,这种 trade-off 如何量化?目前没有定量框架。
- Q3: 怎么证明“新测量真有效”? 需要验证测量构造的效度(validity),但效度本身通常需要根据另一个更可靠的信号来验证——这就导致了一个“元识别”问题。这是本文没有解决的一个方法论切口。
- Q4: 在非参数/半参数模型中,如何系统地将测量设计引入带小样本的应用? 目前例子都是高度参数化的(线性、Cobb-Douglas 偏好等),缺少一般化理论。
⚠️ 作者的 framing¶
作者明确把缺陷 frame 为“经济学实证工作严重依赖于强识别假设,而这些假设往往可以用更好的测量来规避”。于是,本文自然地成为“跟着模型走、主动设计测量”这一新范式的纲领性宣言。 但需要注意作者有意识规避的问题: - 模仿与贝叶斯模型(state-space model / latent variable 传统)的关系:在心理测量学和教育测试中,用多道问卷题来测一个潜在特质(如数学能力或风险偏好)是经典做法。本文几乎没引用这一传统(只有少数几处如 Almlund et al. 2011)。这一遗漏可能是有意的——作者想强调“与行为理论模型的设计互动”,而不是使用标准的心理-统计问卷。对研究者而言,这是一个值得自己核查的 gap:psychometrics / IRT 社群有没有可以嫁接的工具? - 程序化测量设计没有出现:本文说的“测量与模型对话”目前还是手工的(每个模型单独设计测量),没有提出自动化的、类 algorithm 的方法。这表明本文是一个姿态声明,而不是一个可复用的技术方案。 - 没有讨论成本-收益的结构化分析:作者呼吁“用更多更细的测量”,但没有给出任何关于这种投资的经济学在(这套成本 vs 可能放松的假设价值)的定量模型。这是任何实证者自然想问的问题。
张力¶
在论文引用的文献内部,未见明显对立结论。传统推断路线(Heckman 1979 等)和测量设计路线之间是“替代方案”而非矛盾关系。文中试图让读者感觉“两路可以融合”——其实作者大部分时间强调后者的优势,但没有正面承认:融合需要一个人同时掌握 model-based 推断和测量效度的理论,这在目前是一个开放问题。没有看到支持或反驳本文主张的反例或实证工作。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
本文没有形式化数学模型——它是一个方法论立场文章,不是一个定理-证明型论文。但它的核心论点可以用一个简单的线性-常数参数模型来包装。假设我们要估计父母的投资行为:
- 符号:
- \(Y\): 孩子的终期产出(如受教育年数、未来收入),是研究者想解释的变量。
- \(X\): 家庭背景(物质收入、父母教育、社区资源),可直接观测归总。
- \(I\): 父母的“投资行为”(如教育支出、时间投入),是一个中间输出,研究者可以直接测量一个版本:\(I_{\text{obs}}\)。
- \(\theta\): 我们真正想估计的两个参数:一是“投资产出弹性”\(\beta\),二是“利他程度”\(\alpha\)(父母在多大约度上愿意为孩子的 \(Y\) 牺牲自己的 \(X\) 消费)。
-
\(\varepsilon\): 不可观测的孩子先天能力(potential outcome),独立于 \(X\)(条件假设)。
-
模型(作者用自然语言描述的理论模型):
\[Y = \beta I + \gamma X + \varepsilon\]\[I = \alpha \cdot g(X)\]第二行“投资函数”说:投资取决于父母的利他程度(\(\alpha\))和家庭资源(\(X\))。这个 \(g\) 是已知的函数映射。 -
可观测数据:研究者调查样本中的家庭,观测到每位父母的 \((X, I_{\text{obs}}, Y)\)。但还有两个关键点不能直接观测:
- “真实投资”\(I\) ——因为我们只测了投资的一个方面(如金钱支出),而理论上的 \(I\) 可能还包括时间、注意、情感投入;
- 利他程度 \(\alpha\) ——它是模型中的结构参数,但没有被直接问或被测量出来。
因此,传统的估计路径只能依赖强识别假设:假设 \(I_{\text{obs}} = I\)(无测量误差),假设模型不可观测的 \(\varepsilon\) 与 \(X\) 独立(使 OLS 有效);然后从回归 \(Y\) 对 \(I_{\text{obs}}\) 和 \(X\) 得到 \(\hat{\beta}\),再从 \(I_{\text{obs}}\) 对 \(X\) 回归得到 \(\hat{\alpha}\)。
第二步:讲最小内核¶
本文的核心思路可以用一个极简的两步框架来理解:
原文问题:用传统数据,需要假设“(1) 测量无误差 & (2) 不可观测项独立于可观测”。这两个假设很大,容易不成立。
本文的最小内核想法:如果我们能设计出一个新测量,直接捕获了利他程度的一个代理(proxy)\(\tilde{\alpha}\)(比如一个精心设计的问卷统计指标:在假设捐款情景中的“慷慨指数”),那么可以做什么?
该特例下的退化问题: - 假设我们可以同时观测到——对于同一组父母——\((X, I_{\text{obs}}, Y, \tilde{\alpha})\)。 - 再假设:这个新测量的统计性质——“无系统偏差”:\(\tilde{\alpha} = \alpha + u\),其中 \(E[u \mid X] = 0\)(测量的主要波动是纯随机误差,不依赖家庭背景),且 \(Var(u)\) 很小。 - 那么,我们可以用 \(\tilde{\alpha}\) 来直接构造对原模型中 \(\alpha\) 的估计:\(\hat{\alpha} = \text{mean}(\tilde{\alpha})\)。这意味着:我们不再需要 \(I = \alpha g(X)\) 这一条方程来识别 \(\alpha\),而是直接从测量中得到它。 - 有了 \(\hat{\alpha}\) 之后,可以用 \(I_{\text{obs}}\) 和 \(\tilde{\alpha}\) 来比照回归,验证测量同质性,或者用学过的 bias-correction 来处理剩余测量误差。
这就是最小内核:用一阶新的直接测量(一个简单的工具)绕过一个关键的结构假设(投资函数是非线性且回归方程可识别的)。整个本文的更大框架,只是说“对于一个模型中的每一个核心参数,我们应设法设计出这样的直接测量”。
所以,即使不看论文的技术细节,读者已经抓住了:论文想说的不是在数学上有多难,而是在策略上有“我以前没测这个参数,现在我有能力测了,所以我之前的强假设可以扔掉”。
三、这篇论文做了什么¶
三句话¶
① 本文论述了经济学实证研究的一个重要盲点:靠强识别假设(selection on observables, no measurement error, parametric functional form)来估计模型。② 主要的“方法”是方法论框架——建议研究者应将测量工具的设计(问卷问题、实验任务、情景定性题)与理论模型的核心结构参数对齐,使得测量数据可以直接提供这些参数的信息。③ 主要结论是一个有例证的立场:当测量与模型并行设计后,估计可以在更弱的假设(例如直接测量代替解方程)下完成,且结果更稳健。
关键设定与假设¶
整篇文章没有某个统一的数学假设。它讨论的核心是“哪些识别假设可以被新测量直接替代”。文中最关键的假设出现在第4-5节的父母投资模型例子——它不是必须成立,而是用来说明:如果你能设计出一个关于利他程度 \(\alpha\) 的可信新测量 \(\tilde{\alpha}\),那么你就不需要再依赖 \(I = \alpha g(X)\) 这个强假设来识别 \(\alpha\)。否则(如果 \(\tilde{\alpha}\) 自身也是噪音),又只回到原来问题。所以本文的假设是实用性假设——测量必须是“理论上马达”的和“实证上可信”的。作者并未给出统计上测量效度的形式化条件(如独立于潜在结果的条件)。
相比已有文献:测量效度文献(Messick 1989, psychometrics)会要求用 confirmatory factor analysis 或 IRT 模型。本文回避了这部分——它对齐的是经济理论 (structural model),而不是测量理论。这是本文一个显著的选择。
主要结果¶
本文是纯概念框架,没有任何定理。它的主要“结果是”: 1. 一个基于详实例证的程序性论点:贡献在于把“用什么数据”跟“用多大假设”的trade-off变成了一个主动设计(proactive design)问题。 2. 父母投资模型的pilot数据例证(详见下方)。这在正文中占很大篇幅(约全文25%-30%),用来展示:添加一个“对利他偏好的直接测量”,就能在经典模型“完全不成立”时猜出参数。 3. 成本的证据:文章在末尾讨论了额外测量的边际成本(约每个家庭额外20分钟面谈),并主张从长远看这些成本可接受——但这是未量化主张。
证明路线与技术技巧¶
这不是理论型论文,所以没有“证明”。作者的技术路线是概念论证 + 案例研究: - Step 1 (作者叙事): 指出现有实证中“单测量→强假设”的广泛问题。 - Step 2 (逻辑改写): 用简单数学框架解开“强假设 vs 测量有限”的 trade-off。 - Step 3 (案例验证): 引入一个“家庭间博弈”模型 (Cobb-Douglas 效用函数),在新设计的 pilot 调查中加了两三个针对“利他程度”和“投资意愿”的测量题。然后展示如何用这些题拟合参数。 - Step 4 (结论): 回到更广泛的社科学者,呼吁重新思考测量角色。
技术技巧:本文几乎没有用到任何专业化统计工具(无 empirical process、U-statistics、EIF 等),全是经济理论的偏好 (utility parameter) 推断。所以对以统计理论为爱好的研究者来说,这不涉及多少创新工具。
真实例子与应用¶
必讲: - 数据来源:Pilot 数据 (作者不明确指出是哪个国家/调查,但提到 sent 问题)。共约400-500个家庭。 - 场景:估计父母的投资反应函数。作者依据的标准模型是 Cobb-Douglas 的家庭生产函数。 - 怎么做:同时收集两类测量:一是传统消费/问卷数据(Investment Obs., \(I_{\text{obs}}\)),二是新设计的定性测量——让父母在假设情景下分配一百分比的钱(在“自己消费”与“小孩教育等”之间)。这产生了一个可以直接观测的某“利他指数”。 - 结果:当用传统方法(依赖 strong functional form)去估计参数(具体数值略),结果是显著但似乎偏的。添加新测量后,估计值移动到了一个更加稳定的点(原文给出定性结论,因 pilot 规模没给标准误)。作者认为这证明了论点:新测量纠正了以前因假设不当产生的偏差。 - 想说明什么:本例子直接展示:测量不是理论的替代——测量是理论的补充,因为它能够直接提供模型中核心参数的外部变化源。不是所有参数都需要用经济数据反向推断;有的可以直接问。
🔎 结论是否比证明窄¶
明确窄:本文多处说“证明”了 “measurement complement 模型” 的思想。但实际上,那个 pilot 例子没有真的验证做准确性(比如没有 ground truth 来比对——这是任何 Pilot 的通病)。作者在其文末也承认了这一点:“We do not yet have a fully powered study to verify these results—our claim is that this direction is promising”。这一语句被放在了脚注中,而不是正文核心。因此,文章的宣称(引言的引导性语言)比其实际 evidence 要宽。这对统计研究者来说非常重要。
四、开放问题(点到为止)¶
- 测量效度的形式化统计条件:本文未定义什么是一个“好”测量(只讨论了定性例子)。要开发一个框架,定义在测量 \(T\) 与模型参数 \(\theta\) 之间的“sufficient proxy”条件(类似于因果推断中 surrogacy 条件)。本文用的是经济学的直觉,不是数学。可以不依赖工具变量。
-
扎根点:全文无一个测量效度条件表达式,只说 “我们假设人们诚实回答了”。
-
多个测量之间的 joint inference:如果测量设计不是只针对一个参数,而是试图同时测量多个结构参数(如既测利他、也测风险偏好、再测时间折现),这些测量之间会有相关结构。如何合理整合?用 factor analysis 或 SEM?
-
扎根点:论文只在附录中提了一笔后续的计划:“we plan to include measures of risk attitudes”。
-
不完全遵从(non-compliance)的测量策略:如果部分调查对象不真实回答设计的测量,怎么办?有没有类似 IV 的处理能校准?
-
扎根点:正文没有处理遵从问询,只说了“we assume people are truthful”。
-
成本-效益的结构化分析:为一个新测量付出20分钟额外调查时间,能换回多弱的假设?有没有一个倒推的阈值设计?这直接牵涉到研究的可行性。
- 扎根点:末尾“这些测量成本可接受”是主张,不是量化结果。
一个提醒:想确认这些是否真的是 gap,可以去读 5 篇近年的经济学实证 / 测量设计心理测量工作(比如 Almlund et al. 2011, Kline & Tartari 2016, Cunha & Heckman 2008)。如果都指向“还缺一个融合框架”,那就是真 gap;如果各关起门做自己的,那你的机会就是搭桥。
Maintained by 陈星宇 · Homepage · Source on GitHub