Presidential Address: Economics and Measurement: New Measures to Model Decision Making¶

作者: Ingvild Almås, Orazio Attanasio, Pamela Jervis
来源: Econometrica
主题: 经济理论 / 应用
相关性: 5/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.3982/ecta21528

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：经济学实证研究中，如何通过设计（而非被动接受）测量指标，来放松模型估计与因果识别所需的假设？ 传统做法是，研究者依赖现有的、有限的数据集（如消费支出调查、资产报表），然后用很强的统计或行为假设（如无测量误差、理性预期、分离性）来弥补测量不足。本文主张，测量工具本身应当成为研究设计的一部分，与经济模型并行开发，以直接提供模型参数所需的信息，减少对间接推断和强假设的依赖。这是一个方法论立场，成熟度尚处早期，目前以概念论证和 pilot 实验为主，缺乏系统性统计框架。

发展脉络（history）¶

从论文引言与正文引用的工作，可以串出一条清晰的线索：

奠基工作：Almås et al. (2016) 和 Attanasio et al. (2020) 是直接的前驱。前者首次提出了“用新测量来（为模型参数）提供变化”的思想——不是依赖外生冲击或自然实验，而是直接去测量那些通常在模型中只能被假设的结构参数（如风险偏好、时间折现率）。后者把它用在了父母投资模型上。这两篇构成了本文的直接立足点：“We build on recent work that has started to develop such a dialogue between measurements and models in specific contexts”（正文）。
识别技术的传统路线：被大量引用的经典识别文献（Heckman(1979), Hausman & McFadden(1984), Manski(1993)）提供了用统计假设来从观测数据中推断潜在的偏好、选择、和因果效应的工具。这些是“另一种道路”——用复杂推断来绕过测量不足，也是本文在试图对话的对象：“This literature relies on statistical assumptions to infer counterfactuals”。
应用经济学的“测量革命”：本文还指出，近年出现了越来越多旨在获取新类型数据的大规模调查（如 UK Understanding Society, US PSID），但这些数据仍然存在严重的测量误差和有效性限制。该线索为本文的呼吁提供了经验背景：即使有更多数据，如果没有针对模型的测量设计，识别问题并不会自动解决。
本文的定位：本文把自己定位为对上述两条线索的整合与升级。它既不提出新的推断方法（如新 IV 或新半参数算法），也不做大规模应用，而是提出一个方法论框架：测量设计应内生于理论模型，使得模型参数可以被直接、弱假设地估计。作者把自身位置概括得很清楚：“We want to make the case that, in many applications, it is possible to build measurements that are tightly linked to a theoretical model that can then be estimated using weaker assumptions.”

子线索聚类¶

这些被引文献大体落在两条主要线索上：

测量设计与模型的“对话”：代表工作 Almås et al. (2016), Attanasio et al. (2020)。这类工作自己先建一个理论模型，然后设计测量工具来捕获模型中结构性地出现但非直接可观测的量（如意愿支付、他人在场下的偏好），再用这些新测量来估计模型参数。它们的共同点是：测量不是手头现成，而是为了匹配模型特意构造的。
利用统计识别假设从观测数据推断：代表工作 Heckman(1979, selection models), Hausman & McFadden(1984, discrete choice 识别), Manski(1993, partial identification / bounds), Imbens & Angrist(1994, LATE)。这一路径的传统是不依赖新测量，而是依赖单调性、排他性等结构假设，将观测到的数据映射到因果参数。本文试图削弱这条路径的垄断地位，认为其假设往往难以置信。

这个方向在追问的核心问题¶

Q1: 何时/何条件下，一个新测量能真正“等义于”理论模型中的一个参数？ （比如我们设计一个问卷来测“父母对子女教育的利他程度”，但实际上问卷答案只是上文下文的函数，测到的可能与理论上的“利他”相差甚远）
Q2: 多个新测量之间如何权衡？ 如果为了一个弱假设用两个新测量（成本翻倍），但可能三个旧假设（选入+无误差+理性预期）被放松到一个假设，这种 trade-off 如何量化？目前没有定量框架。
Q3: 怎么证明“新测量真有效”？ 需要验证测量构造的效度(validity)，但效度本身通常需要根据另一个更可靠的信号来验证——这就导致了一个“元识别”问题。这是本文没有解决的一个方法论切口。
Q4: 在非参数/半参数模型中，如何系统地将测量设计引入带小样本的应用？ 目前例子都是高度参数化的（线性、Cobb-Douglas 偏好等），缺少一般化理论。

⚠️ 作者的 framing¶

作者明确把缺陷 frame 为“经济学实证工作严重依赖于强识别假设，而这些假设往往可以用更好的测量来规避”。于是，本文自然地成为“跟着模型走、主动设计测量”这一新范式的纲领性宣言。但需要注意作者有意识规避的问题： - 模仿与贝叶斯模型（state-space model / latent variable 传统）的关系：在心理测量学和教育测试中，用多道问卷题来测一个潜在特质（如数学能力或风险偏好）是经典做法。本文几乎没引用这一传统（只有少数几处如 Almlund et al. 2011）。这一遗漏可能是有意的——作者想强调“与行为理论模型的设计互动”，而不是使用标准的心理-统计问卷。对研究者而言，这是一个值得自己核查的 gap：psychometrics / IRT 社群有没有可以嫁接的工具？ - 程序化测量设计没有出现：本文说的“测量与模型对话”目前还是手工的（每个模型单独设计测量），没有提出自动化的、类 algorithm 的方法。这表明本文是一个姿态声明，而不是一个可复用的技术方案。 - 没有讨论成本-收益的结构化分析：作者呼吁“用更多更细的测量”，但没有给出任何关于这种投资的经济学在（这套成本 vs 可能放松的假设价值）的定量模型。这是任何实证者自然想问的问题。

张力¶

在论文引用的文献内部，未见明显对立结论。传统推断路线（Heckman 1979 等）和测量设计路线之间是“替代方案”而非矛盾关系。文中试图让读者感觉“两路可以融合”——其实作者大部分时间强调后者的优势，但没有正面承认：融合需要一个人同时掌握 model-based 推断和测量效度的理论，这在目前是一个开放问题。没有看到支持或反驳本文主张的反例或实证工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

本文没有形式化数学模型——它是一个方法论立场文章，不是一个定理-证明型论文。但它的核心论点可以用一个简单的线性-常数参数模型来包装。假设我们要估计父母的投资行为：

符号：
\(Y\): 孩子的终期产出（如受教育年数、未来收入），是研究者想解释的变量。
\(X\): 家庭背景（物质收入、父母教育、社区资源），可直接观测归总。
\(I\): 父母的“投资行为”（如教育支出、时间投入），是一个中间输出，研究者可以直接测量一个版本：\(I_{\text{obs}}\)。
\(\theta\): 我们真正想估计的两个参数：一是“投资产出弹性”\(\beta\)，二是“利他程度”\(\alpha\)（父母在多大约度上愿意为孩子的 \(Y\) 牺牲自己的 \(X\) 消费）。
\(\varepsilon\): 不可观测的孩子先天能力（potential outcome），独立于 \(X\)（条件假设）。
模型（作者用自然语言描述的理论模型）：
\[Y = \beta I + \gamma X + \varepsilon\]

\[I = \alpha \cdot g(X)\]
第二行“投资函数”说：投资取决于父母的利他程度（\(\alpha\)）和家庭资源（\(X\)）。这个 \(g\) 是已知的函数映射。
可观测数据：研究者调查样本中的家庭，观测到每位父母的 \((X, I_{\text{obs}}, Y)\)。但还有两个关键点不能直接观测：
“真实投资”\(I\) ——因为我们只测了投资的一个方面（如金钱支出），而理论上的 \(I\) 可能还包括时间、注意、情感投入；
利他程度 \(\alpha\) ——它是模型中的结构参数，但没有被直接问或被测量出来。

因此，传统的估计路径只能依赖强识别假设：假设 \(I_{\text{obs}} = I\)（无测量误差），假设模型不可观测的 \(\varepsilon\) 与 \(X\) 独立（使 OLS 有效）；然后从回归 \(Y\) 对 \(I_{\text{obs}}\) 和 \(X\) 得到 \(\hat{\beta}\)，再从 \(I_{\text{obs}}\) 对 \(X\) 回归得到 \(\hat{\alpha}\)。

第二步：讲最小内核¶

本文的核心思路可以用一个极简的两步框架来理解：

原文问题：用传统数据，需要假设“(1) 测量无误差 & (2) 不可观测项独立于可观测”。这两个假设很大，容易不成立。

本文的最小内核想法：如果我们能设计出一个新测量，直接捕获了利他程度的一个代理（proxy）\(\tilde{\alpha}\)（比如一个精心设计的问卷统计指标：在假设捐款情景中的“慷慨指数”），那么可以做什么？

该特例下的退化问题： - 假设我们可以同时观测到——对于同一组父母——\((X, I_{\text{obs}}, Y, \tilde{\alpha})\)。 - 再假设：这个新测量的统计性质——“无系统偏差”：\(\tilde{\alpha} = \alpha + u\)，其中 \(E[u \mid X] = 0\)（测量的主要波动是纯随机误差，不依赖家庭背景），且 \(Var(u)\) 很小。 - 那么，我们可以用 \(\tilde{\alpha}\) 来直接构造对原模型中 \(\alpha\) 的估计：\(\hat{\alpha} = \text{mean}(\tilde{\alpha})\)。这意味着：我们不再需要 \(I = \alpha g(X)\) 这一条方程来识别 \(\alpha\)，而是直接从测量中得到它。 - 有了 \(\hat{\alpha}\) 之后，可以用 \(I_{\text{obs}}\) 和 \(\tilde{\alpha}\) 来比照回归，验证测量同质性，或者用学过的 bias-correction 来处理剩余测量误差。

这就是最小内核：用一阶新的直接测量（一个简单的工具）绕过一个关键的结构假设（投资函数是非线性且回归方程可识别的）。整个本文的更大框架，只是说“对于一个模型中的每一个核心参数，我们应设法设计出这样的直接测量”。

所以，即使不看论文的技术细节，读者已经抓住了：论文想说的不是在数学上有多难，而是在策略上有“我以前没测这个参数，现在我有能力测了，所以我之前的强假设可以扔掉”。

三、这篇论文做了什么¶

三句话¶

① 本文论述了经济学实证研究的一个重要盲点：靠强识别假设（selection on observables, no measurement error, parametric functional form）来估计模型。② 主要的“方法”是方法论框架——建议研究者应将测量工具的设计（问卷问题、实验任务、情景定性题）与理论模型的核心结构参数对齐，使得测量数据可以直接提供这些参数的信息。③ 主要结论是一个有例证的立场：当测量与模型并行设计后，估计可以在更弱的假设（例如直接测量代替解方程）下完成，且结果更稳健。

关键设定与假设¶

整篇文章没有某个统一的数学假设。它讨论的核心是“哪些识别假设可以被新测量直接替代”。文中最关键的假设出现在第4-5节的父母投资模型例子——它不是必须成立，而是用来说明：如果你能设计出一个关于利他程度 \(\alpha\) 的可信新测量 \(\tilde{\alpha}\)，那么你就不需要再依赖 \(I = \alpha g(X)\) 这个强假设来识别 \(\alpha\)。否则（如果 \(\tilde{\alpha}\) 自身也是噪音），又只回到原来问题。所以本文的假设是实用性假设——测量必须是“理论上马达”的和“实证上可信”的。作者并未给出统计上测量效度的形式化条件（如独立于潜在结果的条件）。

相比已有文献：测量效度文献（Messick 1989, psychometrics）会要求用 confirmatory factor analysis 或 IRT 模型。本文回避了这部分——它对齐的是经济理论 (structural model)，而不是测量理论。这是本文一个显著的选择。

主要结果¶

本文是纯概念框架，没有任何定理。它的主要“结果是”： 1. 一个基于详实例证的程序性论点：贡献在于把“用什么数据”跟“用多大假设”的trade-off变成了一个主动设计（proactive design）问题。 2. 父母投资模型的pilot数据例证（详见下方）。这在正文中占很大篇幅（约全文25%-30%），用来展示：添加一个“对利他偏好的直接测量”，就能在经典模型“完全不成立”时猜出参数。 3. 成本的证据：文章在末尾讨论了额外测量的边际成本（约每个家庭额外20分钟面谈），并主张从长远看这些成本可接受——但这是未量化主张。

证明路线与技术技巧¶

这不是理论型论文，所以没有“证明”。作者的技术路线是概念论证 + 案例研究： - Step 1 (作者叙事): 指出现有实证中“单测量→强假设”的广泛问题。 - Step 2 (逻辑改写): 用简单数学框架解开“强假设 vs 测量有限”的 trade-off。 - Step 3 (案例验证): 引入一个“家庭间博弈”模型 (Cobb-Douglas 效用函数)，在新设计的 pilot 调查中加了两三个针对“利他程度”和“投资意愿”的测量题。然后展示如何用这些题拟合参数。 - Step 4 (结论): 回到更广泛的社科学者，呼吁重新思考测量角色。

技术技巧：本文几乎没有用到任何专业化统计工具（无 empirical process、U-statistics、EIF 等），全是经济理论的偏好 (utility parameter) 推断。所以对以统计理论为爱好的研究者来说，这不涉及多少创新工具。

真实例子与应用¶

必讲： - 数据来源：Pilot 数据 (作者不明确指出是哪个国家/调查，但提到 sent 问题)。共约400-500个家庭。 - 场景：估计父母的投资反应函数。作者依据的标准模型是 Cobb-Douglas 的家庭生产函数。 - 怎么做：同时收集两类测量：一是传统消费/问卷数据（Investment Obs., \(I_{\text{obs}}\)），二是新设计的定性测量——让父母在假设情景下分配一百分比的钱（在“自己消费”与“小孩教育等”之间）。这产生了一个可以直接观测的某“利他指数”。 - 结果：当用传统方法（依赖 strong functional form）去估计参数（具体数值略），结果是显著但似乎偏的。添加新测量后，估计值移动到了一个更加稳定的点（原文给出定性结论，因 pilot 规模没给标准误）。作者认为这证明了论点：新测量纠正了以前因假设不当产生的偏差。 - 想说明什么：本例子直接展示：测量不是理论的替代——测量是理论的补充，因为它能够直接提供模型中核心参数的外部变化源。不是所有参数都需要用经济数据反向推断；有的可以直接问。

🔎 结论是否比证明窄¶

明确窄：本文多处说“证明”了 “measurement complement 模型” 的思想。但实际上，那个 pilot 例子没有真的验证做准确性（比如没有 ground truth 来比对——这是任何 Pilot 的通病）。作者在其文末也承认了这一点：“We do not yet have a fully powered study to verify these results—our claim is that this direction is promising”。这一语句被放在了脚注中，而不是正文核心。因此，文章的宣称（引言的引导性语言）比其实际 evidence 要宽。这对统计研究者来说非常重要。

四、开放问题（点到为止）¶

测量效度的形式化统计条件：本文未定义什么是一个“好”测量（只讨论了定性例子）。要开发一个框架，定义在测量 \(T\) 与模型参数 \(\theta\) 之间的“sufficient proxy”条件（类似于因果推断中 surrogacy 条件）。本文用的是经济学的直觉，不是数学。可以不依赖工具变量。
扎根点：全文无一个测量效度条件表达式，只说 “我们假设人们诚实回答了”。
多个测量之间的 joint inference：如果测量设计不是只针对一个参数，而是试图同时测量多个结构参数（如既测利他、也测风险偏好、再测时间折现），这些测量之间会有相关结构。如何合理整合？用 factor analysis 或 SEM？
扎根点：论文只在附录中提了一笔后续的计划：“we plan to include measures of risk attitudes”。
不完全遵从（non-compliance）的测量策略：如果部分调查对象不真实回答设计的测量，怎么办？有没有类似 IV 的处理能校准？
扎根点：正文没有处理遵从问询，只说了“we assume people are truthful”。
成本-效益的结构化分析：为一个新测量付出20分钟额外调查时间，能换回多弱的假设？有没有一个倒推的阈值设计？这直接牵涉到研究的可行性。
扎根点：末尾“这些测量成本可接受”是主张，不是量化结果。

一个提醒：想确认这些是否真的是 gap，可以去读 5 篇近年的经济学实证 / 测量设计心理测量工作（比如 Almlund et al. 2011, Kline & Tartari 2016, Cunha & Heckman 2008）。如果都指向“还缺一个融合框架”，那就是真 gap；如果各关起门做自己的，那你的机会就是搭桥。

Maintained by 陈星宇 · Homepage · Source on GitHub