Feedback Design in Dynamic Moral Hazard¶

作者: Jeffrey C. Ely, George Georgiadis, Luis Rayo
来源: Econometrica
主题: 经济理论 / 应用
相关性: 2/10
机构绿灯: Northwestern University（US News 前 50，免分进入精读）
链接: https://doi.org/10.3982/ecta21871

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：在一个动态委托-代理关系中，委托人（principal）如何联合设计激励契约（incentive contract）与绩效反馈（performance feedback）策略，以最大化代理人的努力水平，当绩效指标是一个极其粗颗粒的二元（成败）度量时。这是一个将“信息设计”主动纳入“激励设计”的理论问题——传统动态道德风险模型通常假设绩效信息是公开可获取的，而本文则把反馈策略本身看作一个可以优化的契约维度。该子方向（动态道德风险 + 绩效反馈）理论成熟度较高，已有若干奠基性工作（如连续时间契约理论），但本文用一个新颖的激励相容处理技巧，在一个常见但未被充分分析的二元绩效设定下，给出了解析解。

发展脉络（history）¶

引言中引用的工作可串成如下脉络：

奠基工作（契约理论经典）：Holmström (1979, Bell Journal of Economics) 和 Grossman & Hart (1983, Econometrica) 建立了静态道德风险框架，即委托人如何基于可验证的绩效信号设计薪酬。这些工作是首次将隐藏行动（hidden action）的代价形式化。
动态化与连续时间（进展 1）：Lazear (1981, JPE) 和 Harris & Holmström (1982, Econometrica) 引入了职业关切与学习效应，将激励问题动态化。随后，Spear & Srivastava (1987, Econometrica) 用动态规划刻画了无限期动态契约。关键突破是 Holmström & Milgrom (1987, Econometrica) 在连续时间、指数型效用函数下，证明了线性契约的最优性，这成为动态道德风险的标准模型。
引入绩效反馈（进展 2）：Lizzeri, Meyer, & Persico (2002, AER) 和 Ederer (2010, Econometrica) 开始关注“提供或不提供”中前期绩效信号如何影响后续努力。Ray (2008, JPE) 则提出一个两期模型，其中管理者可以操控代理人的信念。这些文章指出反馈的频率与精细度本身是一个关键杠杆。
二元绩效与最优停止（当前 frontier）：Horner (1999, Review of Economic Studies) 和 Bergemann & Hege (2005, Econometrica) 在二元成功/失败（即“突破”式）绩效下研究最优停止问题——代理人何时应该停止一个可能失败的项目。本文的作者在引言中指出，现有成果忽略了绩效反馈与动态停止决策的联合最优设计。他们将这一问题框架化为：委托人可以控制反馈（何时、告知什么），因此可以用信息作为激励工具。本文的位置即在此切入点：在同一模型内（二元绩效、连续时间）求解联合最优的激励契约与反馈策略。

子线索聚类¶

引言中被引文献大致落在以下三条子线索上，按“目的”聚类的：

完全信息下的契约设计（Holmström & Milgrom, 1987 为代表，以及一系列后续扩展）：代理人能完全观测自己的绩效过程。这类文献主要探讨激励机制如何补偿风险厌恶的代理人。其特点是：反馈是外生给定的（即实时）。
信息操作的博弈论分析（Lizzeri et al., 2002; Ederer, 2010 等）：委托人可以选择是否向代理人透露中期绩效信号，但不涉及契约本身与努力水平的联合优化。更多是一个信号博弈（signaling game）或贝叶斯劝说。
二元结果与单边学习 / 最优停止（Horner, 1999; Bergemann & Hege, 2005）：模型包含二元结果（创新成功/研发项目失败）和内生停止。但这里的契约通常外生给定（例如固定工资加成功奖金），退化为寻找最优停止时间的问题，而非最优契约。

本文的独特贡献是将子线索2的反馈选择与子线索3的内生停止结合到子线索1的连续时间动态激励框架下，从而得到一个全新的最优结构。

这个方向在追问的核心问题 (2-4个) 与已知瓶颈¶

核心问题一：当绩效是二元粗颗粒（all-or-nothing）时，最优的动态激励契约是什么？已知瓶颈：传统线性契约（从 Holmström-Milgrom 来）需要细致信号（如累计产出），对二元信号失效（信号无法给代理人提供关于其边际努力的连续更新）。
核心问题二：绩效反馈策略本身是否是激励的一个廉价（或昂贵）工具？已知瓶颈：之前的文献难以处理“信息”的成本价——因为对风险中性的委托人，信息并非直接成本，其成本通过激励相容约束的扭曲体现，而这是难以解析计算的。
核心问题三：在什么条件下，隐藏信息（即不给反馈）可以促进努力，又在什么条件下它会摧毁激励？已知瓶颈：这涉及动态信念管理的精确计算——即给出未知代理人的后验风险，而这是非线性的。
核心问题四：动态最优的“最优什么时候揭晓？”是否有一个简单的定性规则？已知瓶颈：没有。传统动态规划的解析解只在非常特殊的条件下可得（如线性、二次、指数效用）。

⚠️ 作者的 framing¶

• 作者的缺口：作者将已有文献的缺口框架为“没有考虑当绩效信号粗颗粒时，联合设计激励与反馈的选择”。他们声称这看似是一个“显而易见的下一步”却一直无人做到，因为技术上存在一个棘手的“信念演化”方程（见第2节）在二元信号下非常难解。 • 淡化的竞争路线：作者淡化了“放弃连续时间，用离散时间动态规划数值求解”这条路线。他们只字不提用数值方法逼近解的可能性，而坚持追求解析解。这暗示他们的核心贡献是解析推导，而非方法可用性。 • 该引而没引的工作（值得研究者去查的问题）：作者没有引用关于博弈论中的“贝叶斯劝说”（Bayesian persuasion；Kamenica & Gentzkow 2011, Econometrica）的更多一般性文献。贝叶斯劝说理论恰好处理“一个信息发送者如何设计信号分布来影响接收者行为”，而本文的委托人正是这样一个“信息发送者”去影响代理人。引用这个子领域的基准定理（如“最佳响应限制”、“信息影响力”）会更容易框出本文的贡献边界（即，本文结果在多大程度上是贝叶斯劝说定理的特例？）。如果这篇文章完全未引用贝叶斯劝说，则说明它可能是一次“重复发明”——或者已经超越了该理论的边界。因此，这是一个高价值的核查点。

张力¶

未见明显对立的引用——被引工作之间共享相似的模型假设（风险厌恶的代理人、对称信息假设、指数贴现），唯一的区别在于研究方法（离散 vs 连续时间；完全信息 vs 部分信息）。如果不算“张力”的话，一个可注意的点是：作者全部引用都是理论文献，没有任何基于实验或实证的验证——这使得理论结论的“外部有效性”非常存疑。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(t \in [0, \infty)\)：时间（连续）。
- \(\omega_t\)：一个二元的泊松过程，成功事件记为第一次“成功”发生的时间（记作 \(\tau\)）。未成功则过程永不停滞。
- \(a_t\)：代理人（agent）在 t 时刻的努力（effort），是一个非负、控制泊松过程速率的控制变量。具体地，P(在 \([t, t+dt)\) 内成功 | 历史信息) = \(a_t dt\)。 \(a_t\) 是代理人的隐藏行动。
- \(W\)：流支付（flow wage）。代理人得到 \(W(a_t, \text{状态})\)，而代价是努力成本 \(c(a_t)\)。\(c\) 是严格凸、递增且 \(c(0) = 0\)。
- \(C\)：代理人累计薪酬，在项目成功的时候支付（\(S\)，或一系列现金流）。
- \(\mathbb{E}[\cdot | \mathcal{H}_t]\)：基于代理人信息集的期望。
- \(p_t\)：代理人自己对“在时刻 \(t\)，成功事件是否已经发生？”的后验信念。注意，成功是不可被代理人自己观测的（这是信息操纵的关键！）——代理人只能根据委托人给的反馈更新信念。
- \(f(p_t)\)：最优值函数，即当当前存活信念为 \(p_t\) 时，委托人的剩余价值（取负，因为要最小化成本）。
- 可观测数据：委托人观测到成功事件的发生（非 \(t\)），并且可以任意欺骗代理人（不透露成功，或透露延迟）。委托人最终能验证的是代理人是否成功（例如，一个最终成功的结果），但不能观测到代理人每个时刻的努力（道德风险）。
- 要估的（其实是设计）：最优的状态依赖的契约为 \(\{S, W(p_t), \text{及披露规则}\}\)。这是一个前瞻性设计问题，不是统计学上的估计。

第二步：讲最小内核¶

最简特例：假设这个项目是单次、无法重复、代理人只工作一期（\(t \in [0, 1]\)，不连续工作到成功）。那么： * 模型退化：代理人需要选择恒定努力 \(a\)。委托人提供的契约为：如果 \([0,1]\) 内成功则支付 \(H\)，否则支付 \(L\)。并且，委托人承诺只会在时刻 \(1\) 时告知代理人成功与否。 * 核心问题：是否应该在中间时刻（\(t < 1\)）告知代理人成功？如果告知，代理人会立即停止工作，这节省了努力成本。但如果不告知，代理人（由于担心失败）会保持高努力直到最后一刻——从而增加成功概率。 * 数学表述：令无告知时代理人选择 \(a^*\)，告知时从 \(t\) 开始到 1 不再工作（努力为 0）。代理人选择 \(a^*\) 最大化的期望效用：\(\max_{a} \{ \mathbb{E}[U] \}\)。而委托人支付期望成本 \(\mathbb{E}[H]\)。 * 结论（在此极端特例下）：隐藏信息之所以可能最优，是因为它防止了代理人懒惰——你越让他知道成功已经发生，他就越早卸力。这个直觉准确抓住了全文的核心机制。而全文的一般化是把这个“努力与停止”的博弈嵌入连续时间，并让成功概率取决于过去的努力，从而产生了“向后复利效应”——早期不知道成功，则后期（如果最后才被告知）的巨大成功概率会抵消掉一部分隐藏成本。它给出了最优停止规则: 当且仅当 \(p_t\)（代理人存活后验信念）进入某个阈值区间才披露成功，而在这个阈值之前，绝对保持沉默。全文定理的论证就是从这个阈值判断开始的。

三、这篇论文做了什么¶

三句话：
1. 问题：在一个连续时间、二元绩效的动态道德风险模型中，委托人如何联合设计最优激励契约与绩效反馈披露规则？
2. 核心工具：一种新颖的激励相容分析方法——将代理人信念 \(p_t\) 设为一个可控状态变量，其动态演化由委托人选择的反馈策略决定。利用一个双状态动态规划（代理人处于“不知”和“已知”两种信息状态），系统求解HJB方程。
3. 主要结论：最优契约是两阶段结构——一个沉默阶段（silent phase），其间代理人不获得任何反馈、被要求持续工作；紧接着一个完全透明阶段（full-transparency phase），一旦事先设定的绩效阈值（成功）被触发，代理人立即停止工作，并得到报酬。这个两阶段解源于“向后复利效应”：在初期，隐藏信息导致高努力的有效性（成功概率对努力的敏感性高），但后期，隐藏信息的信念差异化风险（代理人高估自己已经成功的概率，从而可能需要很高的努力成本才能被激励）会呈指数级上升，因此只能在中后期变成透明。
关键设定与假设：
- 设定：连续时间、无限期界、泊松成功过程（成功与否 = 一次性突破事件）。代理人风险厌恶且无贴现，委托人风险中性。努力是非负的，且影响泊松强度。契约包括一个负底薪（即代理人必须付钱工作）、成功后的奖金、以及可以自由选择何时披露（委托人可以“假装”成功未发生一段时间）。
- 关键假设：
  - (A1) 努力是不可观测的隐藏行动。
  - (A2) 绩效是二元验证：成功一旦发生就被委托人（或第三方）获知，但代理人可能不知。代理人从委托人那里“学习”。
  - (A3) 努力成本 \(c(a)\) 是严格凸、可微且 \(c(0)=0\)， \(c'(0) = 0\)（高努力无限增加成本）。
  - (A4) 代理人的保留效用为零（必须签订激励相容契约）。
  - (A5) 无承诺问题：委托人完全承诺。
- 相比已有文献（相比 Holmström-Milgrom 1987）：放宽了“绩效信息即时公开”的假设，允许委托人操作信息；相比 Ray (2008)：内生了代理人努力水平而非外生给定，且允许最优延迟披露。
主要结果：
- 定理 1 (最优结构)：最优值函数 \(f(p)\) 满足一个 HJB 方程。它的解产生一个阈值 \(p^*\)。当 \(p_t < p^*\)（代理人信心低，指责自己可能已经失败时），最优是从不告知成功（沉默阶段）；当 \(p_t \geq p^*\) 时，一旦成功立即告知（透明阶段）。这是唯一最优策略。
- 定理 2 (最优努力)：在沉默阶段，最优努力 \(a(p)\) 是信念 \(p\) 的严格增函数。这意味着代理人越相信“成功即将到来”（高 \(p\)），委托人需支付越高奖励才能激励他不偷懒。这推动了“复利效应”。
- 定理 3 (成本)”：隐藏信息的总成本由两部分构成（1）直接努力浪费：在代理人不知道成功时，他仍会持续付出努力，而这些努力在事后看来是浪费（因为项目已成功）；（2）激励成本增加：由于不知情，代理人的努力-薪酬关系必须更陡峭以弥补遗忘风险。作者证明，这两种成本在早期很小，但随着时间推移（即从项目的“年轻”到“老”），成本按指数增长——“向后复利效应”。于是在某个特定时刻后，透明就变得比沉默更优。
证明路线与技术技巧：
- 整体路线：
  1. 第一步：规范问题。将连续时间动态博弈转化为一个马尔可夫决策过程，其中核心状态变量是代理人的后验信念 \(p_t\)。代理人也根据 \(p_t\) 决定努力。
  2. 第二步：推导激励相容约束。关键跳跃点：用一个“条件期望”技巧绕过传统Bellman方程中关于努力与信念的复杂耦合。证明，在最优时，委托人让代理人面临着恒定的“跨期替换率”（即当前努力延迟，对后续价值的影响），于是努力可以是关于内部变量 \(p\) 的直接函数。
  3. 第三步：设定最优披露规则。假设一个候选解：达到阈值 \(p^*\) 后，披露最优。反向构造法：用 HJB 方程证明，在这个阈值一侧，偏离它会违反动态规划的一阶条件。作者使用了“对比定理”比较两种策略的期望效用流。
  4. 第四步：验证“无偏离”。通过一个长椭球不等式验证，证明在 \(p < p^*\) 时，任何偏离（在成功发生时立刻披露）都会降低委托人的期望利润。
- 关键跳跃点：核心难以处理的是信念演化方程——即时披露会使得成功时 \(p_t\) 跳跃到 1（确信成功），反之则不变。要证明“最优化这个跳跃点本身”需要处理一个分段常数型的最优控制。作者使用“最优停止理论”中的鞅方法，将最优披露率转化为一个偏微分方程的自由边界问题，并证明阈值的存在。
- 技术技巧：
  - 鞅方法 (使用Girsanov变换) 用于证明代理人信念 \(p_t\) 是鞅，从而让努力水平直接由当前信念决定。
  - 最优停止理论的统计验证：将“何时宣布成功”视为一个最优停止问题并给出阈值。
  - 分离原则直觉：先最优激励努力（沉默阶段），再解决信息揭示（透明阶段）。这一分离是由解析证明而非假设得出的，这是本文的一大亮点。
  - （没有用到 U-统计量、经验过程或电子表格、高阶影响函数等工具——与用户技术武器库的匹配度较低。）
真实例子与应用 本文为纯理论，无实证或模拟例子。所有案例都是假设的定性描述（如“研发项目”、“销售管理”），没有任何实际数据或数值模拟表格。这是一篇不提供可量化验证的纯理论 paper。
🔎 结论是否比证明窄
- “定理 3”中关于“向后复利效应是指数增长的”的陈述，其实是在一个特定参数条件下严格证明的：即 \(c(a)\) 是二次型且 \(a_t\) 在均衡态是严格正。对于更一般的凸成本函数（如 \(a^k\) 且 \(k>1\) 但非 2），作者只给出了一个猜测性的论证（见第6节“延伸讨论”）。因此，严格的经验测度“复利效应的指数性”并未在所有用例下得到证明。
- 论文声称“两阶段结构”是唯一最优的。但证明依赖于无贴现假设（\(r=0\)）。如果在模型中引入正贴现因子（\(r>0\)），作者承认，最优结构可能不再是严格的“沉默→透明”，而是会有一些“曲折”——这是作者明说的局限：“Our model assumes … no discounting. The case with positive discounting is an open question.”
- 总结：结论（两阶段最优）被严格证明的比例很高，但扩展到更复杂参数（正贴现、更一般成本函数、安全收益归委托人所有）时只是 conjecture。

四、开放问题¶

引入正贴现因子 \(r>0\)：当代理人和委托人都贴现未来时，向后复利效应会如何变化？最优策略是否仍然是“沉默→透明”的简单两段式？还是会出现“混合策略”（例如，偶尔提前披露）？这是正文第 6 节提到的开放问题。扎根点：第6段“If the agent discounts the future … the backward compounding effect is weaker, and the principal may benefit from a more gradual disclosure …”。
多阶段或多代理人：如果项目成功不是一次性事件（例如一个长期项目会经历多个里程碑），最优反馈策略会变得多复杂？扎根点：引言最后一段“extending our framework to environments with multiple milestones … seems a natural direction”。
内生成功价值：如果成功价值不是固定的（\(H\)），而是依赖于代理人在成功发生前的努力水平（即“努力质量”影响项目长期回报），那么隐藏信息的价值是否会下降？因为代理人可能会只是完成早期工作就退出。扎根点：文中假设了 \(H\) 外生固定。若能将其与努力内生化，可能导致信息透明度的提升特别是当 \(H\) 取决于总努力时。
实证/实验验证：本文结论的定性预测（隐藏信息→更高努力；但薪酬成本更高）有多大程度的外部有效性？是否存在真实世界的契约设计（例如，PE/VC基金的利润分配+透明开关）就是本文描述的结构？这是一个亟待实证检验的断言。扎根点：正文没有任何真实数据例子，所有“意义”都是理论推理。可以设计现场或实验室实验，检验\(p^*\)的存在性与努力路径。

Maintained by 陈星宇 · Homepage · Source on GitHub