Adventures in Demand Analysis Using AI¶
讲者: Victor Chernozhukov
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-27
主题: 因果推断
视频: https://youtu.be/YN29rc-E530?si=M7q5KcxZgF5Jaaa8
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于需求分析 (demand analysis) 中的价格弹性估计这一子方向,核心是如何利用现代 AI(transformer 嵌入)从非结构化产品数据(文本、图像)中自动提取高质量的产品特征,以改进 hedonics(享乐)回归和因果推断。
- 这个方向在追问什么:传统需求分析依赖有限的数值型产品特征(如重量、尺寸、评分)来建模需求对价格的反应,但这些特征往往不够丰富,导致严重的遗漏变量偏误(所谓“向上倾斜的需求曲线”)。当前 frontiers 之一是:能否用深度学习的嵌入 (embeddings) 无监督地生成产品的高维、语义化表示,从而像“一个懂行的专家”一样捕捉产品相似性,进而提升预测和因果识别的质量。
- 奠基与主流路线:hedonics 可追溯到 Lancaster (1966)、Griliches (1971) 和 Rosen (1974),近期 Pat Bajari 等人用 Amazon 内部数据做了大规模 hedonic 价格指数(Bajari et al., 2021, J. Econometrics;转写中提及与 Bajari 的合作)。Chernozhukov 本人是双机器学习 (DML) 的提出者之一,其技术已在许多高维因果问题中验证。
- 当前 frontier & 本报告站位:更近的文献(如 Agarwal et al., 2018; Anderson et al., 2020)开始用 word2vec / BERT 嵌入做产品分类和需求预测,但 Chernozhukov 等人试图把整个流程一次性走通——从公开数据抓取、多模态 transformer 嵌入生成、维度缩减,到 部分线性模型中做价格弹性估计,并辅以反事实敏感性分析。报告强调:这些 AI 嵌入 不是强混淆因子(因为它们不能预测价格变化),而是重要的 效果修饰因子(effect modifier),使弹性呈现有意义的异质性。
- 关键引用(可能有 ASR 误拼):
- “Adventures in Demand Analysis Using AI” (arXiv, 2025?) – 报告主体论文,合作者包括 Philips、Yan、Martin、Suhush(名字可能听错,需核对视频或 arXiv 页)。
- Bajari, P., et al. (2021/2024). “Hedonic Price Indexes Using AI.” Journal of Econometrics(转写 [0:08:03] 提到 2024 年发表)。
- Wright, P. (1928, unpub.; 2024 published) – 最早提出 IV 解决供需联立偏误,报告用以说明潜在即时混淆问题。
- Chernozhukov, V., Cinelli, C., Newey, W., Syrgkanis, V., Sharma, A. (2024?) – 敏感性分析方法(转写 [0:49:44] 提到 Carlos Selli / Whitney Newi / Vasilis Saranas / Amit Sharma)。
⚠️ 以上作者 / 论文细节均来自 ASR 转写,可能含拼写错误,例如 “Carlos Selli” 极可能是 Carlos Cinelli,“Whitney Newi” 为 Whitney Newey,“Vasilis Saranas” 为 Vasilis Syrgkanis;“Pat Bayari” 为 Pat Bajari。务必以 arXiv 或论文原文为准。
二、最小内核 / 一个最简例子¶
符号与模型¶
- 可观测数据:对每个产品 \(i\)、时期 \(t\) 有
- 价格:\(P_{it}\)(取 log 得 \(p_{it} = \log P_{it}\))
- 销量排名:\(\text{rank}_{it}\),转化为“数量信号” \(q_{it} = \log(1 / \text{rank}_{it})\)(约等于 0.5 × 真实对数销量,需乘 2 得到需求弹性)
- 产品静态非结构化特征:文本描述 \(T_i\)、图像 \(I_i\)、少量表格特征(评分、浏览节点)
- 动态 lag 变量:\(q_{i,t-1}, p_{i,t-1}\) 等
- 因果 estimand:价格弹性 \(\theta\) = 从“外生价格变化 \(dp\)”到“数量变化 \(dq\)”的平均偏效应(或异质函数 \(\theta(X)\))。
- 潜在不可观测量:时期-产品特定的需求冲击 \(\varepsilon_{it}\)(可能同时影响 \(q_{it}\) 和 \(p_{it}\),导致内生性)。
一个最简特例(d=1,单产品,两期)¶
假设只有一个产品(Toy Car A),两期(\(t=1,2\))。
- 第一期价格 \(p_1\),数量 \(q_1\);第二期价格改变为 \(p_2\),数量变为 \(q_2\)。
- 除价格外,产品本身特征(文本、图像)不随时间变,记作嵌入向量 \(e\)(256 维,从 BERT + ViT 得来)。
- 还想控制“过去可见性”:即 \(q_1, p_1\)。
朴素回归(忽略滞后):
用两期数据估计得 \(\hat{\beta} \approx 0\)(不合理,因为遗漏了 \(q_{i,t-1}\) 和 \(p_{i,t-1}\))。
加入滞后状态(对应报告中的 DAG):
此时 \(\hat{\beta} \approx -0.7\)(对应 rank 弹性),乘 2 得需求弹性 \(-1.4\),合理。
AI 嵌入的作用:
- 若不使用 \(e\),仅用滞后变量回归,R² 较低,\(\beta\) 仍近 \(-0.7\) 但模型拟合差,无法刻画异质性。
- 若允许弹性本身随产品特征变化(即交互项 \(p_{it} \times e_i\)),发现弹性范围从 \(-0.25\) 到 \(-1.5\),且 AI 嵌入的相似度特征(centroid similarities)是显著的效果修饰因子。
- 即:嵌入主要不是用来“控制混淆”(因为价格变化与嵌入几乎独立),而是用来揭示“什么产品对价格更敏感”。
三、报告主体:讲者讲了什么¶
以下按时间线整理核心内容,时间格式为 [H:MM](从视频开始算起)。口语转为书面,保留关键数字和结论。
1. 背景与动机 [0:00 – 0:05]¶
- 讲者感谢介绍,提到自己从疫情后第一次线下演讲。
- 本工作源于教学需求(需要一个公开可复现的案例)和 JASA “Statistics and AI” 特刊。
- 回顾历史:100 年前 JASA 发表了 Philip Wright 等人的开创性论文,奠定了计量经济学的基础(供需分析、工具变量),启发了本工作。
- 另一个动机是hedonic 建模传统(Lancaster, Griliches, Rosen),尤其是与 Pat Bajari 合作的 AI hedonic 通胀测量工作(已发表于 Journal of Econometrics 2024)。
- 核心目标:用 AI(transformer-based embeddings)重访需求分析中的价格弹性估计,特别是从因果角度。
2. 数据与 quantity signal [0:05 – 0:13]¶
- 数据来源:公开的 Amazon 玩具车(toy car)销售数据,通过专业爬虫 keepa.com 获取。每个产品有标题、描述、图像、价格、评分、浏览节点(browse node)。
- 时间结构:12 个时期,每期 4 周(约一年)。
- 构造 quantity signal:\(\text{log inverse rank} = \log(1 / \text{rank})\)。
- 引用 IO 经济学文献(有内部销售数据的研究)发现销量与排名近似服从幂律(power law),且系数约为 2。
- 因此真实对数销量 ≈ 2 × log inverse rank,所有弹性估计须乘以 2 才能得到需求弹性。
- 价格信号:\(\log(\text{price})\)。
- 价格粘性(sticky prices):价格多为分段常数路径,不随需求冲击瞬时调整,这对识别至关重要。
3. AI 嵌入的生成与 Transformer 简介 [0:14 – 0:22]¶
- 使用三种预训练 transformer:
- 文本 → BERT(讲者发音似 “bird”)
- 图像 → ViT(发音似 “byte” model?实际极可能是 Vision Transformer)
- 表格数据(少量数值+浏览节点) → SAINT(一种 tabular transformer)
- Transformer 三大支柱:
- 自监督(self-supervision):用 masked language modeling (MLM) 生成无限伪标签,训练初始嵌入。
- 注意力机制(attention):捕捉词汇的上下文依赖(如“truck”可指真卡车或玩具卡车)。
- 微调(fine-tuning):在嵌入之上加一个浅层神经网络 \(M\),预测所有时期的 \(q_{it}\) 和 \(p_{it}\),然后将梯度反向传播微调嵌入层少量参数。
- 最终得到 256 维 嵌入向量,经中心化 + 单位范数归一化,使产品分布在单位超球面。
- 这一“嵌入→预测→微调”流程被讲者称为“因果微调”(causal fine-tuning),其实仍是预测任务。
4. 定性验证:嵌入是否理解产品? [0:22 – 0:29]¶
- PCA 降维 + K-means (K=5):
- 使用全部信息(文本+图像)的 PCA 投影显示 5 个簇内部紧致、分离良好。
- 仅用文本(去掉图像)时,簇内部出现混杂(如玩具车+轮胎在一个簇),说明图像提供了互补信息。
- 查看各簇 centroid 最近邻产品:人类观察者认为同簇产品确实相似。
- 延伸应用:用 GPT 自动生成簇的描述和代表性图像,可用于自动生成产品目录。
5. 定量评估:预测性能 [0:29 – 0:37]¶
- 被预测变量:quantity signal \(q_{it}\)、price signal \(p_{it}\),以及它们的时间差分 \(\Delta q_{it}, \Delta p_{it}\)。
- 对比设定:只使用表格特征(评分、浏览节点) → 线性回归 R² ≈ 20%/15%;改用梯度提升树(boosted trees) → 最高 47%(数量)。
- 使用完整 AI 嵌入(经过微调):
- 预测价格 R² ≈ 66%
- 预测数量 R² ≈ 60%
- 图像嵌入的增量贡献很小(可能因样本量仅约 17,000)。
- 关键发现:嵌入 不能预测价格变化 \(\Delta p_{it}\)(R² 很低),暗示这些静态嵌入不是价格变化的强混淆因子——这对后续因果分析是重要线索。
- 维度缩减:尝试将 256 维降至 5 维,两种方法:
- 传统 PCA(5 个主成分)
- “centroid similarities”(每个产品与 5 个簇中心的内积,可看作软聚类)
- 两者用于预测时 R² 仅略低于全 256 维(分别为 62% 和 52%),因此下游因果模型可使用 5 维代替 256 维,大大简化。
6. 因果分析:价格弹性估计 [0:37 – 0:47]¶
- 第一阶段:运行部分线性模型(投影 \(q\) 到 \(p\) + 产品协变量),得到 近似为零的弹性——不合理(“doubling prices won’t make you any richer”)。
- 诊断:遗漏了过去销量(可视性/推荐系统)和过去价格。
- DAG:状态 \(s_{it}\) 包括滞后数量、滞后价格、固定产品特征。动态结构下,\(s_{it}\) 同时影响当期数量和当期价格。
- 加入滞后 \(q_{i,t-1}, p_{i,t-1}\) 后,平均 rank 弹性稳定在 -0.7(乘 2 得需求弹性 -1.4)。该值在不同控制函数(线性 / boosted trees)和不同嵌入规范下基本不变。
- 那么嵌入还有什么用?
- 它们不是强混淆因子(因为不预测价格变化),但它们是强效果修饰因子。
- 将弹性建模为 7 个变量(5 个 centroid similarities + 滞后价格 + 滞后数量)的函数,估计异质弹性。
- 排序后的弹性范围:约 -0.25 到 -1.5(rank 弹性),统计检验显著(无论是全组修饰因子还是仅 AI 嵌入)。
- 说明静态 AI 嵌入揭示了产品间的系统性弹性差异,但不能进一步解释时序变化。
7. 局限性:即时混淆与敏感性分析 [0:47 – 0:51]¶
- 主要威胁:即时需求冲击(如当期的促销活动、外部排名变化)可能同时影响价格和数量(Philip Wright 100 年前指出的联立性)。
- 价格粘性减轻了该问题,但不能完全排除。
- 敏感性分析(基于 Chernozhukov, Cinelli, Newey, Syrgkanis, Sharma 的方法):
- 假设一个未观测混淆因子能解释控制滞后后的残差方差的 5%(讲者认为这一假设较保守)。
- 得到平均弹性识别区间:[-0.9, -0.47],进一步加上置信区间得 [-0.97, -0.409](乘 2 即需求弹性区间)。
- 该区间仍处于经济学合理范围,但失去了点估计。
8. Q&A 关键点 [0:52 – 0:59]¶
- 关于敏感性分析中的基准变量:讲者表示他并未使用嵌入的预测能力做基准,而是基于表格特征。他强调敏感性分析需高度语境化。
- 关于替代品价格:讲者回应说论文附录确实加入了替代品价格指数,结果基本不变。
- 关于是否需要将表格数据也嵌入:讲者坦言这是合作者的决定,主要是为了展示完整流程;对于少量表格特征未必有必要。
四、对应论文与开放问题¶
对应论文¶
| 论文(基于转写推测) | 状态/出处 |
|---|---|
| “Adventures in Demand Analysis Using AI” (合作者包含 Philips, Yan, Martin, Suhush – 需要核对 arXiv) | 报告主体论文,已上传 arXiv(转写 [0:08:30]) |
| Bajari, P., et al. “Hedonic Price Indexes Using AI” | Journal of Econometrics, 2024(转写 [0:08:03]) |
| Chernozhukov, V., Cinelli, C., Newey, W., Syrgkanis, V., Sharma, A. “Sensitivity Analysis for Causal Inference with… (?)” (方法论文) | 未在转写中给出标题,但讲者明确提及五人合作 |
| Wright, P. (1928) 未发表手稿 | 于 2024 年在某计量经济期刊正式出版(转写 [0:48:10]) |
⚠️ 以上作者拼写均来自 ASR,务必对照原视频或论文页面修正。
留出的开放问题(每条扎根于转写具体时间点)¶
- [0:47:40] 如何更好地处理即时需求冲击(\(\varepsilon_{it}\))对价格和数量的同时影响?讲者仅用了一个保守的敏感性分析(5% 残差方差),但若该假设不成立,识别可能完全失败。
- 潜在方向:利用更丰富的动态结构(如价格调整成本模型、外部供应冲击工具)、或者更复杂的部分识别方法。
- [0:32:00] 图像嵌入在小样本(约 17k)下未显示明显增益,讲者推测更大样本(数百万)会不同。如何系统性地判断多模态嵌入的增量价值?有何正式检验或实验设计能区分“缺乏信息”与“样本不足”?
- [0:44:14] 为什么静态 AI 嵌入能解释弹性异质性但几乎不贡献横截面混淆?这一现象是普遍规律还是特定于 Amazon 玩具市场?有无理论(如竞争均衡、定价算法)可预测此类模式?
- [0:28:55] 讲者展示了用 GPT 自动生成产品目录描述。能否将这一思想与反事实生成(counterfactual product design)结合——即找出能使弹性降低(利润提升)的产品特征组合,并用生成式模型验证可行性?
- [0:36:52] 维度缩减(centroid similarities vs PCA)表现几乎相同,但两者在下游因果模型中的解释性有差异。对于实践者,是否存在选择准则应当基于弹性异质性的稳定性而非预测 R²?
- [0:54:04] 替代品价格在附录中显示影响很小。这是否暗示所估计的弹性实际是“自身价格效应”而非“市场需求效应”?需什么样的数据或设计才能区分?
Maintained by 陈星宇 · Homepage · Source on GitHub