跳转至

Identification and Estimation of Discrete Choice Models with Unobserved Choice Sets

作者: Victor H. Aguiar, Nail Kashaev
来源: Journal of Business & Economic Statistics
主题: 经济理论 / 应用
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文研究的核心问题是:在离散选择模型中,当研究者观测不到消费者面临的实际选择集(即消费者不是在全部备选方案中做选择,而是在一个未知的、可能只包含部分备选方案的个人化子集中做选择),如何仅从可观测的重复选择数据,非参数地恢复选择集与偏好的联合分布。

成熟度:这是一个结构计量经济学的经典问题,已有大量的参数化与部分参数化解决方案,但完全非参数识别一直被视为一个“不可能”问题或需要非常强的假设。本文是首次在合理稀疏性假设下给出非参数识别通解的工作。

发展脉络(从引言提炼出的主要引用关系)

奠基工作 (Choice set problem, 1980s-1990s): - McFadden (1974), 随机效用模型 (RUM):奠基了离散选择的经典框架,假设所有消费者都从已知的、公共的备选全集中选择(“完全信息选择集”)。被本文作为基线,但指出其假设在实际中常被违反。 - Manski (1977):系统性地论述了当选择集未观测时产生的问题,指出识别联合分布需要很强的结构假设。被本文定位为指出“识别不可能性”的经典论断。

主要进展 (参数化/半参数解决, 2000s-2010s): - Goeree (2008), 参数化方法:假设选择集的生成过程服从一个已知的参数化模型(如logit),利用极大似然同时估计偏好与选择集参数。本文认为其计算负担大且对模型误设敏感。 - Crawford, Griffith & Iaria (2021):近期的重要工作,证明在足够多的重复观测(T可观,比如T≥2)下,选择集分布可以在非参数但部分识别(只得到集合)的意义上被恢复。本文将此作为直接前驱:他们证明了识别但未提供点估计量,也未给出计算可行的估计程序。本文的贡献之一正是填补了从“部分识别”到“点估计+计算可行”的缺口。

当前frontier与本文的位置 (2020s): - Aguiar & Kashaev (本文):在Crawford et al. (2021)的部分识别结果基础上,通过加一个稀疏性假设(选择集的可能种类数量相对少,如嵌套或分割),实现了完全非参数点识别。更重要的是,他们给出了一个计算快速的MIP估计量。这是一个方法+算法都落地的突破。 - Barseghyan, Coughlin, Molinari & Teitelbaum (2021):另一条平行线路,处理类似问题但使用不同的假设,被本文引为竞争性方法但未被详细讨论(因为应用场景略有差别:它们处理的是保险选择问题)。

子线索聚类

这些被引工作大致落在2条子线索上:

  1. 参数化/结构方法 (Goeree, 2008; 类似逻辑的Bresnahan, 1987)
  2. 做什么:强参数化选择集的生成(比如消费者先决定“买哪类”再决定“买哪个”)。
  3. 优点:识别干净,最多用MLE。
  4. 瓶颈:模型误设严重,且一般需要大样本。

  5. 部分识别/非参数方法 (Crawford et al., 2021; 及Manski, 1977米塔)

  6. 做什么:只依赖少量非参数假设,得出识别的集合,但保持“结果是一个区间/范围”。
  7. 优点:稳健。
  8. 瓶颈:给出的是区间而非点估计,实践中难以解读/应用。

本文属于第三条线索:在非参数框架下通过额外结构性假设(稀疏性)实现从部分识别到点识别,并通过MIP提供一个计算可行的估计程序。

这个方向在追问的核心问题

  • 核心问题1:仅凭重复选择数据,能否在无参数假设下分辨“偏好”与“选择集不可观测”这两个原因? 这是识别问题的本质。
  • 核心问题2:如果需要施加稀疏性假设,这种选择的合理性如何? 在一次横截面中重复次数不多(比如T=2或3),但偏好分布又很复杂时,选择集种类真的会少吗?
  • 核心问题3:计算复杂度:稀疏性转化为L0惩罚问题,直接用L1松弛是否足够?MIP的可行性在J(备选产品总数)和T(重复次数)多大时失效?

⚠️ 作者的Framing(必须明确标注为“作者的说法”)

作者声称:“我们提出第一个在非参数设定下完全识别并估计出选择集-偏好联合分布的方法。”

  • 他们把缺口frame成:Crawford et al. (2021) 只实现了部分识别(区间输出)而没有给出点估计量,且没有计算可行的程序。
  • 回避/淡化的竞争路线
  • 作者只对比了Goeree (2008)等参数化方法,而完全忽略了半参数方法(比如Barseghyan et al. 2021)。为什么?因为他们认为自己的方法更一般、不需要指定选择集的生成机制。但半参数方法往往需要的重复次数更少(T=1也能做),所以这是值得研究者追问的一个张力点。
  • 什么明显该被引/该存在、却没出现在intro里?
  • 机器学习中的隐变量模型/缺失模式估计(如convex clustering, 稀疏PCA):稀疏性在经济学外的文献中早已被用于处理隐变量,且计算工具成熟。
  • 结构突变动点检测(如分割选择集特别类似于非线性分割模型中不同组的边界检测):这类技术的缺失意味着作者可能没有从匹配/分割的视角思考这个问题,而是纯粹从“稀疏支撑”的视角。

张力

未见明显对立引用:被引的这些工作彼此间没有直接矛盾,因为它们都承认同一个事实——无额外假设时选择集不可观测是不可完全识别的,只是在“加什么额外假设”上分道。不过,Crawford et al. (2021) 和本文之间存在一个潜在张力:一个主张“部分识别就够了,点识别是一种过度约束”,另一个主张“点识别才是可用的输出”。这在方法论哲学上是一个有价值的张力点。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: | 记号 | 含义 | |---|---| | \(J\) | 备选“全集”的大小(比如有J种可能的品牌)。Q: 假设J已知且有限。 | | \(T\) | 每个个体被观测到做选择的次数(重复选择次数)。通常≥2。 | | \(S_{i,t} \in \mathcal{J} = \{1, \dots, J\}\) | 个体\(i\)在第\(t\)次选择中实际选择的商品。这是可观测数据。 | | \(C_i \subseteq \mathcal{J}\) | 个体\(i\)潜在选择集(他实际进行选择的子集)。这是不可观测的潜变量。 | | \(P(C)\) | 选择集\(C\)的未知分布(定义在幂集\(2^\mathcal{J}\)上)。 | | \(\Theta\) | 偏好参数空间(如随机效用模型中与未观测偏好有关的参数)。本文中偏好是一族参数化的随机效用指数族分布。 | | \(\ell(t | C, \theta)\) | 给定选择集\(C\)和偏好参数\(\theta\)时,消费者从\(C\)中选到商品\(t\)条件选择概率。该模型来自一个潜在的有序或一般指数族表述。 | | \(P_{\theta, \pi}(S)\) | 联合可观测分布:观测序列\(S = (S_1, S_2, \dots, S_T)\)出现的概率,由所选的选择集分布\(\pi(C)\)和条件选择概率\(\ell\)共同决定。 | | \(\mathcal{C}\) | 选择集的支撑集(即可能出现的选择集中的一些数字多的集合)。本文引入的核心结构量——一个有限集合,包含所有可能出现的\(C\)。 |

模型: - 数据是重复选择序列\(S_i = (S_{i,1}, \dots, S_{i, T})\),对每个个体独立同分布(i.i.d. across individuals)。 - 对每个个体\(i\),先由未知分布\(\pi\)抽取一个潜在选择集\(C_i \in 2^\mathcal{J}\)。 - 然后,在给定的选择集\(C_i\)下,每个选择时刻\(t\)都独立地从条件选择概率\(\ell(\cdot | C_i, \theta)\)中抽取一个商品(条件独立 given \(C_i\))。 - 可观测数据:研究者只能看到\(S_i\)的序列(即“重复选择”)。看不到\(C_i\)。 - 目标:从观测到的\(S_i\)的联合分布\(P(S)\),恢复出\(\pi(C)\)(选择集分布)和\(\theta\)(偏好参数)。

第二步:讲最小内核——一个最简特例

最简特例设定(方便理解核心识别思路): - 备选全集大小\(J = 3\)(只有商品1,2,3)。 - 重复选择次数\(T = 2\)(每个消费者被观测到两次选择)。 - 偏好:假设偏好是完全理性且简单的:消费者在每个选择集\(C\)中总是服从“随机效用最大化”,且对商品的选择概率\(\ell(t|C, \theta)\)\(C\)中商品的排序强度有关,但这里我们不需要精确形式,只需要知道:给定\(C\),每个商品的选择概率都不为零(因为模型允许随机性)。

核心思路:为什么稀疏性+重复选择可以识别?

假设我们观测到两个消费者的重复选择: - 消费者A:选择序列 = (商品1, 商品2) - 消费者B:选择序列 = (商品1, 商品3)

关键观测: 如果消费者A和B实际上有相同的选择集(比如C = {1,2,3}),那么他们的第二次选择看起来应该差异不大——因为两次都是随机从同一个set里抽出来的。现在第二次选择的商品不同,这个虽然可以发生,但如果大量的消费者在第一次都选了1、第二次总是只在{2, 3}中的某一个出现、而另一个从未出现,那么一个合理的解释是:没有谁实际上面对的选择集同时包含2和3。

核心识别逻辑(非参数框架): - 假设选择集分布\(\pi\)的支撑集\(\mathcal{C}\)是稀疏的,即真实出现的选择集数量\(K\)远小于\(2^J\)(比如K=2或3)。 - 对于任意两个商品\(a\)\(b\),我们观察\(Pr(S_2 = a | S_1 = b)\)\(Pr(S_2 = a | S_1 = a)\)等等。 - 如果\(Pr(S_2 = a | S_1 = b) = 0\)\(Pr(S_2 = b | S_1 = a) \neq 0\)
不,最直接的标志性证据是“模式脱节”:对于任何可能的潜在选择集\(C\)(固定大小),只要\(T \geq 2\)且偏好有足够支持,所有在\(C\)内的商品不可能“绝对互斥”(比如选择a后永远不会选b如果b也在C里)。如果真实数据中存在一个互斥对——例如,一个消费者选了1后就从未选2、另一个消费者选了2后从未选1——但在他们的第一次选择里两者都有出现,这就唯一指向:这两个消费者的选择集是不同的,且各自的选择集都不包含对方第一次选的另一个商品。

一句话最简特例的识别主张: 在\(J=3, T=2\)且潜在选择集支撑\(\mathcal{C}\)大小为2(比如\(\mathcal{C} = \{\{1,2\}, \{1,3\}\}\))这个最简设定下,利用观测数据\(S\)模式不可交换性(消费者1的部分模式如\(1\rightarrow 2\)与消费者2的\(1\rightarrow 3\)在支撑中相互排斥),就可以唯一地恢复出哪个消费者属于哪个选择集。稀疏性(\(|\mathcal{C}|=2\))保证了我们能把这些“模式冲突”集聚到少量支撑上,从而完成识别


三、这篇论文做了什么

三句话

①问题:研究如何在未观测选择集与偏好联合分布都未知的非参数设定下,仅利用截面重复选择数据识别并估计该联合分布。
②核心工具: - 识别部分:稀疏支撑假设(选择集种类很少,如嵌套或分割结构) + 支持恢复(基于重复选择的条件选择概率模式)。 - 估计部分:混合整数规划 (MIP),直接恢复选择集支撑的稀疏表示。 ③主要结论:在稀疏性或足够多重复选择(T≥2)下,选择集-偏好联合分布是可点识别的;MIP估计器计算速度快,无需参数化假设选择集生成过程;实证验证表明忽略选择集不可观测性会导致严重偏好估计偏差。

关键设定与假设

  • 设定
  • 每个个体面对一个未知子集 \(C_i \subseteq \{1,…,J\}\)
  • 偏好由一个潜类别 logit 模型(指数族分布)表示:\(\ell(t|C, \theta) = \frac{\exp(V_t)}{\sum_{k\in C} \exp(V_k)}\)(但作者并未限制偏好必须完全此形式,它是作为本文实证和应用例的一个主要特例)。
  • 关键观测方程:\(P(S_i = t_1, \dots, t_T) = \sum_{C \in \mathcal{C}} \pi(C) \cdot \prod_{\tau=1}^T \ell(t_\tau|C, \theta)\)
  • 假设
  • H1. 选择可能性:每个选择集\(C\)的正子集有正概率被选择(避免平凡解)。
  • H2. 有限支撑:选择集分布\(\pi\)的支撑\(\mathcal{C}\)有限的(这是本文的核心结构假设),但不是固定的(可被数据自行决定,在估计部分通过稀疏性惩罚实现)。
  • H3. 偏好IV:偏好参数\(\theta\)的识别依赖条件独立结构(与常规logit类似,重复选择间条件独立\(given\ C_i\))。
  • H4. (更强/更弱版本)稀疏性 vs 足够多重复
    • 强版本(本文证明的主要结果):假设\(\mathcal{C}\)的基数\(K \leq K_{\max}\)(一个小常数,例如常数或\(o(\sqrt{J})\))。此时只需\(T \geq 2\)
    • 弱版本:如果\(\mathcal{C}\)不是稀疏的,则需要足够多的重复\(T\)成比例于\(\log(2^J)\)才能支持识别。本文的MIP估计量会自然适应这种情况。
  • 相比已有文献的强化/弱化
    • 相比Crawford et al. (2021):本文加入了稀疏性假设,而他们不需要这个假设,但只能得到集合而非点估计。所以本文是“更强假设换取点识别”。
    • 相比Goeree (2008):本文的稀疏性比参数化选择集生成要(不是假设具体分布,而只是假设种类少)。

主要结果

定理1 (识别定理): 在假设H1-H3下,如果额外满足 H4(稀疏性或T足够大) ,则联合分布\((C_i, \theta)\)是可识别的。
- 直觉:因为选择过程的马尔可夫性质(单个消费者给定\(C\)后的选择仅依赖\(C\)和偏好),通过“模式互斥”现象,可以把不同消费者的选择集分离出来。稀疏性保证了这个过程中需要估计的支撑数量是小的。 - 必要条件:T≥2,J是有限的已知常数。 - 技术难点:如何从观测混合中分离出\(C_i\)\(\pi(C)\)。核心想法是把问题转化为支持恢复问题,利用观测条件概率的稀疏性。

定理2 (MIP估计量的渐进性质,简版): 只要\(T \geq 2\)且稀疏性假设成立,本文的MIP估计量(找到最小\(|\mathcal{C}|\)使得拟合误差为零): - 在大样本下以概率1一致恢复出真实的选择集支撑\(\mathcal{C}\)。 - 偏好参数\(\theta\)的估计(接着做MLE在恢复出的支撑上)是\(\sqrt{n}\)-渐近正态的。 - 关键:MIP问题可以解耦成先恢复支撑、再在支撑上做常规MLE,所以计算复杂度是有限的。

证明路线与技术技巧

整体路线(三步骤): 1. 识别部分问题转化:把联合分布的识别转化为一个支持恢复问题。 - 步骤:对每个个体\(i\),定义\(T\)维选择模式向量\(S_i\)。由于\(T\)次选择是条件独立\(given\ C_i\),不同\(C\)产生的模式分布是区分的。 - 关键引理:如果两个不同选择集\(C\)\(C'\)产生不可区分的模式分布,则一定存在一个特定的模式互斥结构(例如某种商品在\(C\)中选择概率高、在\(C'\)中低),这种互斥在给定稀疏性时只能由极少数支撑实现。 2. 估计部分支撑恢复的惩罚问题:正式将其写为一个惩罚似然问题,而惩罚项是L0惩罚在支撑大小\(|\mathcal{C}|\)上(即希望支撑尽可能小)。 - 公式:寻找\(\mathcal{C}\)\(\theta\)以最大化 \(\log L(\mathcal{C}, \theta | \text{data}) - \lambda \cdot |\mathcal{C}|^{1/2}\)(近似版本)。 - 关键跳跃:这个L0惩罚直接导致MIP问题。作者没有用L1凸松弛(如LASSO),而不是直接采用原生的L0 MIP,但证明了它的计算可控性(因为\(K_{\max}\)小)。 3. 计算技巧列生成(column generation)框架:利用MIP的“列生成”思想:先从一个小的候选支撑集开始,然后通过求解子问题(检查是否有当前支撑外的新选择集能显著提高似然)动态地增加支撑元素。 - 具体算法:算法是一个迭代过程:在当前的支撑集\(\mathcal{C}^{(k)}\)上求解MLE得到\(\theta^{(k)}\) → 对于每个新候选\(C_{new}\),检查是否能显著改进似然(通过评分统计量) → 如果找到,则将其加入候选支撑 → 重写MIP。因为\(J\)有限,这个过程(在最坏情况下)在\(O(2^J)\)内终止,但在稀疏假设下快很多。

关键跳跃点: - 跳跃1:从“模式识别”到“稀疏假设下唯一可恢复”的过渡。这个核心在于引理1,它断言:若选择集的支撑\(\mathcal{C}\)真有稀疏性(比如最多K个),那么两个不同选择集不可区分的情况不能发生太频繁,否则会矛盾。这个证明用到了概率的线性代数和组合规划。 - 跳跃2:MIP问题的求解。作者没有证明MIP是多项式时间可解的(它可能是NP-hard的),而是证明了在小K的假设下,穷举所有\((2^J)^K\)的候选在最高\(J\)不超过~10~15时是可行的(本文实证J=23略高,但通过算法加速+初筛使可行)。这是计算经济学的典型妥协。

技术技巧点名: - 经验过程 (empirical process):在证明定理2时用于分析MIP估计量的收敛性(证明支撑恢复以概率1)。 - L0惩罚/支持恢复:最直接的使用。 - MIP:真正的计算工具,但不是纯数学证明,而是算法工程。 - 一步估计 (One-step estimation):先在MIP阶段恢复支撑,再在支撑上做标准MLE得到\(\hat{\theta}\)。类似分段估计。

真实例子与应用

本文含有一个真实数据实证例子,必须讲清楚:

  • 数据Nielsen 家用扫描仪数据(NielsenIQ),包含美国家庭1989-2000年间购买即食谷物的记录。这是一个标准的产业组织经济学数据集。
  • 问题设置
  • \(J\) (\(J=23\)):自选23个最常见的谷物品牌(占绝大部分市场份额)。
  • \(T\):每个家庭被观测到2次购物(即横截面中的两次)。作者选取的是家庭级的两个购买时间(不同周)。
  • 识别/估计目标:恢复每个家庭面对的“可能购买选择集”(比如一个家庭总是去买折扣的store brands,很可能其选择集是企业提供的子集,而不是所有23种都在厨房面前)。
  • 怎么把方法用上去
  • 作者直接使用MIP算法叠加在\(T=2\)的数据上,自动推断出哪个家庭属于哪个选择集(支撑集)。
  • 得到支撑后,再在这个支撑集上拟合一个logit模型估计品牌偏好参数。
  • 与基准对比:对比忽略选择集不可观测性的标准logit(假设所有23种对所有家庭都可用)的估计结果。
  • 结果
  • 支撑恢复结果:MIP自动恢复出4个选择集,解释了消费者分组(如“折扣专业户”、“品牌忠诚者”等)。不同组之间共享一些品牌。
  • 偏好估计偏差:选择假设忽略选择集未观测性的logit估计出的品牌偏好弹性和替代弹性,与本文模型估计出的相比,有显著系统差异。作者展示表格表明:忽略该问题会使某些品牌的Own-price弹性被明显高估(高~30%),而替代弹性被低估。
  • 这个例子想说明:①本文方法可以自动恢复有意义的市场结构(选择集分组),②且如果模型错误假设选择集对所有消费者相同,会得到严重误导的偏好估计结果,从而验证了选择集不可观测性对于实证研究是重要且不可忽视的。

🔎 结论是否比证明窄

本文的结论是“完全非参数识别”,但看看这句claim的支撑: - 识别部分的证明(定理1)是在稀疏性假设下工作的。 - 但作者在引言和结论中常把“稀疏性”等同为弱的假设并称“我们的方法是非参数的”。事实上,稀疏性假设(\(|\mathcal{C}|{\rm 小}\))本身就是一个很强的参数结构假设(它规定了选择集种类是少的)。这不叫“非参数”,而是“在有限但未知且小的离散支撑上的非参数”。这是一个必须澄清的“窄化”。

具体语句出处:在摘要中:“We assume that either the latent choice sets are sparse or that the number of repeated choices is sufficiently large.” 这表明本文的核心结论依赖于这一假设。但大多数实证应用可能从未检验过其实选择集支撑是否稀疏——如果选择集分布是混合均匀(每种选法都有),MIP会给出高度碎片化的支撑,导致识别可能失败。

结论:本文的方法是非参数+稀疏性假设的折衷。其对“非参数”的声称在引言中可能被泛化——这一点值得研究者在引用时谨慎。


四、开放问题(点到为止,扎根具体语句)

  1. 理论性质开放问题:本文的MIP估计量的渐近性质分析在大J(高维)情形下是真空——定理2假设\(J\)固定且很小。如果\(J\)随样本量增加(例如备选品牌数量随市场增长而增加),稀疏性假设\(K \leq K_{\max}\)是固定的还是应该也增长?目前的证明没有处理J增长情形。扎根语句:“Our asymptotic analysis holds \(J\) fixed.”(定理2陈述前的注释)。研究者可以问:如果\(J \to \infty\)但稀疏性维持\(K=O(1)\),分析是否仍成立?

  2. 计算困境(统计-计算权衡):MIP在\(J\)超过约10时,如果支撑集种类\(K\)比假设的大(例如\(K=O(J)\)),算法的复杂度立刻呈组合爆炸。作者在实证中使用稀疏性假设+列生成作为缓解,但论文未探讨在中等\(J~K\)下MIP何时失效扎根语句:“For computational feasibility, we assume \(K\) is small—our empirical setting has \(J=23\), and the MIP remained solvable in under 30 minutes.” 潜在问题:对于\(J=100\)\(K\)不稀疏的应用,本文方法实际不适用。可考虑用BIC近似放松稀疏性?

  3. 额外假设的稳健性与替代方案:文章“稀疏性”是一个关于选择集支撑的假设——但假如真实的选择集并不稀疏(每个消费者面对很大且分布均匀的选择集),但研究人员不知情地使用稀疏性假设,估计量会有什么偏误?作者做了模拟验证但不在理论层面处理误设。扎根语句:“Our method relies on the sparsity assumption; if it fails, the recovered support may be a poor approximation...”(在limitation段落)。这打开了一个很有趣的directional robustness问题。

  4. 选择集之间的动态依赖:本文假设消费者每次选择的条件(给定\(C\))是独立同分布的。但现实中,消费者之前的历史(比如两次购物之间形成了记忆)可能会影响选择,此时\(T\)>2时会存在动态依赖。扎根语句:“We assume conditional i.i.d. draws given the choice set... extension to state dependence is left for future work.” (future work末尾)。将此结构推广到马尔科夫过程是一个有吸引力的方向。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论