Identification and Estimation of Discrete Choice Models with Unobserved Choice Sets¶

作者: Victor H. Aguiar, Nail Kashaev
来源: Journal of Business & Economic Statistics
主题: 经济理论 / 应用
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在离散选择模型中，当研究者观测不到消费者面临的实际选择集（即消费者不是在全部备选方案中做选择，而是在一个未知的、可能只包含部分备选方案的个人化子集中做选择），如何仅从可观测的重复选择数据，非参数地恢复选择集与偏好的联合分布。

成熟度：这是一个结构计量经济学的经典问题，已有大量的参数化与部分参数化解决方案，但完全非参数识别一直被视为一个“不可能”问题或需要非常强的假设。本文是首次在合理稀疏性假设下给出非参数识别通解的工作。

发展脉络（从引言提炼出的主要引用关系）¶

奠基工作 (Choice set problem, 1980s-1990s): - McFadden (1974), 随机效用模型 (RUM)：奠基了离散选择的经典框架，假设所有消费者都从已知的、公共的备选全集中选择（“完全信息选择集”）。被本文作为基线，但指出其假设在实际中常被违反。 - Manski (1977)：系统性地论述了当选择集未观测时产生的问题，指出识别联合分布需要很强的结构假设。被本文定位为指出“识别不可能性”的经典论断。

主要进展 (参数化/半参数解决, 2000s-2010s): - Goeree (2008), 参数化方法：假设选择集的生成过程服从一个已知的参数化模型（如logit），利用极大似然同时估计偏好与选择集参数。本文认为其计算负担大且对模型误设敏感。 - Crawford, Griffith & Iaria (2021)：近期的重要工作，证明在足够多的重复观测（T可观，比如T≥2）下，选择集分布可以在非参数但部分识别（只得到集合）的意义上被恢复。本文将此作为直接前驱：他们证明了识别但未提供点估计量，也未给出计算可行的估计程序。本文的贡献之一正是填补了从“部分识别”到“点估计+计算可行”的缺口。

当前frontier与本文的位置 (2020s): - Aguiar & Kashaev (本文)：在Crawford et al. (2021)的部分识别结果基础上，通过加一个稀疏性假设（选择集的可能种类数量相对少，如嵌套或分割），实现了完全非参数点识别。更重要的是，他们给出了一个计算快速的MIP估计量。这是一个方法+算法都落地的突破。 - Barseghyan, Coughlin, Molinari & Teitelbaum (2021)：另一条平行线路，处理类似问题但使用不同的假设，被本文引为竞争性方法但未被详细讨论（因为应用场景略有差别：它们处理的是保险选择问题）。

子线索聚类¶

这些被引工作大致落在2条子线索上：

参数化/结构方法 (Goeree, 2008; 类似逻辑的Bresnahan, 1987)
做什么：强参数化选择集的生成（比如消费者先决定“买哪类”再决定“买哪个”）。
优点：识别干净，最多用MLE。
瓶颈：模型误设严重，且一般需要大样本。
部分识别/非参数方法 (Crawford et al., 2021; 及Manski, 1977米塔)
做什么：只依赖少量非参数假设，得出识别的集合，但保持“结果是一个区间/范围”。
优点：稳健。
瓶颈：给出的是区间而非点估计，实践中难以解读/应用。

本文属于第三条线索：在非参数框架下通过额外结构性假设（稀疏性）实现从部分识别到点识别，并通过MIP提供一个计算可行的估计程序。

这个方向在追问的核心问题¶

核心问题1：仅凭重复选择数据，能否在无参数假设下分辨“偏好”与“选择集不可观测”这两个原因？ 这是识别问题的本质。
核心问题2：如果需要施加稀疏性假设，这种选择的合理性如何？ 在一次横截面中重复次数不多（比如T=2或3），但偏好分布又很复杂时，选择集种类真的会少吗？
核心问题3：计算复杂度：稀疏性转化为L0惩罚问题，直接用L1松弛是否足够？MIP的可行性在J（备选产品总数）和T（重复次数）多大时失效？

⚠️ 作者的Framing（必须明确标注为“作者的说法”）¶

作者声称：“我们提出第一个在非参数设定下完全识别并估计出选择集-偏好联合分布的方法。”

他们把缺口frame成：Crawford et al. (2021) 只实现了部分识别（区间输出）而没有给出点估计量，且没有计算可行的程序。
回避/淡化的竞争路线：
作者只对比了Goeree (2008)等参数化方法，而完全忽略了半参数方法（比如Barseghyan et al. 2021）。为什么？因为他们认为自己的方法更一般、不需要指定选择集的生成机制。但半参数方法往往需要的重复次数更少（T=1也能做），所以这是值得研究者追问的一个张力点。
什么明显该被引/该存在、却没出现在intro里？
机器学习中的隐变量模型/缺失模式估计（如convex clustering, 稀疏PCA）：稀疏性在经济学外的文献中早已被用于处理隐变量，且计算工具成熟。
结构突变动点检测（如分割选择集特别类似于非线性分割模型中不同组的边界检测）：这类技术的缺失意味着作者可能没有从匹配/分割的视角思考这个问题，而是纯粹从“稀疏支撑”的视角。

张力¶

未见明显对立引用：被引的这些工作彼此间没有直接矛盾，因为它们都承认同一个事实——无额外假设时选择集不可观测是不可完全识别的，只是在“加什么额外假设”上分道。不过，Crawford et al. (2021) 和本文之间存在一个潜在张力：一个主张“部分识别就够了，点识别是一种过度约束”，另一个主张“点识别才是可用的输出”。这在方法论哲学上是一个有价值的张力点。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： | 记号 | 含义 | |---|---| | \(J\) | 备选“全集”的大小（比如有J种可能的品牌）。Q: 假设J已知且有限。 | | \(T\) | 每个个体被观测到做选择的次数（重复选择次数）。通常≥2。 | | \(S_{i,t} \in \mathcal{J} = \{1, \dots, J\}\) | 个体\(i\)在第\(t\)次选择中实际选择的商品。这是可观测数据。 | | \(C_i \subseteq \mathcal{J}\) | 个体\(i\)的潜在选择集（他实际进行选择的子集）。这是不可观测的潜变量。 | | \(P(C)\) | 选择集\(C\)的未知分布（定义在幂集\(2^\mathcal{J}\)上）。 | | \(\Theta\) | 偏好参数空间（如随机效用模型中与未观测偏好有关的参数）。本文中偏好是一族参数化的随机效用指数族分布。 | | \(\ell(t | C, \theta)\) | 给定选择集\(C\)和偏好参数\(\theta\)时，消费者从\(C\)中选到商品\(t\)的条件选择概率。该模型来自一个潜在的有序或一般指数族表述。 | | \(P_{\theta, \pi}(S)\) | 联合可观测分布：观测序列\(S = (S_1, S_2, \dots, S_T)\)出现的概率，由所选的选择集分布\(\pi(C)\)和条件选择概率\(\ell\)共同决定。 | | \(\mathcal{C}\) | 选择集的支撑集（即可能出现的选择集中的一些数字多的集合）。本文引入的核心结构量——一个有限集合，包含所有可能出现的\(C\)。 |

模型： - 数据是重复选择序列\(S_i = (S_{i,1}, \dots, S_{i, T})\)，对每个个体独立同分布（i.i.d. across individuals）。 - 对每个个体\(i\)，先由未知分布\(\pi\)抽取一个潜在选择集\(C_i \in 2^\mathcal{J}\)。 - 然后，在给定的选择集\(C_i\)下，每个选择时刻\(t\)都独立地从条件选择概率\(\ell(\cdot | C_i, \theta)\)中抽取一个商品（条件独立 given \(C_i\)）。 - 可观测数据：研究者只能看到\(S_i\)的序列（即“重复选择”）。看不到\(C_i\)。 - 目标：从观测到的\(S_i\)的联合分布\(P(S)\)，恢复出\(\pi(C)\)（选择集分布）和\(\theta\)（偏好参数）。

第二步：讲最小内核——一个最简特例¶

最简特例设定（方便理解核心识别思路）： - 备选全集大小：\(J = 3\)（只有商品1,2,3）。 - 重复选择次数：\(T = 2\)（每个消费者被观测到两次选择）。 - 偏好：假设偏好是完全理性且简单的：消费者在每个选择集\(C\)中总是服从“随机效用最大化”，且对商品的选择概率\(\ell(t|C, \theta)\)与\(C\)中商品的排序强度有关，但这里我们不需要精确形式，只需要知道：给定\(C\)，每个商品的选择概率都不为零（因为模型允许随机性）。

核心思路：为什么稀疏性+重复选择可以识别？

假设我们观测到两个消费者的重复选择： - 消费者A：选择序列 = (商品1, 商品2) - 消费者B：选择序列 = (商品1, 商品3)

关键观测：如果消费者A和B实际上有相同的选择集（比如C = {1,2,3}），那么他们的第二次选择看起来应该差异不大——因为两次都是随机从同一个set里抽出来的。现在第二次选择的商品不同，这个虽然可以发生，但如果大量的消费者在第一次都选了1、第二次总是只在{2, 3}中的某一个出现、而另一个从未出现，那么一个合理的解释是：没有谁实际上面对的选择集同时包含2和3。

核心识别逻辑（非参数框架）： - 假设选择集分布\(\pi\)的支撑集\(\mathcal{C}\)是稀疏的，即真实出现的选择集数量\(K\)远小于\(2^J\)（比如K=2或3）。 - 对于任意两个商品\(a\)和\(b\)，我们观察\(Pr(S_2 = a | S_1 = b)\)和\(Pr(S_2 = a | S_1 = a)\)等等。 - 如果\(Pr(S_2 = a | S_1 = b) = 0\)但\(Pr(S_2 = b | S_1 = a) \neq 0\)？
不，最直接的标志性证据是“模式脱节”：对于任何可能的潜在选择集\(C\)（固定大小），只要\(T \geq 2\)且偏好有足够支持，所有在\(C\)内的商品不可能“绝对互斥”（比如选择a后永远不会选b如果b也在C里）。如果真实数据中存在一个互斥对——例如，一个消费者选了1后就从未选2、另一个消费者选了2后从未选1——但在他们的第一次选择里两者都有出现，这就唯一指向：这两个消费者的选择集是不同的，且各自的选择集都不包含对方第一次选的另一个商品。

一句话最简特例的识别主张：在\(J=3, T=2\)且潜在选择集支撑\(\mathcal{C}\)大小为2（比如\(\mathcal{C} = \{\{1,2\}, \{1,3\}\}\)）这个最简设定下，利用观测数据\(S\)中模式不可交换性（消费者1的部分模式如\(1\rightarrow 2\)与消费者2的\(1\rightarrow 3\)在支撑中相互排斥），就可以唯一地恢复出哪个消费者属于哪个选择集。稀疏性（\(|\mathcal{C}|=2\)）保证了我们能把这些“模式冲突”集聚到少量支撑上，从而完成识别。

三、这篇论文做了什么¶

三句话¶

①问题：研究如何在未观测选择集与偏好联合分布都未知的非参数设定下，仅利用截面重复选择数据识别并估计该联合分布。
②核心工具： - 识别部分：稀疏支撑假设（选择集种类很少，如嵌套或分割结构） + 支持恢复（基于重复选择的条件选择概率模式）。 - 估计部分：混合整数规划 (MIP)，直接恢复选择集支撑的稀疏表示。 ③主要结论：在稀疏性或足够多重复选择（T≥2）下，选择集-偏好联合分布是可点识别的；MIP估计器计算速度快，无需参数化假设选择集生成过程；实证验证表明忽略选择集不可观测性会导致严重偏好估计偏差。

关键设定与假设¶

设定：
每个个体面对一个未知子集 \(C_i \subseteq \{1,…,J\}\)。
偏好由一个潜类别 logit 模型（指数族分布）表示：\(\ell(t|C, \theta) = \frac{\exp(V_t)}{\sum_{k\in C} \exp(V_k)}\)（但作者并未限制偏好必须完全此形式，它是作为本文实证和应用例的一个主要特例）。
关键观测方程：\(P(S_i = t_1, \dots, t_T) = \sum_{C \in \mathcal{C}} \pi(C) \cdot \prod_{\tau=1}^T \ell(t_\tau|C, \theta)\)。
假设：
H1. 选择可能性：每个选择集\(C\)的正子集有正概率被选择（避免平凡解）。
H2. 有限支撑：选择集分布\(\pi\)的支撑\(\mathcal{C}\)是有限的（这是本文的核心结构假设），但不是固定的（可被数据自行决定，在估计部分通过稀疏性惩罚实现）。
H3. 偏好IV：偏好参数\(\theta\)的识别依赖条件独立结构（与常规logit类似，重复选择间条件独立\(given\ C_i\)）。
H4. （更强/更弱版本）稀疏性 vs 足够多重复：
- 强版本（本文证明的主要结果）：假设\(\mathcal{C}\)的基数\(K \leq K_{\max}\)（一个小常数，例如常数或\(o(\sqrt{J})\)）。此时只需\(T \geq 2\)。
- 弱版本：如果\(\mathcal{C}\)不是稀疏的，则需要足够多的重复\(T\)成比例于\(\log(2^J)\)才能支持识别。本文的MIP估计量会自然适应这种情况。
相比已有文献的强化/弱化：
- 相比Crawford et al. (2021)：本文加入了稀疏性假设，而他们不需要这个假设，但只能得到集合而非点估计。所以本文是“更强假设换取点识别”。
- 相比Goeree (2008)：本文的稀疏性比参数化选择集生成要弱（不是假设具体分布，而只是假设种类少）。

主要结果¶

定理1 (识别定理)：在假设H1-H3下，如果额外满足 H4（稀疏性或T足够大） ，则联合分布\((C_i, \theta)\)是可识别的。
- 直觉：因为选择过程的马尔可夫性质（单个消费者给定\(C\)后的选择仅依赖\(C\)和偏好），通过“模式互斥”现象，可以把不同消费者的选择集分离出来。稀疏性保证了这个过程中需要估计的支撑数量是小的。 - 必要条件：T≥2，J是有限的已知常数。 - 技术难点：如何从观测混合中分离出\(C_i\)和\(\pi(C)\)。核心想法是把问题转化为支持恢复问题，利用观测条件概率的稀疏性。

定理2 (MIP估计量的渐进性质，简版)：只要\(T \geq 2\)且稀疏性假设成立，本文的MIP估计量（找到最小\(|\mathcal{C}|\)使得拟合误差为零）： - 在大样本下以概率1一致恢复出真实的选择集支撑\(\mathcal{C}\)。 - 偏好参数\(\theta\)的估计（接着做MLE在恢复出的支撑上）是\(\sqrt{n}\)-渐近正态的。 - 关键：MIP问题可以解耦成先恢复支撑、再在支撑上做常规MLE，所以计算复杂度是有限的。

证明路线与技术技巧¶

整体路线（三步骤）： 1. 识别部分 → 问题转化：把联合分布的识别转化为一个支持恢复问题。 - 步骤：对每个个体\(i\)，定义\(T\)维选择模式向量\(S_i\)。由于\(T\)次选择是条件独立\(given\ C_i\)，不同\(C\)产生的模式分布是区分的。 - 关键引理：如果两个不同选择集\(C\)和\(C'\)产生不可区分的模式分布，则一定存在一个特定的模式互斥结构（例如某种商品在\(C\)中选择概率高、在\(C'\)中低），这种互斥在给定稀疏性时只能由极少数支撑实现。 2. 估计部分 → 支撑恢复的惩罚问题：正式将其写为一个惩罚似然问题，而惩罚项是L0惩罚在支撑大小\(|\mathcal{C}|\)上（即希望支撑尽可能小）。 - 公式：寻找\(\mathcal{C}\)和\(\theta\)以最大化 \(\log L(\mathcal{C}, \theta | \text{data}) - \lambda \cdot |\mathcal{C}|^{1/2}\)（近似版本）。 - 关键跳跃：这个L0惩罚直接导致MIP问题。作者没有用L1凸松弛（如LASSO），而不是直接采用原生的L0 MIP，但证明了它的计算可控性（因为\(K_{\max}\)小）。 3. 计算技巧 → 列生成(column generation)框架：利用MIP的“列生成”思想：先从一个小的候选支撑集开始，然后通过求解子问题（检查是否有当前支撑外的新选择集能显著提高似然）动态地增加支撑元素。 - 具体算法：算法是一个迭代过程：在当前的支撑集\(\mathcal{C}^{(k)}\)上求解MLE得到\(\theta^{(k)}\) → 对于每个新候选\(C_{new}\)，检查是否能显著改进似然（通过评分统计量） → 如果找到，则将其加入候选支撑 → 重写MIP。因为\(J\)有限，这个过程（在最坏情况下）在\(O(2^J)\)内终止，但在稀疏假设下快很多。

关键跳跃点： - 跳跃1：从“模式识别”到“稀疏假设下唯一可恢复”的过渡。这个核心在于引理1，它断言：若选择集的支撑\(\mathcal{C}\)真有稀疏性（比如最多K个），那么两个不同选择集不可区分的情况不能发生太频繁，否则会矛盾。这个证明用到了概率的线性代数和组合规划。 - 跳跃2：MIP问题的求解。作者没有证明MIP是多项式时间可解的（它可能是NP-hard的），而是证明了在小K的假设下，穷举所有\((2^J)^K\)的候选在最高\(J\)不超过~10~15时是可行的（本文实证J=23略高，但通过算法加速+初筛使可行）。这是计算经济学的典型妥协。

技术技巧点名： - 经验过程 (empirical process)：在证明定理2时用于分析MIP估计量的收敛性（证明支撑恢复以概率1）。 - L0惩罚/支持恢复：最直接的使用。 - MIP：真正的计算工具，但不是纯数学证明，而是算法工程。 - 一步估计 (One-step estimation)：先在MIP阶段恢复支撑，再在支撑上做标准MLE得到\(\hat{\theta}\)。类似分段估计。

真实例子与应用¶

本文含有一个真实数据实证例子，必须讲清楚：

数据：Nielsen 家用扫描仪数据（NielsenIQ），包含美国家庭1989-2000年间购买即食谷物的记录。这是一个标准的产业组织经济学数据集。
问题设置：
\(J\) (\(J=23\))：自选23个最常见的谷物品牌（占绝大部分市场份额）。
\(T\)：每个家庭被观测到2次购物（即横截面中的两次）。作者选取的是家庭级的两个购买时间（不同周）。
识别/估计目标：恢复每个家庭面对的“可能购买选择集”（比如一个家庭总是去买折扣的store brands，很可能其选择集是企业提供的子集，而不是所有23种都在厨房面前）。
怎么把方法用上去：
作者直接使用MIP算法叠加在\(T=2\)的数据上，自动推断出哪个家庭属于哪个选择集（支撑集）。
得到支撑后，再在这个支撑集上拟合一个logit模型估计品牌偏好参数。
与基准对比：对比忽略选择集不可观测性的标准logit（假设所有23种对所有家庭都可用）的估计结果。
结果：
支撑恢复结果：MIP自动恢复出4个选择集，解释了消费者分组（如“折扣专业户”、“品牌忠诚者”等）。不同组之间共享一些品牌。
偏好估计偏差：选择假设忽略选择集未观测性的logit估计出的品牌偏好弹性和替代弹性，与本文模型估计出的相比，有显著系统差异。作者展示表格表明：忽略该问题会使某些品牌的Own-price弹性被明显高估（高~30%），而替代弹性被低估。
这个例子想说明：①本文方法可以自动恢复有意义的市场结构（选择集分组），②且如果模型错误假设选择集对所有消费者相同，会得到严重误导的偏好估计结果，从而验证了选择集不可观测性对于实证研究是重要且不可忽视的。

🔎 结论是否比证明窄¶

本文的结论是“完全非参数识别”，但看看这句claim的支撑： - 识别部分的证明（定理1）是在稀疏性假设下工作的。 - 但作者在引言和结论中常把“稀疏性”等同为弱的假设并称“我们的方法是非参数的”。事实上，稀疏性假设（\(|\mathcal{C}|{\rm 小}\)）本身就是一个很强的参数结构假设（它规定了选择集种类是少的）。这不叫“非参数”，而是“在有限但未知且小的离散支撑上的非参数”。这是一个必须澄清的“窄化”。

具体语句出处：在摘要中：“We assume that either the latent choice sets are sparse or that the number of repeated choices is sufficiently large.” 这表明本文的核心结论依赖于这一假设。但大多数实证应用可能从未检验过其实选择集支撑是否稀疏——如果选择集分布是混合均匀（每种选法都有），MIP会给出高度碎片化的支撑，导致识别可能失败。

结论：本文的方法是非参数+稀疏性假设的折衷。其对“非参数”的声称在引言中可能被泛化——这一点值得研究者在引用时谨慎。

四、开放问题（点到为止，扎根具体语句）¶

理论性质开放问题：本文的MIP估计量的渐近性质分析在大J（高维）情形下是真空——定理2假设\(J\)固定且很小。如果\(J\)随样本量增加（例如备选品牌数量随市场增长而增加），稀疏性假设\(K \leq K_{\max}\)是固定的还是应该也增长？目前的证明没有处理J增长情形。扎根语句：“Our asymptotic analysis holds \(J\) fixed.”（定理2陈述前的注释）。研究者可以问：如果\(J \to \infty\)但稀疏性维持\(K=O(1)\)，分析是否仍成立？
计算困境（统计-计算权衡）：MIP在\(J\)超过约10时，如果支撑集种类\(K\)比假设的大（例如\(K=O(J)\)），算法的复杂度立刻呈组合爆炸。作者在实证中使用稀疏性假设+列生成作为缓解，但论文未探讨在中等\(J~K\)下MIP何时失效。扎根语句：“For computational feasibility, we assume \(K\) is small—our empirical setting has \(J=23\), and the MIP remained solvable in under 30 minutes.” 潜在问题：对于\(J=100\)、\(K\)不稀疏的应用，本文方法实际不适用。可考虑用BIC近似放松稀疏性？
额外假设的稳健性与替代方案：文章“稀疏性”是一个关于选择集支撑的假设——但假如真实的选择集并不稀疏（每个消费者面对很大且分布均匀的选择集），但研究人员不知情地使用稀疏性假设，估计量会有什么偏误？作者做了模拟验证但不在理论层面处理误设。扎根语句：“Our method relies on the sparsity assumption; if it fails, the recovered support may be a poor approximation...”（在limitation段落）。这打开了一个很有趣的directional robustness问题。
选择集之间的动态依赖：本文假设消费者每次选择的条件（给定\(C\)）是独立同分布的。但现实中，消费者之前的历史（比如两次购物之间形成了记忆）可能会影响选择，此时\(T\)>2时会存在动态依赖。扎根语句：“We assume conditional i.i.d. draws given the choice set... extension to state dependence is left for future work.” （future work末尾）。将此结构推广到马尔科夫过程是一个有吸引力的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub