Partial Identification from LLM Prompts¶

作者: Xiaohong Chen, Elie Tamer
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.15031

一、领域脉络与小综述¶

这个方向是什么¶

本论文所处的子方向是部分识别 (Partial Identification)，具体地，是在无“金标准”可用、且分类器误差可任意依赖的前提下，从多个分类器（特别是大语言模型）的报告面板数据中，对潜在真实二分类标签的患病率进行推断。这本质上是一个两成分有限混合模型 (two-component finite mixture) 的可识别性问题。该方向的成熟度在理论层面较高（核心的非识别性是经典的），但将其系统应用于LLM这一带有强依赖性的新场景，并给出面向不同数据收集设计的、以校准为核心的识别框架，则是本论文的原创贡献。

发展脉络（history）¶

以下串联论文介绍部分和引文，勾勒出该领域的演化路径：

奠基工作：部分识别与误差模型的古典理论。Manski (1999) 和 Tamer (2010) 系统性地建立了部分识别理论的框架，即当点识别不可得时，如何利用最小假设界定参数的识别集。Horowitz and Manski (1995) 开辟了“污染/腐败数据”下的边界分析，Molinari (2008) 和 Hu (2008) 将这类思路推广到更一般的误分类数据场景。这些工作奠定了本文的核心工具库——在缺少额外结构时，目标参数θ的识仅仅来源于对分类器敏感度 (sensitivity) 和特异度 (specificity) 的约束。
长面板与多评估者模型。Dawid and Skene (1979) 开创了无金标准下的多评估者误差率估计，其点识别的关键在于假设评估者之间在给定真实标签后条件独立 (conditional independence given truth)。这是经典方法，但在LLM场景下，由于共享训练数据、蒸馏管道等，条件独立性极不可信。因此，本论文故意放弃了这个假设，直接承认误差可以是任意依赖的 (arbitrarily dependent)，从而从Dawid-Skene路线退出，被迫进入部分识别框架。
当前前沿与本文位置。近期工作如 Hovsepian et al. (2024) 和 Linder et al. (2026) 专注于对LLM输出的置信度进行校准 (calibration)，并尝试用校准后的预测进行患病率估计。本文明确地将“校准”定位为识别力的唯一来源，并严格论证了在无此校准信息时，任何弱随机序假设（如一阶占优）都无法为θ提供信息。因此，本文的位置是：从纯理论出发，为LLM面板数据的部分识别建立一个统一的、校准驱动的框架，并精确刻画不同数据收集设计（计数、命名向量、矩阵）下识别信息的差异与损失。

子线索聚类¶

这些被引文献大致落在2条子线索上：

线索一：经典的部分识别与误分类。以 Manski (1999)、Tamer (2010)、Horowitz and Manski (1995)、Molinari (2008) 和 Hu (2008) 为代表。它们专注于在已知分类器误差有界（如敏感度和特异度有下界）的情况下，界定目标参数（概率或回归系数）。本文的校准分数界（Proposition 2）和校准事件界（Propositions 3-4）是这条线索的直接应用和组织化。
线索二：多评估者模型与有限混合的可识别性。以 Dawid and Skene (1979) 和 Henry et al. (2014) 为代表。前者通过条件独立实现点识别；后者研究通过观察到的混合权重变化（如群组结构）来部分识别混合成分。本文的非识别结果（Proposition 1）被定位为“混合物识别观察的一个特例”，而Appendix A中的可观察群组扩展则直接连接到后者的排他性约束逻辑。

这个方向在追问的核心问题¶

如何在放弃点识别所需的关键结构假设（条件独立性）后，仍能从有误分类的数据中提取有意义的推断？
不同的数据收集设计（单模型多次提问 vs 多模型一次提问 vs 多模型多次提问）分别能够提供什么级别的识别信息？
如何将“校准”这一外部信息来源，转化为对目标参数的尖锐且有效的识别约束？
信息损失的定量刻画是什么？将一个丰富的响应对象（如命名向量）粗化为一个低维摘要（如投票计数），会损失多少识别力？

⚠️ 作者的 framing¶

作者将缺口 frame 成：当前LLM作为二分类器的应用普遍忽视了一个根本性的识别问题——即当弱随机序假设无效、且拒绝条件独立性后，标准的多评估者模型无法识别θ。因此，本论文的“显然的下一步”是：系统地引入外部校准信息作为唯一的识别来源，并在三种不同设计下，给出一个统一的、包含紧性分析的理论框架。作者把“设计选择”和“数据存储的选择”提升到与“模型假设”同等重要的地位。
被淡化或回避的竞争路线：作者明确地放弃了Dawid-Skene式的条件独立性路线，并将其视为在LLM领域不切实际。这相当于回避了在更复杂的依赖结构下（如潜在的交叉依赖结构，例如评估者之间的一致性可以用一个低维图模型来描述）使用点识别的可能性。论文完全置身于部分识别框架，不探讨任何在更弱依赖假设下实现点识别的可能性。
什么明显该被引/该存在、却没出现在 intro 里？ 论文的Bibliography很集中，对Proximal Causal Inference (PCI) 和 中介分析 (Mediation) 的文献完全没有提及。然而，从技术上，将LLM报告视为真实标签的代理变量 (Proxy)，并使用多个“询问”作为多次测量（类似PCI中的多个proxies），这个逻辑非常自然。论文附录A中已有“群组之间测量技术不变”的排他性约束，这与PCI中用工具变量分离混杂与设备的逻辑惊人相似。这是一个值得研究者去查的张力：PCI的整套工具（如多个独立proxies、双proxies、或利用连续测量的变异）能否在这个场景下提供更紧或可点识别的边界，而不再完全依赖昂贵的“外部校准”？

张力¶

未发现被引文献之间存在直接矛盾的结论。相反，它们是互补的：一部分（Manski、Horowitz）提供了领域基本框架；一部分（Dawid、Henry）提供了在更严格假设下的可识别性结果；另一部分（Hovsepian、Linder）提供了最新的校准技术。本论文将这些线索结合起来，明确指出在LLM场景下，经典“条件独立”路线不可行，从而需要转向“校准”路线。

二、最核心、最简单的例子/数学问题¶

第一步：记号、模型、可观测数据交代清楚¶

符号：
- X*: 潜在的二分类真实标签，X* ∈ {0, 1}。是潜在/反事实量，不可直接观测。
- θ = P(X* = 1): 感兴趣的参数 (estimand)，即真实患病率。
- J: 命名的LLM模型的总数（例如，J=3代表GPT-4, GPT-4 Turbo, Claude）。
- M: 重复提问的次数（或提示变体的数量）。
- R_jm ∈ {0,1}: 模型j在第m次提问下的二分类响应。这是可观测的随机变量。完整响应为矩阵 R (维度J x M)。
- U = g(R): 一个依赖于设计选择的可观测摘要统计量。例如：S = Σ_m R_1m（计数），Y = (R_11, ..., R_J1)（命名向量）。这也是可观测的随机变量。
- π_R(r) = P(R=r): 全响应矩阵的观测分布。
- f_z(r) = P(R=r | X* = z): 给定真实标签状态z下，响应矩阵的条件分布。这是未知的、高维的、不能仅从可观测数据识别。
- p_U(u): 摘要统计量U的观测分布。
- q_z,U(u) = P(U=u | X* = z): 给定真实标签状态z下，摘要统计量U的条件分布。同f_z一样，不能直接识别。
模型：数据生成过程被建模为一个两成分有限混合模型。具体地，对于任何一个摘要统计量U，其观测分布p_U是两种未观测的条件分布q_0,U和q_1,U的混合，混合权重为θ和1-θ： p_U(u) = (1-θ) * q_0,U(u) + θ * q_1,U(u), for all u。 该模型的关键假设是：没有对q_0,U或q_1,U的结构施加任何额外约束（如独立性、参数形式等）。它们可以是任意复杂的、在高维空间上的分布。
可观测数据：对于一个物品（如一段文本），研究者实际能观测到的是：
- 在“单模型、多提问”设计下：一个计数 S，它是M次回答的求和。
- 在“多命名模型、单提问”设计下：一个命名二值响应向量 Y，长度为J。
- 在“多命名模型、多提问”设计下：一个响应矩阵 R，维度为J x M。
- 潜在/不可观测的数据：真实标签X*（完全不可观测）。条件分布q_0和q_1（只能通过假设来推断）。

第二步：讲最小内核¶

本文的最简特例是单个LLM被重复提问M=2次的“计数实验”设定。这是理解整篇论文核心非识别性与校准作用的最小载体。

设定：只有一个LLM，提问2次（M=2），得到可交换的两个报告R_1, R_2。那么，对你（研究者）来说，能观测到的摘要统计量是计数 S = R_1 + R_2 ∈ {0,1,2}，其分布为p(0), p(1), p(2)。
要证的命题：仅凭观测到的分布p(0), p(1), p(2)，并且不对条件分布q_0(s)和q_1(s)做任何假设，θ = P(X*=1) 是完全无法识别的，即θ的识别集是[0, 1]。这对应Proposition 1。
证明思路（即退化性例子）：因为模型是混合模型，任何一组观测概率p(s)都可以被分解成两个相同的条件分布q_0和q_1，其中q_0(s) = q_1(s) = p(s)。例如，令 q_0(0) = p(0), q_0(1) = p(1), q_0(2) = p(2)，并令q_1与q_0完全相同。那么，对于任何 θ ∈ [0,1]，混合方程 (1-θ) * q_0(s) + θ * q_1(s) = p(s) 都必然成立，因为(1-θ)*p(s) + θ*p(s) = p(s)。这意味着所有可能的θ都与观测数据兼容，识别集为[0, 1]。
加入弱随机序约束：假设我们接受“如果内容是正面的，计数S应该更大”的顺序约束，例如均值顺序 (Mean Ordering)：E[S|X*=1] >= E[S|X*=0]。这个约束能缩小θ的范围吗？不能。因为在前一步的退化设置中，E[S|X*=1] = E[S|X*=0]，这个等式恰好满足均值顺序（满足>=）。所以，退化分解q_0=q_1仍然有效，因此θ的识别集仍然是[0, 1]。这解释了为什么“弱随机序”是非识别的。
核心想法：引入校准。假设外部信息（例如，在一个验证集上）告诉我们：
- LLM的敏感度（正样本报告为1的概率）下界为 a: P(报告=1 | X*=1) >= a = 0.8。
- LLM的特异度（负样本报告为0的概率）下界为 b: P(报告=0 | X*=0) >= b = 0.9。
- 观测到的平均报告比例 P(报告=1) = E[S/M] = 0.6。
核心计算：现在我们可以利用这些校准信息来界θ（Proposition 2的精华）：
1. 上界：因为 平均阳性报告率 = (1-θ) * 敏感度_负类 + θ * 敏感度_正类。最紧的上界是在负类敏感度下界为0（一个负项贡献的阳性报告可以很多）且正类敏感度取最小值a时得到。因此，0.6 = E[报告=1] >= θ * a，从而 θ <= E[报告=1] / a = 0.6 / 0.8 = 0.75。这给出了上界。
2. 下界：因为 平均阴性报告率(回避率) = (1-θ) * 特异度_负类 + θ * 特异度_正类，而E[报告=0] = 1 - 0.6 = 0.4。最紧的下界是在负类特异度取最小值b且正类特异度下界为0时得到。因此，E[报告=0] >= (1-θ) * b，从而 θ >= 1 - E[报告=0] / b = 1 - 0.4 / 0.9 = 1 - 0.444 = 0.556。这给出了下界。

所以，θ的识别集被限定在[0.556, 0.75]，不再是[0, 1]。整个论文的核心思想就是：在没有任何外部校准信息时，混合模型是完全退化的；一旦引入对分类器性能（敏感度、特异度）的校准约束，这些约束就转化为对混合权重θ的线性不等式，从而产生有意义的识别边界。论文后面所有关于分数、事件、矩阵设计的讨论，本质上都是在更复杂的设定下，对这个“校准=识别力”逻辑的扩展和精确化。

三、这篇论文做了什么¶

三句话：①研究了如何从大语言模型（LLM）的二分类报告面板数据中，部分识别潜在真实标签的患病率θ。②核心方法是两成分有限混合模型，将识别力唯一地建立在外部校准分数和校准事件之上。③主要结论包括：无分离假设时θ完全不可识别（Proposition 1）；弱随机序假设不提供任何识别信息；推导了基于校准分数/事件的有效且sharp的边界（Proposition 2-4）；精确刻画了全分数分布信息相对于均值信息的额外识别增益（Theorem 3）；并系统展示了在不同测量设计下数据存储对象（如计数vs命名向量）对识别集宽度的决定性影响，并以毒性分类实证数据印证了2倍以上的边界改善。
关键设定与假设：
- 模型：两成分有限混合（p_U(u) = (1-θ)q_0,U(u) + θq_1,U(u)）。
- 核心假设：无条件独立性假设。q_0和q_1可以是任意依赖（文中所称的arbitrarily dependent given truth）。这是与传统Dawid-Skene类模型的关键区别。
- 主要识别假设：校准假设。对于分数w(U)：E[w(U)|X*=1] >= a 且 E[1-w(U)|X*=0] >= b。或者对于事件A B：正事件的高后验概率或负类下的小错误概率。这些假设引自外部校准数据或验证集，属于外部信息，不是结构假设。
- 设计结构性假设：Prompt 交流性（prompt exchangeability）。这是为了允许从矩阵R无损约化到列模式直方图N，属于设计而非识别假设。相比已有文献，本文的设定在独立性假设上大幅放宽（允许任意依赖），但在识别假设上增加了对复杂外部校准信息的依赖。
主要结果（理论型，挑最重要的）：
- 定理1 (Theorem 1: 分布自由不可能性)：这个定理有力地说明了，在非识别的设定下，任何置信区间（即使基于样本）的期望长度都不可能小于1-α，即本质上必须包含几乎整个[0,1]区间。这是一个很强的impossibility结果，证明了样本内信息本身不能克服模型的非识别性，必须依赖外部假设。技术上，它建立在退化性例子（Proposition 1）上，通过考虑一个X*独立于可观测数据的分布P_p，证明任何覆盖概率为1-α的置信集C_n，必须在[0,1]上至少覆盖1-α的不相交子区间。
- 定理2 (Theorem 2: 信息损失)：形式化了信息损失的必然性。如果摘要U2 = h(U1)是U1的粗化，并且任何在U1下可行的混合分解在粗化后仍在U2下可行，那么U1的识别集是U2识别集的子集。这看似平凡，但配上推论（Proposition 5关于truth-sufficient reductions的精确刻画），就为“为什么必须存储命名向量而非计数”提供了严格的理论基础。
- 定理3 (Theorem 3: 全分布分数边界)：这是理论核心之一。它从最优运输 (Optimal Transport) 或 Hardy-Littlewood不等式的角度，给出了基于分数w(U)完整分布（而非仅仅均值）的sharp识别集的精确刻画。该识别集通过一个重排函数W^+(t)和两个线性约束的交集得到。解决的技术难点：处理多维、任意依赖的条件分布，将其转化为一个在观测概率质量函数p_U上分配正类质量的线性规划。W^+(t)的计算（通过排序）避免了求解大规模LP的复杂性，且其concave性质保证了识别集是一个区间。关键结果：对于二值分数，均值边界就是sharp的；对于连续/多级分数，全分布信息能产生更紧的边界。
- 定理4 (Theorem 4: 矩阵的Lossless约化)：在Prompt交流性的结构性假设下，全响应矩阵R与列模式直方图N在识别集上等价。技术技巧：结合了群作用（prompt置换群）与限制可转移性（限制的相容性）。证明：证明分包含和反包含两部分，通过"提升"（lifting）和"投影"（projection）的对应完成，巧妙地利用了prompt交流性下，行列式分布是对所有prompt排列均匀求和的这一事实。
证明路线与技术技巧（理论型）：
- 整体路线（以分数边界的Shar谱性证明为例，Theorem 3）：
  1. 建立线性规划：将存在一个可行(θ, q_0, q_1)的问题转化为一个关于正类联合质量h_1(u) = P(X*=1, U=u)的线性规划（LP）。约束包括：质量守恒（h_1(u) + h_0(u) = p_U(u)），总质量等于θ，以及校准约束（如Σ w(u)h_1(u) >= aθ）。
  2. 对偶/可行集分析：对于给定的θ，线性规划关于h_1的可行集是一个凸多面体。要判断θ是否在可识别集中，就是看这个LP是否可行。而LP的可行性等价于其目标函数的极值落在特定范围内。
  3. 转化为W+函数：关键先生——重排/集中函数 W^+(t)。它被定义为可以通过一个总质量为t的子总体（h_1）从全分布p_U中提取的最大E[w]值。计算W^+(t)是古典的优化问题，可以通过按w(u)降序对支持点u排序、然后分配质量来贪心求解。W^+(t)是凹的、非递减的。这正是处理“在质量守恒和总量约束下最大化线性函数E[w]”的标准技巧（Hardy-Littlewood不等式）。
  4. 可行性条件：在固定θ下，校准约束 E[w|X*=1] >= a 及 E[1-w|X*=0] >= b 等价于要求正类能提供的最大分数W^+(θ)要至少为max{aθ, ¯w - (1-b)(1-θ)}。后者是从另一个方向转化得到的上界。因此，θ可行当且仅当 W^+(θ) 不低于这两个数的最大值。
  5. 刻画识别集：由于W^+(θ)是凹的，而aθ和¯w - (1-b)(1-θ)是线性的，这使得可行θ的集合是区间的交集，因此是一个闭区间。这给出了一个完整的、计算简便的sharp识别集刻画。
- 关键跳跃点：
  - 证明线性边界 (Proposition 2) 在连续/多值分数下并非sharp。作者巧妙地识别出，仅使用均值等价于承认q_0和q_1可以任意地将质量集中在低分/高分区域，而W+函数通过穷尽正类质量分配到高分区域的可能性，揭示了“全分布”信息能收紧边界。这个“均值 vs 全分布”的对比是通过Theorem 3的W^+函数实现的。
  - 命题5 (Proposition 5: Truth-sufficient coarsening)。该命题通过似然比 (Likelihood ratio) f_1(r)/f_0(r)在摘要的每个纤维上必须恒定的条件，来精确刻画哪些粗化是无损的。这等价于要求在调整了摘要后，残差信息与真实标签独立。这是一个非常强的、直指本质的条件，解释了为何总计数C通常是不充分的（似然比不恒定），而只有像慢图N在特定对称性假设下才可能充分。
- 技术技巧点名：
  - Hardy-Littlewood不等式/重排不等式 (Hardy-Littlewood rearrangement inequality)：用于推导W^+(t)的最优解——将有限质量分配给最大的w值。这是计算sharp分数边界的理论基石。
  - 轨道统计 (Orbit statistic) & 群作用 (Group action)：在处理矩阵R的对称性时使用。通过将prompt交换性建模为一个置换群S_M作用在矩阵上，并证明其轨道统计量N能完全保持识别信息（在特定限制兼容性条件下），是Proposition 5的特殊化（Theorem 4）。
  - 有限混合模型 (Finite mixture model)：是整个问题的基础框架。论文从非识别性开始，强调了混合模型的退化性。
  - 线性规划 (Linear programming)：用于计算sharp识别集（尤其是在有多个校准约束或事件边界时），以及进行回归系数的边界推断。
真实例子与应用：
- 数据来源与场景：来自Cheng et al. (2024)的毒性文本分类任务。使用了三个命名模型 (J=3: GPT-4, GPT-4 Turbo, Claude-2) 和一个人类专家评定的验证集。这恰好是“多命名模型，单次提问”设计 (Design II)。真实患病率θ_0 = 0.65是可得的，用于验证边界的有效性。
- 怎么用：作者首先在一个验证集上计算了每个LLM的敏感度和特异度（校准常数）。然后，他们构建了不同的可观测数据对象（命名向量Y vs 投票计数S），并计算对应的识别集。
- 得到的结果：表8是核心展示。使用命名向量Y（并利用其对应的校准信息）得到的识别集宽度为 0.209（区间[0.467, 0.707]）。而如果只存储投票计数S（丢失了模型身份信息），同组校准信息下宽度扩大到 0.383（区间[0.348, 0.731]），几乎是两倍的宽度。这说明存储更丰富的响应对象（命名向量）能显著提升识别力。
- 这个例子想说明什么：完美地验证了论文的理论结论（Theorem 2: Coarsening weakens identification）。它向实践者传达了一个清晰的信息：在LLM标注场景中，不仅仅是记录“有多少模型说有毒”的计数，“哪些模型说有毒”的模式至关重要。命名向量所携带的特定模型信息（如GPT-4比Claude-2更准确）可以被校准约束所利用，从而产生更紧的边界。
🔎 结论是否比证明窄：有。Theorem 4 (Lossless reduction) 的结论建立在非常强的 Assumption 1 (Restriction compatibility) 之上。该假设要求矩阵级别的限制必须是“Prompt-变换不变的”，并且直方图级别的限制集必须恰是这些不变限制的投影。如果实践者想要利用一个只对特定Promptm=1有效的校准约束（例如只在第一个提示下LLM很准），那么这个约束就不能被转化为N上的限制，Theorem 4的“Lossless”结论就失效了。论文的Remark 7和Remark 8虽然提到这一点，但并未深入探讨这种不对称/特定Prompt校准在实践中是否常见，以及它的缺失会带来多大的识别损失。更严谨的说法应该是：仅在限制集是关于prompt置换群对称的，并且限制在约化后保持对应关系时，从R到N的约化在识别集上是lossless的。否则，N给出的识别集可能小于或大于R（取决于限制是否被投影或添加）。

四、开放问题（点到为止，扎根具体语句）¶

群组交叉依赖下的sharp边界：论文附录A探讨了在多可观察群组（Groups）下，如果假设测量误差(q_0, q_1)跨群组不变（排他性约束），可以得到更紧的边界。但此模型是双线性的（在π_g和q_z上），保守的McComick envelope已被提出。一个具体的开放问题是：能否在这个双线性模型中，找到一个能产生sharp识别集且计算高效的凸松弛算法（例如，基于半定规划SDP的松弛）？这可以进一步收紧边界，并验证模型假设。
对校准分数W(U)的“紧性”刻画超越W^+(t)：Theorem 3提供了基于分数完整分布的sharp识别集。但是，它仍然假设除了分数均值外，校准约束是期望形式的 (E[w(U)|X*=1] >= a)，例如是线性期望约束 (linear moment constraint)。一个开放问题是：如果校准提供了关于分数分布的更高阶矩或分位数（例如，“在X=1时，分数w(U)至少不低于0.8的概率是0.5”），除了现在通用的线性规划，是否存在一个超越W^+(t)的、仍可用贪心算法刻画的sharp界？* 这能更充分地利用校准信息。
回归系数的联合bound（joint bound）：论文Section 11将校准分数边界从估计θ扩展到估计一个B回归系数β。它指出通过为潜在交叉矩E[X*Z]和E[X*V]分别求解LP，可以得到分量的“区间”，但这种方法给出的只是外层/保守的整体区间。文中提到（Proposition 6下面）：“Replacing M by the box of component-wise intervals from Lemma 1 gives valid but generally conservative outer bounds; the joint program is sharp.” 开放问题是：能否提供一个计算可行的联合LP（可能以η(u, z, v)为变量）来真正实现sharp的多维系数识别集？这涉及到高维联合约束和多维目标的优化，可能对实践者很有价值。
使用“条件校准 (Conditional Calibration)”进行Covariate Augmentation：论文Section 11的Remark 9提到“如果校准在协变量Z的层内进行验证”，则系数边界可以更紧。这是一个非常值得尝试的方向。具体的开放问题是：在流行病学/因果推断中，当X*是错分的处理变量或混杂变量时，是否可以像在IV和近端推断中那样，利用多个外生协变量Z与测量误差U的变异，通过条件校准来进一步提高识别力，并形成一个更通用的敏感性分析框架？例如，当观察到足够多可影响响应概率、但独立于真值X*的协变量时，是否可以在部分识别框架下实现更接近点识别的效果？

注意：要确认问题1和问题4是否真的是当前的开放gap，建议研究者去读同一方向近期的5篇论文（例如Henry et al. (2014)及其后几篇，Linder et al. (2026)等）的Introduction部分。如果多家都指向这两个方向（群组的排他性约束、条件校准），那说明这是共识性的开放问题，值得深入。

Maintained by 陈星宇 · Homepage · Source on GitHub