Partial Identification from LLM Prompts¶
作者: Xiaohong Chen, Elie Tamer
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.15031
一、领域脉络与小综述¶
这个方向是什么¶
本论文所处的子方向是部分识别 (Partial Identification),具体地,是在无“金标准”可用、且分类器误差可任意依赖的前提下,从多个分类器(特别是大语言模型)的报告面板数据中,对潜在真实二分类标签的患病率进行推断。这本质上是一个两成分有限混合模型 (two-component finite mixture) 的可识别性问题。该方向的成熟度在理论层面较高(核心的非识别性是经典的),但将其系统应用于LLM这一带有强依赖性的新场景,并给出面向不同数据收集设计的、以校准为核心的识别框架,则是本论文的原创贡献。
发展脉络(history)¶
以下串联论文介绍部分和引文,勾勒出该领域的演化路径:
-
奠基工作:部分识别与误差模型的古典理论。Manski (1999) 和 Tamer (2010) 系统性地建立了部分识别理论的框架,即当点识别不可得时,如何利用最小假设界定参数的识别集。Horowitz and Manski (1995) 开辟了“污染/腐败数据”下的边界分析,Molinari (2008) 和 Hu (2008) 将这类思路推广到更一般的误分类数据场景。这些工作奠定了本文的核心工具库——在缺少额外结构时,目标参数θ的识仅仅来源于对分类器敏感度 (sensitivity) 和特异度 (specificity) 的约束。
-
长面板与多评估者模型。Dawid and Skene (1979) 开创了无金标准下的多评估者误差率估计,其点识别的关键在于假设评估者之间在给定真实标签后条件独立 (conditional independence given truth)。这是经典方法,但在LLM场景下,由于共享训练数据、蒸馏管道等,条件独立性极不可信。因此,本论文故意放弃了这个假设,直接承认误差可以是任意依赖的 (arbitrarily dependent),从而从Dawid-Skene路线退出,被迫进入部分识别框架。
-
当前前沿与本文位置。近期工作如 Hovsepian et al. (2024) 和 Linder et al. (2026) 专注于对LLM输出的置信度进行校准 (calibration),并尝试用校准后的预测进行患病率估计。本文明确地将“校准”定位为识别力的唯一来源,并严格论证了在无此校准信息时,任何弱随机序假设(如一阶占优)都无法为θ提供信息。因此,本文的位置是:从纯理论出发,为LLM面板数据的部分识别建立一个统一的、校准驱动的框架,并精确刻画不同数据收集设计(计数、命名向量、矩阵)下识别信息的差异与损失。
子线索聚类¶
这些被引文献大致落在2条子线索上:
-
线索一:经典的部分识别与误分类。以 Manski (1999)、Tamer (2010)、Horowitz and Manski (1995)、Molinari (2008) 和 Hu (2008) 为代表。它们专注于在已知分类器误差有界(如敏感度和特异度有下界)的情况下,界定目标参数(概率或回归系数)。本文的校准分数界(Proposition 2)和校准事件界(Propositions 3-4)是这条线索的直接应用和组织化。
-
线索二:多评估者模型与有限混合的可识别性。以 Dawid and Skene (1979) 和 Henry et al. (2014) 为代表。前者通过条件独立实现点识别;后者研究通过观察到的混合权重变化(如群组结构)来部分识别混合成分。本文的非识别结果(Proposition 1)被定位为“混合物识别观察的一个特例”,而Appendix A中的可观察群组扩展则直接连接到后者的排他性约束逻辑。
这个方向在追问的核心问题¶
- 如何在放弃点识别所需的关键结构假设(条件独立性)后,仍能从有误分类的数据中提取有意义的推断?
- 不同的数据收集设计(单模型多次提问 vs 多模型一次提问 vs 多模型多次提问)分别能够提供什么级别的识别信息?
- 如何将“校准”这一外部信息来源,转化为对目标参数的尖锐且有效的识别约束?
- 信息损失的定量刻画是什么?将一个丰富的响应对象(如命名向量)粗化为一个低维摘要(如投票计数),会损失多少识别力?
⚠️ 作者的 framing¶
-
作者将缺口 frame 成:当前LLM作为二分类器的应用普遍忽视了一个根本性的识别问题——即当弱随机序假设无效、且拒绝条件独立性后,标准的多评估者模型无法识别θ。因此,本论文的“显然的下一步”是:系统地引入外部校准信息作为唯一的识别来源,并在三种不同设计下,给出一个统一的、包含紧性分析的理论框架。作者把“设计选择”和“数据存储的选择”提升到与“模型假设”同等重要的地位。
-
被淡化或回避的竞争路线:作者明确地放弃了Dawid-Skene式的条件独立性路线,并将其视为在LLM领域不切实际。这相当于回避了在更复杂的依赖结构下(如潜在的交叉依赖结构,例如评估者之间的一致性可以用一个低维图模型来描述)使用点识别的可能性。论文完全置身于部分识别框架,不探讨任何在更弱依赖假设下实现点识别的可能性。
-
什么明显该被引/该存在、却没出现在 intro 里? 论文的Bibliography很集中,对Proximal Causal Inference (PCI) 和 中介分析 (Mediation) 的文献完全没有提及。然而,从技术上,将LLM报告视为真实标签的代理变量 (Proxy),并使用多个“询问”作为多次测量(类似PCI中的多个proxies),这个逻辑非常自然。论文附录A中已有“群组之间测量技术不变”的排他性约束,这与PCI中用工具变量分离混杂与设备的逻辑惊人相似。这是一个值得研究者去查的张力:PCI的整套工具(如多个独立proxies、双proxies、或利用连续测量的变异)能否在这个场景下提供更紧或可点识别的边界,而不再完全依赖昂贵的“外部校准”?
张力¶
未发现被引文献之间存在直接矛盾的结论。相反,它们是互补的:一部分(Manski、Horowitz)提供了领域基本框架;一部分(Dawid、Henry)提供了在更严格假设下的可识别性结果;另一部分(Hovsepian、Linder)提供了最新的校准技术。本论文将这些线索结合起来,明确指出在LLM场景下,经典“条件独立”路线不可行,从而需要转向“校准”路线。
二、最核心、最简单的例子/数学问题¶
第一步:记号、模型、可观测数据交代清楚¶
-
符号:
X*: 潜在的二分类真实标签,X* ∈ {0, 1}。是潜在/反事实量,不可直接观测。θ = P(X* = 1): 感兴趣的参数 (estimand),即真实患病率。J: 命名的LLM模型的总数(例如,J=3代表GPT-4, GPT-4 Turbo, Claude)。M: 重复提问的次数(或提示变体的数量)。R_jm ∈ {0,1}: 模型j在第m次提问下的二分类响应。这是可观测的随机变量。完整响应为矩阵R(维度J x M)。U = g(R): 一个依赖于设计选择的可观测摘要统计量。例如:S = Σ_m R_1m(计数),Y = (R_11, ..., R_J1)(命名向量)。这也是可观测的随机变量。π_R(r) = P(R=r): 全响应矩阵的观测分布。f_z(r) = P(R=r | X* = z): 给定真实标签状态z下,响应矩阵的条件分布。这是未知的、高维的、不能仅从可观测数据识别。p_U(u): 摘要统计量U的观测分布。q_z,U(u) = P(U=u | X* = z): 给定真实标签状态z下,摘要统计量U的条件分布。同f_z一样,不能直接识别。
-
模型:数据生成过程被建模为一个两成分有限混合模型。具体地,对于任何一个摘要统计量
U,其观测分布p_U是两种未观测的条件分布q_0,U和q_1,U的混合,混合权重为θ和1-θ:p_U(u) = (1-θ) * q_0,U(u) + θ * q_1,U(u), for all u。 该模型的关键假设是:没有对q_0,U或q_1,U的结构施加任何额外约束(如独立性、参数形式等)。它们可以是任意复杂的、在高维空间上的分布。 -
可观测数据:对于一个物品(如一段文本),研究者实际能观测到的是:
- 在“单模型、多提问”设计下:一个计数
S,它是M次回答的求和。 - 在“多命名模型、单提问”设计下:一个命名二值响应向量
Y,长度为J。 - 在“多命名模型、多提问”设计下:一个响应矩阵
R,维度为J x M。 - 潜在/不可观测的数据:真实标签
X*(完全不可观测)。条件分布q_0和q_1(只能通过假设来推断)。
- 在“单模型、多提问”设计下:一个计数
第二步:讲最小内核¶
本文的最简特例是单个LLM被重复提问M=2次的“计数实验”设定。这是理解整篇论文核心非识别性与校准作用的最小载体。
-
设定:只有一个LLM,提问2次(
M=2),得到可交换的两个报告R_1, R_2。那么,对你(研究者)来说,能观测到的摘要统计量是计数S = R_1 + R_2 ∈ {0,1,2},其分布为p(0), p(1), p(2)。 -
要证的命题:仅凭观测到的分布
p(0), p(1), p(2),并且不对条件分布q_0(s)和q_1(s)做任何假设,θ = P(X*=1) 是完全无法识别的,即θ的识别集是[0, 1]。这对应Proposition 1。 -
证明思路(即退化性例子):因为模型是混合模型,任何一组观测概率
p(s)都可以被分解成两个相同的条件分布q_0和q_1,其中q_0(s) = q_1(s) = p(s)。例如,令q_0(0) = p(0),q_0(1) = p(1),q_0(2) = p(2),并令q_1与q_0完全相同。那么,对于任何θ ∈ [0,1],混合方程(1-θ) * q_0(s) + θ * q_1(s) = p(s)都必然成立,因为(1-θ)*p(s) + θ*p(s) = p(s)。这意味着所有可能的θ都与观测数据兼容,识别集为[0, 1]。 -
加入弱随机序约束:假设我们接受“如果内容是正面的,计数S应该更大”的顺序约束,例如均值顺序 (Mean Ordering):
E[S|X*=1] >= E[S|X*=0]。这个约束能缩小θ的范围吗?不能。因为在前一步的退化设置中,E[S|X*=1] = E[S|X*=0],这个等式恰好满足均值顺序(满足>=)。所以,退化分解q_0=q_1仍然有效,因此θ的识别集仍然是[0, 1]。这解释了为什么“弱随机序”是非识别的。 -
核心想法:引入校准。假设外部信息(例如,在一个验证集上)告诉我们:
- LLM的敏感度(正样本报告为1的概率)下界为
a:P(报告=1 | X*=1) >= a = 0.8。 - LLM的特异度(负样本报告为0的概率)下界为
b:P(报告=0 | X*=0) >= b = 0.9。 - 观测到的平均报告比例
P(报告=1) = E[S/M] = 0.6。
- LLM的敏感度(正样本报告为1的概率)下界为
-
核心计算:现在我们可以利用这些校准信息来界θ(Proposition 2的精华):
- 上界:因为 平均阳性报告率 = (1-θ) * 敏感度负类 + θ * 敏感度正类。最紧的上界是在负类敏感度下界为0(一个负项贡献的阳性报告可以很多)且正类敏感度取最小值a时得到。因此,
0.6 = E[报告=1] >= θ * a,从而θ <= E[报告=1] / a = 0.6 / 0.8 = 0.75。这给出了上界。 - 下界:因为 平均阴性报告率(回避率) = (1-θ) * 特异度负类 + θ * 特异度正类,而
E[报告=0] = 1 - 0.6 = 0.4。最紧的下界是在负类特异度取最小值b且正类特异度下界为0时得到。因此,E[报告=0] >= (1-θ) * b,从而θ >= 1 - E[报告=0] / b = 1 - 0.4 / 0.9 = 1 - 0.444 = 0.556。这给出了下界。
- 上界:因为 平均阳性报告率 = (1-θ) * 敏感度负类 + θ * 敏感度正类。最紧的上界是在负类敏感度下界为0(一个负项贡献的阳性报告可以很多)且正类敏感度取最小值a时得到。因此,
所以,θ的识别集被限定在[0.556, 0.75],不再是[0, 1]。整个论文的核心思想就是:在没有任何外部校准信息时,混合模型是完全退化的;一旦引入对分类器性能(敏感度、特异度)的校准约束,这些约束就转化为对混合权重θ的线性不等式,从而产生有意义的识别边界。论文后面所有关于分数、事件、矩阵设计的讨论,本质上都是在更复杂的设定下,对这个“校准=识别力”逻辑的扩展和精确化。
三、这篇论文做了什么¶
-
三句话:①研究了如何从大语言模型(LLM)的二分类报告面板数据中,部分识别潜在真实标签的患病率θ。②核心方法是两成分有限混合模型,将识别力唯一地建立在外部校准分数和校准事件之上。③主要结论包括:无分离假设时θ完全不可识别(Proposition 1);弱随机序假设不提供任何识别信息;推导了基于校准分数/事件的有效且sharp的边界(Proposition 2-4);精确刻画了全分数分布信息相对于均值信息的额外识别增益(Theorem 3);并系统展示了在不同测量设计下数据存储对象(如计数vs命名向量)对识别集宽度的决定性影响,并以毒性分类实证数据印证了2倍以上的边界改善。
-
关键设定与假设:
- 模型:两成分有限混合(
p_U(u) = (1-θ)q_0,U(u) + θq_1,U(u))。 - 核心假设:无条件独立性假设。
q_0和q_1可以是任意依赖(文中所称的arbitrarily dependent given truth)。这是与传统Dawid-Skene类模型的关键区别。 - 主要识别假设:校准假设。对于分数
w(U):E[w(U)|X*=1] >= a且E[1-w(U)|X*=0] >= b。或者对于事件AB:正事件的高后验概率或负类下的小错误概率。这些假设引自外部校准数据或验证集,属于外部信息,不是结构假设。 - 设计结构性假设:Prompt 交流性(prompt exchangeability)。这是为了允许从矩阵
R无损约化到列模式直方图N,属于设计而非识别假设。相比已有文献,本文的设定在独立性假设上大幅放宽(允许任意依赖),但在识别假设上增加了对复杂外部校准信息的依赖。
- 模型:两成分有限混合(
-
主要结果(理论型,挑最重要的):
- 定理1 (Theorem 1: 分布自由不可能性):这个定理有力地说明了,在非识别的设定下,任何置信区间(即使基于样本)的期望长度都不可能小于1-α,即本质上必须包含几乎整个[0,1]区间。这是一个很强的
impossibility结果,证明了样本内信息本身不能克服模型的非识别性,必须依赖外部假设。技术上,它建立在退化性例子(Proposition 1)上,通过考虑一个X*独立于可观测数据的分布P_p,证明任何覆盖概率为1-α的置信集C_n,必须在[0,1]上至少覆盖1-α的不相交子区间。 - 定理2 (Theorem 2: 信息损失):形式化了信息损失的必然性。如果摘要
U2 = h(U1)是U1的粗化,并且任何在U1下可行的混合分解在粗化后仍在U2下可行,那么U1的识别集是U2识别集的子集。这看似平凡,但配上推论(Proposition 5关于truth-sufficient reductions的精确刻画),就为“为什么必须存储命名向量而非计数”提供了严格的理论基础。 - 定理3 (Theorem 3: 全分布分数边界):这是理论核心之一。它从最优运输 (Optimal Transport) 或 Hardy-Littlewood不等式的角度,给出了基于分数
w(U)完整分布(而非仅仅均值)的sharp识别集的精确刻画。该识别集通过一个重排函数W^+(t)和两个线性约束的交集得到。解决的技术难点:处理多维、任意依赖的条件分布,将其转化为一个在观测概率质量函数p_U上分配正类质量的线性规划。W^+(t)的计算(通过排序)避免了求解大规模LP的复杂性,且其concave性质保证了识别集是一个区间。关键结果:对于二值分数,均值边界就是sharp的;对于连续/多级分数,全分布信息能产生更紧的边界。 - 定理4 (Theorem 4: 矩阵的Lossless约化):在Prompt交流性的结构性假设下,全响应矩阵
R与列模式直方图N在识别集上等价。技术技巧:结合了群作用(prompt置换群)与限制可转移性(限制的相容性)。证明:证明分包含和反包含两部分,通过"提升"(lifting)和"投影"(projection)的对应完成,巧妙地利用了prompt交流性下,行列式分布是对所有prompt排列均匀求和的这一事实。
- 定理1 (Theorem 1: 分布自由不可能性):这个定理有力地说明了,在非识别的设定下,任何置信区间(即使基于样本)的期望长度都不可能小于1-α,即本质上必须包含几乎整个[0,1]区间。这是一个很强的
-
证明路线与技术技巧(理论型):
-
整体路线(以分数边界的Shar谱性证明为例,Theorem 3):
- 建立线性规划:将存在一个可行
(θ, q_0, q_1)的问题转化为一个关于正类联合质量h_1(u) = P(X*=1, U=u)的线性规划(LP)。约束包括:质量守恒(h_1(u) + h_0(u) = p_U(u)),总质量等于θ,以及校准约束(如Σ w(u)h_1(u) >= aθ)。 - 对偶/可行集分析:对于给定的θ,线性规划关于
h_1的可行集是一个凸多面体。要判断θ是否在可识别集中,就是看这个LP是否可行。而LP的可行性等价于其目标函数的极值落在特定范围内。 - 转化为W+函数:关键先生——重排/集中函数
W^+(t)。它被定义为可以通过一个总质量为t的子总体(h_1)从全分布p_U中提取的最大E[w]值。计算W^+(t)是古典的优化问题,可以通过按w(u)降序对支持点u排序、然后分配质量来贪心求解。W^+(t)是凹的、非递减的。这正是处理“在质量守恒和总量约束下最大化线性函数E[w]”的标准技巧(Hardy-Littlewood不等式)。 - 可行性条件:在固定θ下,校准约束
E[w|X*=1] >= a及E[1-w|X*=0] >= b等价于要求正类能提供的最大分数W^+(θ)要至少为max{aθ, ¯w - (1-b)(1-θ)}。后者是从另一个方向转化得到的上界。因此,θ可行当且仅当W^+(θ)不低于这两个数的最大值。 - 刻画识别集:由于
W^+(θ)是凹的,而aθ和¯w - (1-b)(1-θ)是线性的,这使得可行θ的集合是区间的交集,因此是一个闭区间。这给出了一个完整的、计算简便的sharp识别集刻画。
- 建立线性规划:将存在一个可行
-
关键跳跃点:
- 证明线性边界 (Proposition 2) 在连续/多值分数下并非sharp。作者巧妙地识别出,仅使用均值等价于承认
q_0和q_1可以任意地将质量集中在低分/高分区域,而W+函数通过穷尽正类质量分配到高分区域的可能性,揭示了“全分布”信息能收紧边界。这个“均值 vs 全分布”的对比是通过Theorem 3的W^+函数实现的。 - 命题5 (Proposition 5: Truth-sufficient coarsening)。该命题通过似然比 (Likelihood ratio)
f_1(r)/f_0(r)在摘要的每个纤维上必须恒定的条件,来精确刻画哪些粗化是无损的。这等价于要求在调整了摘要后,残差信息与真实标签独立。这是一个非常强的、直指本质的条件,解释了为何总计数C通常是不充分的(似然比不恒定),而只有像慢图N在特定对称性假设下才可能充分。
- 证明线性边界 (Proposition 2) 在连续/多值分数下并非sharp。作者巧妙地识别出,仅使用均值等价于承认
-
技术技巧点名:
- Hardy-Littlewood不等式/重排不等式 (Hardy-Littlewood rearrangement inequality):用于推导
W^+(t)的最优解——将有限质量分配给最大的w值。这是计算sharp分数边界的理论基石。 - 轨道统计 (Orbit statistic) & 群作用 (Group action):在处理矩阵R的对称性时使用。通过将prompt交换性建模为一个置换群
S_M作用在矩阵上,并证明其轨道统计量N能完全保持识别信息(在特定限制兼容性条件下),是Proposition 5的特殊化(Theorem 4)。 - 有限混合模型 (Finite mixture model):是整个问题的基础框架。论文从非识别性开始,强调了混合模型的退化性。
- 线性规划 (Linear programming):用于计算sharp识别集(尤其是在有多个校准约束或事件边界时),以及进行回归系数的边界推断。
- Hardy-Littlewood不等式/重排不等式 (Hardy-Littlewood rearrangement inequality):用于推导
-
-
真实例子与应用:
- 数据来源与场景:来自Cheng et al. (2024)的毒性文本分类任务。使用了三个命名模型 (
J=3: GPT-4, GPT-4 Turbo, Claude-2) 和一个人类专家评定的验证集。这恰好是“多命名模型,单次提问”设计 (Design II)。真实患病率θ_0 = 0.65是可得的,用于验证边界的有效性。 - 怎么用:作者首先在一个验证集上计算了每个LLM的敏感度和特异度(校准常数)。然后,他们构建了不同的可观测数据对象(命名向量
Yvs 投票计数S),并计算对应的识别集。 - 得到的结果:表8是核心展示。使用命名向量
Y(并利用其对应的校准信息)得到的识别集宽度为 0.209(区间[0.467, 0.707])。而如果只存储投票计数S(丢失了模型身份信息),同组校准信息下宽度扩大到 0.383(区间[0.348, 0.731]),几乎是两倍的宽度。这说明存储更丰富的响应对象(命名向量)能显著提升识别力。 - 这个例子想说明什么:完美地验证了论文的理论结论(Theorem 2: Coarsening weakens identification)。它向实践者传达了一个清晰的信息:在LLM标注场景中,不仅仅是记录“有多少模型说有毒”的计数,“哪些模型说有毒”的模式至关重要。命名向量所携带的特定模型信息(如GPT-4比Claude-2更准确)可以被校准约束所利用,从而产生更紧的边界。
- 数据来源与场景:来自Cheng et al. (2024)的毒性文本分类任务。使用了三个命名模型 (
-
🔎 结论是否比证明窄:有。Theorem 4 (Lossless reduction) 的结论建立在非常强的 Assumption 1 (Restriction compatibility) 之上。该假设要求矩阵级别的限制必须是“Prompt-变换不变的”,并且直方图级别的限制集必须恰是这些不变限制的投影。如果实践者想要利用一个只对特定Prompt
m=1有效的校准约束(例如只在第一个提示下LLM很准),那么这个约束就不能被转化为N上的限制,Theorem 4的“Lossless”结论就失效了。论文的Remark 7和Remark 8虽然提到这一点,但并未深入探讨这种不对称/特定Prompt校准在实践中是否常见,以及它的缺失会带来多大的识别损失。更严谨的说法应该是:仅在限制集是关于prompt置换群对称的,并且限制在约化后保持对应关系时,从R到N的约化在识别集上是lossless的。否则,N给出的识别集可能小于或大于R(取决于限制是否被投影或添加)。
四、开放问题(点到为止,扎根具体语句)¶
-
群组交叉依赖下的sharp边界:论文附录A探讨了在多可观察群组(Groups)下,如果假设测量误差
(q_0, q_1)跨群组不变(排他性约束),可以得到更紧的边界。但此模型是双线性的(在π_g和q_z上),保守的McComick envelope已被提出。一个具体的开放问题是:能否在这个双线性模型中,找到一个能产生sharp识别集且计算高效的凸松弛算法(例如,基于半定规划SDP的松弛)?这可以进一步收紧边界,并验证模型假设。 -
对校准分数
W(U)的“紧性”刻画超越W^+(t):Theorem 3提供了基于分数完整分布的sharp识别集。但是,它仍然假设除了分数均值外,校准约束是期望形式的 (E[w(U)|X*=1] >= a),例如是线性期望约束 (linear moment constraint)。一个开放问题是:如果校准提供了关于分数分布的更高阶矩或分位数(例如,“在X=1时,分数w(U)至少不低于0.8的概率是0.5”),除了现在通用的线性规划,是否存在一个超越W^+(t)的、仍可用贪心算法刻画的sharp界?* 这能更充分地利用校准信息。 -
回归系数的联合bound(joint bound):论文Section 11将校准分数边界从估计
θ扩展到估计一个B回归系数β。它指出通过为潜在交叉矩E[X*Z]和E[X*V]分别求解LP,可以得到分量的“区间”,但这种方法给出的只是外层/保守的整体区间。文中提到(Proposition 6下面):“Replacing M by the box of component-wise intervals from Lemma 1 gives valid but generally conservative outer bounds; the joint program is sharp.” 开放问题是:能否提供一个计算可行的联合LP(可能以η(u, z, v)为变量)来真正实现sharp的多维系数识别集?这涉及到高维联合约束和多维目标的优化,可能对实践者很有价值。 -
使用“条件校准 (Conditional Calibration)”进行Covariate Augmentation:论文Section 11的Remark 9提到“如果校准在协变量
Z的层内进行验证”,则系数边界可以更紧。这是一个非常值得尝试的方向。具体的开放问题是:在流行病学/因果推断中,当X*是错分的处理变量或混杂变量时,是否可以像在IV和近端推断中那样,利用多个外生协变量Z与测量误差U的变异,通过条件校准来进一步提高识别力,并形成一个更通用的敏感性分析框架? 例如,当观察到足够多可影响响应概率、但独立于真值X*的协变量时,是否可以在部分识别框架下实现更接近点识别的效果?注意:要确认问题1和问题4是否真的是当前的开放gap,建议研究者去读同一方向近期的5篇论文(例如Henry et al. (2014)及其后几篇,Linder et al. (2026)等)的Introduction部分。如果多家都指向这两个方向(群组的排他性约束、条件校准),那说明这是共识性的开放问题,值得深入。
Maintained by 陈星宇 · Homepage · Source on GitHub