Identification and Inference for Algorithmic Frontiers with Selective Labels¶

作者: Yiqi Liu, Francesca Molinari, Amilcar Velez
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.14977

一、领域脉络与小综述¶

1. 这个方向是什么¶

本文研究的核心问题是：在“选择性标签”（selective labels）——即只对接受特定决策的个体观测到结果——的现实约束下，如何对算法的公平性-准确性权衡（FA-frontier）进行识别与统计推断。这是一个将因果推断中的缺失数据/选择性问题与算法公平性领域的政策评价相结合的子方向，其成熟度处于从理论框架构建走向实用推断工具的中期阶段。

2. 发展脉络¶

奠基工作——公平性-准确性权衡的理论化：
Kleinberg, Mullainathan, and Raghavan (2016)：率先形式化证明了公平性准则之间的内在不可兼容性（impossibility results），奠定了该领域的基础。
Corbett-Davies et al. (2017), Menon and Williamson (2018)：将公平性-准确性权衡具体化为不同损失函数下的帕累托前沿（Pareto frontier）问题，并指出在分类问题中，可以用统计奇偶性（statistical parity）衡量公平性，用分类错误衡量准确性。
Liang, Lu, Mu, and Okumura (2026, LLMO)：本文的主要理论框架来源。LLMO提出了“公平性-准确性前沿”（FA-frontier）的正式定义——一个考虑群体特异预期损失的二维可行集，并研究了不同设计限制（如禁止使用敏感属性）对该前沿的影响。关键设定：LLMO主要用同一个损失函数同时衡量公平性与准确性，并侧重于刻画帕累托前沿与FA-frontier之间的关系。留下的口子：他们仅给出了“两种不同损失函数”设定下FA-frontier的部分性质（附录O.1），且没有处理选择性标签问题。
主要进展——选择性标签与统计推断：
Lakkaraju et al. (2017), Kleinberg et al. (2018), Rambachan et al. (2025)：开始系统研究选择性标签对算法公平性评估的影响。其中Rambachan et al. (2025) 发展了一套“鲁棒评估与设计”框架，在选择性标签与未观测混淆下，给出算法性能（主要是预测准确性）的界限。本文作者明确将其定位为“回答了一个不同的问题”：Rambachan等人关注的是如何评估单个算法的预测表现，而本文关注的是对所有可行算法整体公平性-准确性权衡的识别与推断。
Liu and Molinari (2026)：本文的直接前序工作。该文（作者之一即为本文作者Liu）在没有选择性标签的理想情况下，建立了FA-frontier的识别与推断框架，核心工具是支持函数（support function），并用DML / Neyman orthogonal score 方法实现了渐近有效的推断。留下的口子：该文“假设选择性标签问题不存在”，这正是本文要突破的核心。
当前Frontier——选择性标签下的推断：
Auerbach et al. (2024)：在标签完全观测的设定下，提供了一个基于样本分割的检验，用于判断是否存在“更少歧视的替代方案（LDA）”。
Fallah, Jordan, and Ulichney (2026)：研究帕累托最优线性规则的样本模拟的极小化最优性，并给出了其经验误差的一致高概率界。
本文（Liu, Molinari, Velez, 2026）：定位为在选择性标签设定下，直接推进Liu and Molinari (2026)的方法，填补了“从理想观测到现实缺失”的空白。作者将缺失数据下的偏识别方法（Manski, 1989） 与点识别下的DML推断统一到一个框架里。

3. 子线索聚类¶

线索1：公平性-准确性权衡的理论框架（Liang et al., 2026; Corbett-Davies et al., 2017; Menon & Williamson, 2018）。核心：定义并刻画不同损失函数下的可行集与前沿。
线索2：选择性标签下的算法评估（Lakkaraju et al., 2017; Kleinberg et al., 2018; Rambachan et al., 2025; Khan et al., 2025）。核心：处理结果变量仅对选定样本可观测带来的偏差。
线索3：偏识别与渐近推断的结合（Liu & Molinari, 2026; Chernozhukov et al., 2018; Beresteanu & Molinari, 2008; Fang & Santos, 2019）。核心：利用支持函数把集合值估计问题转化为可处理的优化问题，并用DML等工具做渐近推断。

4. 核心问题与主流瓶颈¶

核心问题1：在无限制选择过程下，FA-frontier的sharp identification region 是什么？——本文用定理3.2给出了一个有限维优化问题的刻画。
核心问题2：在条件无混淆（MAR） 下，如何实现点识别并构建渐近有效的推断？——本文用DML + Neyman orthogonal score 回答（定理4.1, 5.1）。
主流瓶颈：选择性标签下的可行集E和特定算法的损失向量ε(a)同时被 partically identified，且需要“耦合”同一个缺失标签分布，这导致识别问题极其繁重。本文通过将损失函数限定为分类错误与统计奇偶性，并结合支持函数，将该无限维搜索压缩为有限维优化（定理3.1, 3.2），这是主要的技术突破。

5. ⚠️ 作者的Framing（须明确标注为作者的说法）¶

作者如何frame缺口：他们把缺口frame为“选择性标签严重损害了治理合规（governance compliance），比如，被拒绝保释的人如果获释也可能不会再次犯罪，此时只看已观测到的结果会夸大模型在所有人群上的准确性”。因此，本文是“显然的下一步”——在选择性标签下，把Liu and Molinari (2026)的框架做完整的识别与推断。
淡化/回避的竞争路线：作者将Rambachan et al. (2025) 定位为“回答了一个与本文不同的问题”，暗示那条路线更关注单个算法的性能评估而非前沿的推断。这一framing可能回避了两个框架能否统一的问题。
什么明显该被引 / 该存在、却不在intro里：未被引用的相关工作包括：
- 与Proximal Causal Inference的联系：该领域也在处理“代理变量 + 未观测混淆”下的识别，而本文的选择性标签（Z不满足MAR时）本质上与未观测混淆问题同构。作者没有提及这可能是一个潜在的、更一般的识别路线。
- 更高阶的debiased method：虽然作者用了DML，但并未讨论是否可以达到半参数效率下界（semiparametric efficiency bound），也未提及Is it possible to use 高阶影响函数（HOIF） 来提高收敛速度（用户熟悉）。
- 与用户自身工作的潜在耦合：作者使用支持函数和DML，并没有用到 einsum / tensor contraction / 高阶U-统计量的图论代价分析。这提示：用户可能从计算复杂性角度为这篇论文提供新视角（例如，文中的优化问题是否可用einsum高效实现？）。

6. 张力¶

未见明显对立引用。所有被引文献在各自设定下自洽，但彼此之间存在“假设或场景不同”这一自然张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（地基）¶

符号
- Y* ∈ {0,1}：个体是否真正存在“坏”结果（如再次犯罪）；潜在/不可完全观测的完整结果向量。Y = Z Y*是观测到的结果（选择性）。
- Z ∈ {0,1}：标签是否被观测到的指示变量（1 = 观测到，即该个体被“选择”接受了决策D）。
- G ∈ {r, b}：群体身份（如种族），二值。
- X ∈ ℝ^d：协变量向量。
- D ∈ {0,1}：算法做出的决策（如是否批准保释）。
- a: X → [0,1]：一个算法，将协变量映射到决策D=1的概率。
- ℓ_A(D, Y*) = 𝟙(D ≠ Y*)：准确性损失（分类错误）。
- ℓ_F(D, Y*) = 𝟙(D = 1)：公平性损失（统计奇偶性）。
- e^A_g(a), e^F_g(a)：群体g在准确性/公平性损失下的预期群体损失。
- ε(a) = (e^A_r(a), e^A_b(a), e^F_r(a) - e^F_b(a))：算法a在三维空间中的预期损失向量。
- E ⊂ ℝ³：所有可达到的ε(a)构成的可行集。
- F ⊂ E：FA-frontier（公平性-准确性前沿），不被其它算法在“更准+更公平”意义上支配的点集。
- h_E(q)：可行集E在方向q上的支持函数，h_E(q) = sup_{ε∈E} qᵀε。
模型 / 数据生成机制
- 存在一个真实的、但不可完全观测的联合分布 P*(Y*, G, X, Z)。
- 可观测到的分布是 P(Y = ZY*, G, X, Z)。
可观测 vs 不可观测
- 可观测：Y（选择性标签），G, X, Z。
- 不可观测：Y*（完整真实结果），以及所有与其有关的条件期望（如θ_d(X)=E[L_d|X]）。

第二步：最小内核（最简特例）¶

在二值Y*、分类损失衡量准确性、统计奇偶性衡量公平性的最简设定下，本文的最小内核就是定理3.1。它回答了一个核心问题：

问题： 在完全不限制选择过程Z（即Z可以与Y*任意相关）的情况下，如何判断一个给定算法a*能否落在某个“与数据相容”的缺失标签分布下的FA-frontier上？

最简特例下核心思路：

识别上的两难：由于Y*不可观测，定义λ_g(x) = E[Y*|X=x, G=g, Z=0]来表示未选择样本（Z=0）中真实结果的未知条件期望。每个可能的λ函数（取值为[0,1]²）都定义了一个潜在的完整数据分布。因此，可行集E和目标损失ε(a*)都不是点识别的，都依赖于这个λ。
核心技巧（定理3.1）：作者把判定算法a*是否在前沿上这个看似需要遍历无穷维λ空间的问题，转化为一个仅依赖可观测数据(Y, G, X, Z)的有限维优化：
- 关键发现：回答“a*是否在前沿上”的最坏情况，只会在λ(x) = (0,0)或λ(x) = (1,1)（即所有缺失的Y*要么全是0，要么全是1）这两个极端出现。
- 数学形式（定理3.1）：a*是“有可能”在前沿上的充要条件是：
  \[\min_{q \in \tilde{S}^2} E[\max\{J_0(\lambda_1; q, a^*), J_1(\lambda_0; q, a^*)\}] = 0，\]
  其中J_0和J_1是只与a*和可观测数据有关的、形式简单的随机变量（见公式(24)），λ_1=(1,1), λ_0=(0,0)。
解释：这个最小内核揭示了，在无限制选择下，识别前沿的关键在于清楚地知道（或假设）缺失部分的真实结果到底是好是坏。而对算法“是否可能最优”的判断，最终只需要检查这两种极端情况。

三、这篇论文做了什么¶

1. 三句话¶

研究了什么问题：在结果变量因选择性标签（selective labels）而存在缺失的场景下，对算法的公平性-准确性前沿（FA-frontier）进行识别与统计推断。
核心工具/方法：利用可行集E的支持函数（support function），将前沿刻画转化为优化问题。结合DML（Debiased Machine Learning）、Neyman orthogonal score 和 交叉拟合（cross-fitting），在MAR假设下构建了渐近正态的估计量。
主要结论：①在无限制选择、特定损失函数下，给出了FA-frontier的sharp identification region的有限维刻画（定理3.2）。②在MAR假设、任意损失函数下，实现了点识别，并给出了√n-CAN的DML估计量及其渐近分布（定理4.1），并以此构建了用于检验“PF=F”和“无LDA存在”的假设检验（命题5.1, 定理5.1）。

2. 关键设定与假设¶

记号（基于第二节地基）：个人完全理解前面建立的符号集。本文在第3.1节额外精确化了选择性标签下的对象：定义了A_0(x), A_1(x), B(x)等完全基于可观测数据(Y, G, X, Z)的“已知”函数（公式16-18），并将缺失标签的未知期望λ(x)作为识别问题的核心变量。
关键假设：
- 假设1 (Moment restrictions)：标准正则性条件，保证L_d的期望存在且条件方差非退化。
- 假设2 (Margin condition)：确保|qᵀΔθ(X)|在0附近的概率趋于0的速度不至于太慢，从而保证支持函数可微及后续渐近理论成立。这比一般连续性假设强。
- 假设4 (Identification margin)：偏识别设定的特化之假设2，确保对所有与数据相容的分布，margin condition都成立。
- 假设5 (MAR)：核心识别假设：(Y*, G) ⟂ Z | X。这个比标准的 Y* ⟂ Z | X, G 更强，但作者辩护说，当Z = D，且D是由一个不依赖G的算法基于X生成时，该假设是自然成立的（因为G与D条件独立）。这是点识别结果的基石。
- 假设6 / 7 (Regularity for DML / Rate conditions)：保证DML估计量中第一阶段的神经网络/核方法等非参估计量以足够快的速度收敛（如n^{-1/4} L2-一致），以使DML的第二阶段误差可忽略。

3. 主要结果（理论型）¶

定理2.1 (支持函数): 证明了可行集E是严格凸的，其支持函数h_E(q)和梯度有闭合形式。这是整个分析框架的基石。
定理2.2 (前沿的支撑函数刻画): ε* ∈ F 当且仅当 min_{q} [h_{C(ε*)}(q) + h_E(-q)] = 0。这等价于C(ε*)（比ε更优的那块区域）和可行集E可以正确分离，从而将前沿判定转化为了一个可优化的支持函数最小化问题*。
定理3.1 (偏识别前沿成员的有限维刻画): 在无限制选择、特定损失下，判断一个给定算法是否可能落在前沿上，只需检查λ(x) = (0,0) or (1,1)这两个极端的有限维优化。这是偏识别部分的核心技术贡献——将无限维空间搜索化为极值问题。
定理4.1 (DML估计量的渐近分布): 在MAR假设下，基于交叉拟合的DML估计量\hat{h}_E(q)是√n-相合和渐近正态的，且其影响函数来源于检验函数ζ_i和估计µ的误差Γ。
定理5.1 (LDA检验的渐近有效性): 提出了一个基于Rademacher权重再抽样+贝叶斯Bootstrap的检验统计量Tn^{LDA}，证明了在H0下它的大小渐近正确，并且Bootstrap临界值一致。

4. 证明路线与技术技巧¶

整体路线（以定理4.1为例）: 1. 构建正交得分：作者不直接用Z L_d / π(X)来做IPW估计，因为其会受到第一阶段π估计误差的影响。他们构造了Neyman-orthogonal score ζ_i(q; L, η)（公式34），使得一阶π的逼近误差被正交化项α_h (1 - Z/π)抵消。 2. 交叉拟合：分K折。折外估计η，折内用η和正交得分构造最终的\hat{h}_E。这打破了第一阶段的过拟合，使得第二阶段误差只取决于第一阶段收敛率的乘积（而非一次项），放宽了对第一阶段√n收敛的要求至n^{-1/4}。 3. 渐近线性展开：通过一系列引理（Lemma B.10, B.11等），证明了\sqrt{n}(\hat{h}_E - h_E) = \frac{1}{\sqrt{n}} \sum_i ζ_i^* + o_p(1)，其中ζ_i^*是包含π、θ、µ等所有一阶影响的、η的真值下的设计显式函数。这本质上就是验证DML框架的标准三步：构造正交得分、交叉拟合、线性展开。 4. 经验过程理论：证明ζ_i^*构成的函数类在q上是Donsker的（利用有限维参数q的平滑性/指示函数性质），从而\sqrt{n}(\hat{h}_E - h_E)弱收敛到一个高斯过程在S^2上。

关键跳跃点/难点: - 偏识别的有限维简化（定理3.1）：无限制选择下，需要同时耦合ε(a*)和E的识别。作者的核心跳跃是：证明最坏情况发生在λ取0或1的边界。这需要仔细分析J_d函数线性形式与max算子的凸性，以及λ ∈ [0,1]²的约束。技术技巧：利用minimax theorem交换 inf 和 E的顺序，并通过分段线性分析找到关于t的最优解只在0, a(X), 1处达到，从而将λ的搜索极值化。 - 支持函数的连续模与渐进等距连续：为确保\hat{h}_E(q)在q上一致强收敛，需要对h_E(q)的“模”进行控制。作者使用Assumption 2 (Margin condition) 来证明h_E(q)的连续性，并利用DML的正交特性来确保第二阶段误差（由其导致的A_k项）在q上一致可忽略。 - LDA检验的再抽样：由于在H0下Tn可能退化，作者引入了Rademacher权重来正则化*，并证明了加权版本的估计量依旧保持一致性。这是处理推断问题中潜在非正则性的精细技巧。

5. 真实例子与应用¶

本文没有提供任何真实数据例子。在结论（Section 6）中，作者两次提到“正在开发（work in progress）的实证应用”，故此为纯理论 / 无实证例子。

模拟实验？ 从头到尾没有提到模拟实验。因此，目前没有验证理论预测的有限样本性质。

6. 🔎 结论是否比证明窄¶

有证据表明结论比证明窄。以下具体语句值得注意：

定理3.1的限定：只涵盖 Y* ∈ {0,1}, ℓ_A = classification error, ℓ_F = statistical parity 这一特殊损失设定。作者自己也说：“In work in progress, we explore extending Theorem 3.1 to other loss functions.” ——这明确说明，该强有力的偏识别结果目前适用范围很窄。
定理2.3（PF=F等价条件）的证明依赖了Assumption 3（No Kinks） 来得到单射性。作者在定理陈述中就区分了“无假设3”和“有假设3”的两个等价条件，说明在没有No Kinks假设时，条件变了，说明其证明的有效性是有条件的。
MAR假设（Assumption 5）：作者为点识别而做的G ⟂ Z | X比Y* ⟂ Z | X更强。作者仅用“通常......”，但没有给出正式证明。这意味着在更弱的MAR下（即Y* ⟂ Z | X, G），其公式（30）-（31）也可能不复正确。因此，结论的严格适用范围必须检查这个更强的独立性条件是否在应用中自然成立。

四、开放问题（点到为止，扎根具体语句）¶

更一般损失函数下的偏识别刻画：本文定理3.1仅适用于(ℓ_A = 分类错误, ℓ_F = 统计奇偶性)。将其推广到一般损失函数是明确的开放问题。扎根点：Section 绪论（第1页） “In work in progress, we extend the partial identification results to a broader class of loss functions.” 以及定理3.1的结论：“… under which characterization holds for specific loss functions.”
DML估计器的半参数效率下界：本文定理4.1证明了DML估计量的√n-相合性与渐近正态性，但没有证明它是否达到了半参数效率下界（semiparametric efficiency bound）。这是一个典型的开放问题。扎根点：定理4.1的证明中，作者只证明了影响函数是ζ_i^*，但未证明该影响函数就是Efficient Influence Function。用户非常熟悉此工具，可以立即检验。
存在未观测混淆时的鲁棒前沿识别：本文的无限制选择对应全偏识别，MAR对应点识别。两者之间灰色地带（如混淆可以被一个未观测变量捕捉）并未考虑。将Proximal Causal Inference 或 Sensitivity Analysis 框架引入到前沿推断上，可能是一个重要的融合方向。扎根点：绪论对Rambachan et al. (2025)工作的framing，暗示了混淆是该方法与本文方法的关键区分边界。
计算复杂性视角：本文的推断程序涉及在S^2（一个三维球面）上进行优化。从用户的视角出发，这种计算的代价如何？ 特别是当协变量维度很高时，这种“枚举算法”（转化为阈值规则）的优化问题是否可以用einsum / tensor contraction来高效表示和计算？扎根点：本文完全无此内容，是一个未被探索的、源自用户技术武器库的开放性问题。

Maintained by 陈星宇 · Homepage · Source on GitHub