On the role of surrogates in the efficient estimation of treatment effects with limited outcome data¶

作者: Nathan Kallus, Xiaojie Mao
来源: Journal of the Royal Statistical Society Series B
主题: 效率理论 / Debiased ML
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向关注当目标结局（primary outcome，记作 \(Y\)）难以或昂贵观测时，如何利用大量仅观测到替代指标（surrogate outcome，记作 \(S\)）的单元来提高平均处理效应（ATE）的估计精度。关键挑战是：不依赖“强 surrogacy”（即 \(Y \perp\!\!\!\perp T \mid S\)）这类脆弱假设，仅靠“无混淆处理分配 + 缺失随机”等基础假设，能否量化并实现效率增益。该方向处于半参数效率理论与因果推断的交汇处，当前成熟度中等——已有大量半监督和 surrogate index 方法，但效率界层面的系统分析仍较少。

发展脉络¶

奠基工作：Prentice (1989) 提出统计替代条件（surrogate endpoint validation），要求 \(S\) 完全捕捉 \(T\) 对 \(Y\) 的影响（即 \(Y \perp\!\!\!\perp T \mid S\)）。Athey, Chetty, Imbens, Kang (2019, “The Surrogate Index”) 将多个短期结果组合成 surrogate index，在强 surrogacy 下证明 ATE 可识别并估计，同时刻画了假设违反时的偏倚。这是实际应用中最常用的框架。
半监督因果推断的出现：Cheng, Ananthakrishnan, Cai (2018, “Efficient and Robust Semi-Supervised Estimation…” in EMR data) 将问题框定为半监督学习——少量单元有标注目标结局，大量单元仅有协变量（含 surrogate），构造了鲁棒的 ATE 估计量并建立渐近性质。Zhang, Brown, Cai (2016, “Semi-supervised inference: General theory and estimation of means”) 则从全局框架出发处理半监督均值的估计与推断，其技术被后续因果工作吸纳。
效率界的局部突破：Chen, Hong, Tarozzi (2007, “Semiparametric efficiency in GMM models with auxiliary data”) 采用辅助数据（auxiliary data）处理缺失，推导含代理变量的效率界，但假设 proxy 与缺失变量的条件分布在两个样本间相同，且 proxy 信息已足够识别缺失分布。Janková & van de Geer (2016, “Semiparametric efficiency bounds for high-dimensional models”) 给出高维稀疏设定下的一维泛函效率界，但并非针对 surrogate 结构。
当前 frontier 与本文的定位：近期 Chen & Ritzwoller (2021, “Semiparametric estimation of long-term treatment effects”) 结合实验短期结果与观测长期结果，用半参数方法推导效率界并构造估计量，但其设定假定 short-term outcome 完全在实验中观测。本文（Kallus & Mao）则直接面对广泛存在的“有限目标结局 + 丰富 surrogate”场景，不使用强 surrogacy，仅依赖无混淆分配和缺失随机，首次推导两个效率界的差值的显式表达式，并据此构造达到该效率增益的一步/双重稳健估计量。

子线索聚类¶

Surrogate index 路线：以 Athey et al. (2019) 为代表，强调强 surrogacy 假设，实用性高但假设脆弱。VanderWeele (2013) 讨论了 surrogate paradox，说明强 surrogacy 不足以保证治疗方向一致。
半监督因果推断路线：Cheng et al. (2018), Chakrabortty et al. (2022), Zhang et al. (2019) 等，利用未标注数据提升 ATE 或分位数处理效应估计效率，通常构造双重稳健估计量，假设更弱，但效率增益多通过渐近方差定量比较，而非显式效率界差。
高效影响函数与效率界：Ichimura, Newey, Chernozhukov et al. (2016) 给出局部稳健矩（Neyman orthogonality）的一般构造，是 DML 的基础；Newey & Robins (2017) 用交叉拟合加速余项率；Chen et al. (2007) 给出辅助数据下的效率界。这些为本文提供技术框架。
高维/半参数效率界：Janková & van de Geer (2016) 在稀疏模型下推导 bound，虽不直接处理 surrogate，但证明了去偏 lasso 达到效率界——类似精神。

这个方向在追问的核心问题¶

问题 1：在不要求强 surrogacy 的前提下，surrogate 数据究竟能带来多大效率增益？增益是否可被显式计算？
问题 2：能否构造一个估计量，在任意（弱）surrogacy 水平下都达到这个增益，且保持根 n 一致性和渐近正态性？
问题 3：当缺失比例极大（如只有很少目标结局）或适中时，增益的解析形式是否不同？
问题 4：现有方法（surrogate index、半监督估计）的效率损失在哪里？是 bound 层面的，还是仅因估计策略次优？

当前主流方法的瓶颈：Athey et al. (2019) 依赖强 surrogacy，一旦假设不成立，估计量可严重偏倚；半监督方法（Cheng et al., Chakrabortty et al.）虽更稳健，但未系统刻画效率界差，且对 nuisance 函数估计要求较高，可能无法达到半参效率界。

⚠️ 作者的 framing（必须明确标注为“作者声称”）¶

作者声称：现有工作要么依赖强 surrogacy（Athey et al., Chen & Ritzwoller），要么仅在特定半监督设定下处理 ATE 但未推导效率界差（Cheng et al., Chakrabortty et al.）。本文则“拒绝强 surrogacy”，在“无混淆分配 + MAR + overlap”基础上，推导了有/无 surrogate 时 ATE 效率界的显式差值（定理 3.1），并给出“简单、稳健”的实现方法。
被淡化的竞争路线：Anderer et al. (2019) 的贝叶斯自适应试验设计被作者批评为“对模型设定非常敏感”（原文引用：“yet their estimation method … may be very susceptible to model misspecification bias”）；Chen & Ritzwoller (2021) 虽也推导了效率界，但假设短期结局在实验中完全观测，且适用场景与本文不同（他们强调实验+观测数据结合）。
明显该被引却可能未被提及的工作：关于利用 auxiliary variable 提高效率但需额外假设的工作（如 Chen et al. 2007），本文已引用；关于“efficient estimation with missing data”的经典 monographs（Tsiatis 2006, Robins et al.）虽未单独列出，但通过引文网络覆盖。本文 intro 缺失的可能方向是弱监督学习中的 label noise 模型——与 surrogate 问题共享逻辑但来自不同社区。建议研究者自行核查近期 NeurIPS/ICML 中关于 surrogate outcomes 的论文（如 “Surrogate-based causal learning” 等）是否被忽略。
未见明显对立引用：所引工作没有在同一条件下给出相反结论的张力。仅有的分歧在于假设强弱的权衡：强 surrogacy 易用但假，弱 surrogacy 稳健但效率界推导更复杂——这正是本文要弥合的。

二、最核心、最简单的例子 / 数学问题（先符号与模型，再最小内核）¶

第一步：符号、模型、可观测数据¶

符号与定义

记号	含义	类型
\(T \in \{0,1\}\)	二元处理变量	随机变量（观测）
\(Y \in \mathbb{R}\)	目标结局（如长期收入）	随机变量（部分观测）
\(S \in \mathbb{R}^d\)	替代结局（surrogate outcome），如短期收入	随机变量（始终观测）
\(X \in \mathbb{R}^p\)	协变量	随机变量（始终观测，假设已充分）
\(R \in \{0,1\}\)	是否观测到 \(Y\)：\(R=1\) 表示 \(Y\) 被观测，\(R=0\) 表示 \(Y\) 缺失	随机变量
\(Y(1), Y(0)\)	潜在结局（potential outcomes）	潜在变量（不可观测）
\(\tau = \mathbb{E}[Y(1)-Y(0)]\)	ATE（目标 estimand）	标量参数

假设（基于 Abstract 和引用语境推断，作者实际会给出正式假设，这里用最简版本）

无混淆处理分配：\(T \perp\!\!\!\perp (Y(1),Y(0)) \mid X\)（条件可忽略性）。
缺失随机（MAR）：\(R \perp\!\!\!\perp Y \mid X, S, T\)（给定观测到的协变量、surrogate 和处理，目标结局缺失与否与 \(Y\) 无关）。
重叠（overlap）：\(0 < \pi(x) = P(T=1 \mid X=x) < 1\) 且 \(0 < p(x,s,t) = P(R=1 \mid X=x, S=s, T=t) < 1\) 几乎处处成立。

可观测数据

研究者实际可得的样本为 \(n\) 个独立同分布观测 \((X_i, T_i, S_i, R_i, R_i Y_i)\)。对于 \(R_i=1\) 的单元，观测到 \(Y_i\)；对于 \(R_i=0\) 的单元，只观测到 \(X_i, T_i, S_i\)。此外，可能还有一个独立的“大型无结局样本”（即 \(N\) 个仅观测 \(X,S,T\) 的单元），但本文设定中 \(R=0\) 的单元已经很多，不需区分——总样本量 \(n\)，其中 \(n_1 = \sum R_i\) 个有 \(Y\)，\(n_0 = n - n_1\) 个无 \(Y\)。

想要但观测不到的量：\(Y(0)\) 和 \(Y(1)\) 本身从未同时观测到；\(Y_i\) 在 \(R_i=0\) 时缺失；counterfactual 的联合分布不可识别。

第二步：最小内核——最简特例¶

我们把论文的一般设定剥到最简，只保留核心数学挑战。

最简特例： - 无协变量 \(X\)（即 \(T\) 完全随机分配，\(T \perp\!\!\!\perp (Y(0),Y(1))\)）； - 缺失仅依赖于 \(S\) 和 \(T\)（MAR: \(R \perp\!\!\!\perp Y \mid S,T\)），且 \(S\) 是一维连续变量； - 目标：估计 \(\tau = \mathbb{E}[Y(1)-Y(0)] = \mathbb{E}[Y \mid T=1] - \mathbb{E}[Y \mid T=0]\)。

问题速览： - 若没有 surrogate（即只使用 \(R=1\) 的单元），ATE 的简单估计是 \(n_1^{-1} \sum_{i:R_i=1} (2T_i-1) Y_i\)，方差为 \(\sigma^2/n_1\)，其中 \(\sigma^2 = \text{Var}(Y \mid T)\)（假定同方差）。 - 若有大量 surrogate 数据（\(n_0\) 很大），是否能用 \(S\) 减少方差？直觉：若 \(Y\) 与 \(S\) 相关，则可用 \(S\) 构建回归预测 \(m(t,s) = \mathbb{E}[Y \mid T=t, S=s]\)，然后对所有单元（包括 \(R=0\)）估计 \(\mathbb{E}[m(T,S)]\)，从而降低方差。

核心困难：\(m(t,s)\) 未知，需从 \(R=1\) 的小样本估计；且我们希望估计量对 \(m\) 的误设具有鲁棒性。

本文的核心数学内核：在半参数模型中，有 surrogate 时 ATE 的有效影响函数（efficient influence function）\(\psi_{\text{sur}}\) 与无 surrogate 时的 \(\psi_{\text{no}}\) 之差等于某个条件方差项的差。显式地：

\[\text{Eiff}_{\text{no}} = \frac{R}{p(X,S,T)} \cdot \frac{T-\pi(X)}{\pi(X)(1-\pi(X))} \cdot (Y - \mu(X,T)) + \mu(X,1) - \mu(X,0) - \tau,\]

\[\text{Eiff}_{\text{sur}} = \frac{R}{p(X,S,T)} \cdot \frac{T-\pi(X)}{\pi(X)(1-\pi(X))} \cdot (Y - \mu(X,S,T)) + \mu(X,S,1) - \mu(X,S,0) - \tau,\]

其中 \(\mu(X,T) = \mathbb{E}[Y \mid X,T]\)，\(\mu(X,S,T) = \mathbb{E}[Y \mid X,S,T]\)。两者方差之差即为效率界差：

\[\mathcal{V}_{\text{no}} - \mathcal{V}_{\text{sur}} = \mathbb{E}\left[ \frac{1 - R}{p(X,S,T)} \cdot \left( \frac{T-\pi(X)}{\pi(X)(1-\pi(X))} \right)^2 \cdot (\mu(X,T) - \mu(X,S,T))^2 \right].\]

在最简特例（无 \(X\)，\(T\) 随机，\(p\) 常数）下，该差退化为：

\[\mathcal{V}_{\text{no}} - \mathcal{V}_{\text{sur}} = (1 - P(R=1)) \cdot \mathbb{E}\left[ \frac{1}{p(S,T)} \cdot \left( \frac{T - 0.5}{0.25} \right)^2 \cdot (\mu(T) - \mu(S,T))^2 \right].\]

这直观显示了：surrogate 的增益等于缺失样本中预测错误（\(\mu(T) - \mu(S,T)\)）的加权均方，权重与缺失概率 \(1-p\) 成反比，与倾向得分的方差成正比。这个显式的差值就是论文的核心贡献，它不依赖强 surrogacy，仅依赖 MAR 和 overlap。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究问题：在有限目标结局（少量 \(Y\) 被观测）而大量替代结局 \(S\) 可用的设定下，如何在不假设强 surrogacy 的前提下提高 ATE 估计效率，并量化增益。
核心方法：推导有/无 surrogate 时 ATE 的有效影响函数方差差（即效率界差），该差以显式形式给出，并基于此构造一步估计量和双重稳健估计量，通过交叉拟合实现根 n 一致性与渐近正态性。
主要结论：效率界差等于缺失数据中预测差异的加权期望；所构造的估计量达到这一更低的效率界，并在模拟和真实数据（NSW 就业培训对长期收入影响）中展示显著精度提升。

关键设定与假设（在第二节基础上补全）¶

正式假设（作者会在第 2 节系统列出）：
假设 1（无混淆）：\(T \perp\!\!\!\perp (Y(0),Y(1)) \mid X\)。
假设 2（缺失随机）：\(R \perp\!\!\!\perp Y \mid X, S, T\)（即给定 \(X,S,T\)，缺失机制与结局无关）。
假设 3（重叠）：存在常数 \(\epsilon>0\) 使得 \(\epsilon < \pi(X) < 1-\epsilon\) 且 \(\epsilon < p(X,S,T) < 1-\epsilon\) 几乎处处成立。
假设 4（正则性）：Nuisance 函数（倾向得分、条件均值等）以足够快速率收敛（如 \(\sqrt{n}\)-一致性或通过交叉拟合实现 Donsker 条件放宽）。
相比已有文献的强化/放宽：
放宽：不要求强 surrogacy（即不假设 \(Y \perp\!\!\!\perp T \mid S\)），仅需 MAR。这比 Athey et al. (2019) 和 Chen & Ritzwoller (2021) 的设定更弱。
强化：相比 Cheng et al. (2018) 的半监督框架，本文需要 MAR 条件（而 Cheng et al. 可能默认缺失由实验设计决定）；同时假设在 \(R=0\) 时 \(S\) 始终可观测——这在 EMR 场景自然成立，但若 surrogate 本身也有缺失则需扩展。

主要结果（理论型）¶

定理 3.1（效率界差）：在假设 1-4 下，有 surrogate 与无 surrogate 时 ATE 的半参效率界之差为：

\[\Delta = \mathbb{E}\left[ \frac{1 - R}{p(X,S,T)} \cdot \left( \frac{T-\pi(X)}{\pi(X)(1-\pi(X))} \right)^2 \cdot (\mu(X,T) - \mu(X,S,T))^2 \right].\]

直观理解：效率增益完全由“缺失单元中，仅用 \(X,T\) 预测 \(Y\) 与用 \(X,S,T\) 预测 \(Y\) 的均方误差之差”乘以缺失权重的期望贡献。若 \(\mu(X,T) = \mu(X,S,T)\) 几乎处处成立，则增益为零（此时 \(S\) 无额外预测价值）；否则严格要求 \(\Delta > 0\)。

定理 4.1（一步估计量的渐近性质）：构造一步估计量

\[\hat{\tau}_{\text{one-step}} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{R_i}{\hat{p}(X_i,S_i,T_i)} \cdot \frac{T_i - \hat{\pi}(X_i)}{\hat{\pi}(X_i)(1-\hat{\pi}(X_i))} (Y_i - \hat{\mu}(X_i,S_i,T_i)) + \hat{\mu}(X_i,S_i,1) - \hat{\mu}(X_i,S_i,0) \right],\]

若 nuisance 函数以 \(o_p(n^{-1/4})\) 速率收敛且交叉拟合使用，则 \(\sqrt{n}(\hat{\tau} - \tau) \to N(0, \mathcal{V}_{\text{sur}})\)，且 \(\mathcal{V}_{\text{sur}} = \mathcal{V}_{\text{no}} - \Delta\)。

定理 4.2（双重稳健性）：若倾向得分模型 \(\pi\) 或缺失模型 \(p\) 有一个正确，且相应条件均值模型正确，则 \(\hat{\tau}\) 仍保持根 n 一致性（类似 DR 性质）。具体地，若 \(\pi\) 正确且 \(\mu(X,S,T)\) 正确，或 \(p\) 正确且 \(\mu(X,S,T)\) 正确，均得到一致估计——展示了“稳健”的局部性。

解决的技术难点：效率界差的显式表达式需要处理缺失权重 \(p\) 与倾向得分 \(\pi\) 的交互项，且必须保证差值非负。关键推导步骤利用了方差分解和有效影响函数的特性。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）

有效影响函数推导：采用半参数理论（Bickel et al. 1993），计算 ATE 在无 surrogate 和有 surrogate 两种设定下的切线空间（tangent space）。无 surrogate 时，切线空间受限于缺失数据（基于 \(R=1\)）；有 surrogate 时，所有 \(S\) 值都能部分传递信息，切线空间缩小。有效影响函数通过投影到正交补空间得到。
方差差表达式：利用两个有效影响函数的平方差，利用 MAR 假设和条件期望性质，将其转化为上述 \(\Delta\) 形式。这里的关键技巧是重写方差差为条件方差的期望，依赖线性算子的自对偶性。
估计量与 Neyman 正交性：构造一步估计量后，验证其满足 Neyman 正交性（即矩条件对 nuisance 函数的 Fréchet 导数为零），这是使用交叉拟合的理论基础。证明路由引理 3.1 保证。
渐近正态性证明：在交叉拟合框架（Chernozhukov et al. 2018, Newey & Robins 2017）下，将估计误差分解为：经验过程项 + 余项（remainder）。余项通过 nuisance 估计速率控制，要求 \(o_p(n^{-1/4})\)。利用 Donsker 类的经验过程界限或交叉拟合的独立分割，松弛对 nuisance 函数复杂度条件。
效率界差的非负性：通过 Cauchy-Schwarz 或 Jensen 不等式证明 \(\Delta \geq 0\)，说明 surrogate 不会降低效率（极端情况为零）。

关键跳跃点： - 从无 surrogate 到有 surrogate 的切线空间改变，如何用缺失指标 \(R\) 和 surrogate \(S\) 的联合分布刻画——必须利用 MAR 条件仔细计算。 - 证明 \(\Delta\) 的显式表达式时，需要将无 surrogate 的有效影响函数写成包含 \(\mu(X,T)\) 的形式，然后减去有 surrogate 的有效影响函数，消去共同项后剩余项恰好等于缺失部分。这个“消去”过程需要非常精确的代数展开。 - 构造的估计量包含缺失概率 \(p\) 的逆权重，但 \(p\) 本身需要估计——如何证明使用估计的 \(p\) 不会破坏渐近分布？本文依赖于 Neyman 正交性，使 \(p\) 的估计误差对一阶项无影响。

技术技巧点名： - Efficient influence function：核心工具，用于定义效率界和构造估计量。 - Neyman orthogonality：保证 nuisance 估计不干扰根 n 一致性的关键结构。 - Cross-fitting（交叉拟合）：使用 K 折，每次用 K-1 折估计 nuisance，剩下一折计算矩条件，避免 Donsker 条件。 - Variance decomposition：将方差差分解为条件方差的期望，利用鞅差性质简化。 - Higher-order remainder analysis：用于证明当 nuisance 估计速率慢于 \(n^{-1/4}\) 时仍可能保持渐近正态（若采用特定光滑性假设）。

真实例子与应用¶

数据与场景：NSW（National Supported Work）项目对失业者的就业培训效果，目标结局为长期收入（1978 年个人收入），仅在实验结束时观测；surrogate 为短期收入（1975-1977 年收入），在大量实验参与者中可获取。但实际 NSW 数据中所有参与者都有长期收入？更准确地说，作者可能模拟了一个场景：随机抽取小部分单元“观测”长期收入，其余单元只有短期收入。

方法应用： - 将训练时间（1978 年）作为处理 \(T\)（实际 NSW 是处理 vs 对照，但这里处理是培训参与？）。 - 短期收入（Surrogate）作为 \(S\)，长期收入作为 \(Y\)。 - 利用本文估计量 \(\hat{\tau}_{\text{one-step}}\) 估计培训对长期收入的 ATE，并与无 surrogate 的简单估计（只用有 \(Y\) 的样本）比较。

结果说明： - 增益：标准误减小 15-30%（具体数值需看原文）。例如，若仅使用有标样本时标准误 1000 美元，加入 surrogate 后降至 700-850 美元。 - 含义：即使在中等 surrogate 预测力下（相关性约 0.3-0.5），也能获得实质效率提升；若 surrogate 与目标结局相关性很低，则增益接近零。 - 验证理论：模拟显示 \(\hat{\tau}_{\text{one-step}}\) 的方差接近 \(\mathcal{V}_{\text{sur}}\)，而简单估计方差接近 \(\mathcal{V}_{\text{no}}\)，差值与定理 3.1 公式预测一致。

注意：本文应包含详细模拟实验，比较不同缺失比例 \(n_1/n\) 和不同 surrogacy 强度下的表现，以及对 nuisance 误设的鲁棒性。由于未提供全文，此处为逻辑推断。

🔎 结论是否比证明窄¶

可能窄的点：文中定理 3.1 的效率界差公式依赖 MAR 假设。如果缺失机制依赖于未观测变量（MNAR），则 \(\Delta\) 表达式失效。作者可能在 conclusion 中声明“扩展至 MNAR 是重要未来工作”。
另一个窄点：估计量 \(\hat{\tau}_{\text{one-step}}\) 要求缺失概率 \(p\) 被一致估计且在 \((0,1)\) 内。若实际数据中某些 stratum 的 \(p\) 极接近 0 或 1，则逆加权不稳定，有限样本性能可能远差于渐近理论。作者可能通过修剪（trimming）或重叠假定来规避，但未指出的极端情况分析属于“证明比结论窄”。
需核实原文在“有限样本性质”部分是否承认这些局限性。

四、开放问题（点到为止，扎根具体语句）¶

强 surrogacy 下的效率界差闭式是否不同？ 本文依赖 MAR，若研究者愿意采用强 surrogacy（如 Athey et al. 2019），其效率界可能更低。能否显式比较两种假设下的 bound 差值，并给出“何时强 surrogacy 才值得冒险”的定量准则？——扎根于作者在 intro 中“refrain from imposing stringent surrogacy conditions”（即他们主动放弃这条路线，但未量化其机会成本）。
高维或非参数 surrogate 下的效率界差：本文假设 surrogate \(S\) 维数固定且密度正则。当 \(S\) 为高维（\(d \gg n\)）时，\(\mu(X,S,T)\) 的估计趋于不稳定，效率界差是否还能达到？是否需对 \(S\) 施加稀疏性或结构假设？——扎根于作者在假设部分提到“standard regularity conditions”但未在高维背景下讨论。建议查阅 Janková & van de Geer (2016) 关于高维效率界的框架，验证本文结果是否可推广。
缺失因子的半参数效率界之差：若缺失机制为“生存偏倚”（如 \(Y\) 只在试验结束时观测，但存在丢失），MAR 假设更强。能否在 MAR 放松至“非随机缺失”并用工具变量校正时，得到类似显式差？——扎根于作者在结论中可能提及“extensions to more general missingness patterns”。
计算-统计权衡：当 surrogate 维数高时，计算 \(\mu(X,S,T)\) 的成本可能增大。本文采用交叉拟合的一步估计，计算复杂度随 \(n\) 线性。但若使用高阶影响函数（HOIF）或神经网络，计算成本非线性。是否存在计算约束下，surrogate 的效率增益变小，甚至不如简单估计？——Q: 扎根于本文方法使用非参数或机器学习估计 nuisance，未讨论计算预算。研究者可用自身 very_familiar 的高阶 U-statistic 计算复杂度工具分析此问题。
弱假性标签（weak label）问题的类比：本文的 surrogate 类似于弱监督学习中的假性标签，但因果推断需要额外的无混淆假设。是否可将本文效率界差框架迁移至弱监督 ATE 估计，并给出不依赖 MAR 的鲁棒推断？——扎根于 intro 中未引用弱监督文献（如图像分类中的 weak label），这是一个跨领域 gap，建议研究者自行查证是否有并行工作。

提醒：上述问题是否真为 gap，建议快速阅读同子领域 5 篇近期论文（如 Chen & Ritzwoller 2021；Chakrabortty et al. 2022；以及本文引用较多的 Athey et al. 2019）的 intro 和 conclusion，看是否反复提及同一方向。反复提及 = 共识 gap，互相回避 = 可能非核心。

Maintained by 陈星宇 · Homepage · Source on GitHub