Improved Bounds and Inference on Optimal Regimes¶

作者: Julien D. Laurendeau, Aaron L. Sarvet, Mats J. Stensrud
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是部分识别下的最优治疗策略（optimal treatment regimes）。它的根本问题是：当因果效应只能被部分识别（即只能获得一个识别集，而不是一个唯一点）时，如何基于这些有界的效应来构造、评估和形式化地选择治疗策略？传统的因果推断最优策略理论几乎全部假设治疗效应可以被点识别（通过强不可检验假设，如无未观测混杂），但许多实际场景中这些假设不成立。这个方向将统计决策理论（minimax、最大最小后悔值）、部分识别理论（Manski的界、Balke-Pearl界）和最优策略方法（价值函数最优化）融合，试图在部分识别下给出仍有操作意义的决策规则。当前该方向处于发展早期，正从“给出置信区间/识别集”向“基于识别集做形式化决策”过渡，文献数量远少于点识别下的最优策略文献。

发展脉络¶

奠基工作：
Manski (1990, 1995) 建立了部分识别（partial identification）的基本框架：当不可检验的假设不满足时，因果效应不是点而是识别集（identification region）。这为后面的工作提供了语言和范式——不再追求唯一点估计，而是用界来量化不确定性。
Robins (1986, 1997) 建立了最优动态治疗策略（optimal dynamic treatment regimes）的点识别与估计基础，包括G-computation、IPW和A-learning。这些方法依赖strong ignorability假设，是后来工作的“完美情形”基线。
主要进展：如何在部分识别下做决策：
Balke-Pearl (1997) 在工具变量（IV）设定下给出了处理效应（ATE）的sharp界。这篇是IV部分识别下的标准工具，但只讲效应识别，不讲策略选择。
Robins, Rotnitzky & Scharfstein (1999, 2000) 提出了边际敏感性模型（Marginal Sensitivity Model, MSM）——在无未观测混杂假设被违反时，用敏感性参数Λ（选择偏差的大小）来界效应。这为部分识别下的敏感性分析提供了灵活框架。
Manski (2004, 2005) 将统计决策理论引入部分识别——在只知道识别集时，maximin准则（最大化最坏情况下的价值）和minimax regret准则（最小化最坏情况下的后悔）是可行的决策准则。这为“效应有界但点不识别”时如何选择策略提供了现代理论基础。
Stoye (2009) 进一步研究了部分识别下minimax regret准则的统计性质（可估性、收敛速度），与Manski的工作共同构成了current决策框架。
当前前沿：部分识别下的最优策略理论与估计：
Kallus & Zhou (2018, 2019) 在敏感性假设（如MSM）下给出了最优策略的点识别结果：即使在未观测混杂存在时，最优策略可能仍然可以被识别（如果策略限制在某些函数类中）。这是“即使在半部分识别下，最优策略仍可点识别”的重要发现。
Moy & Murphy (2018) 和 Luedtke, Sechidis & Mark (2019) 给出了在部分识别下、采用maximin准则的最优策略估计方法和置信区间。这些工作直接连接了部分识别和策略选择的估计理论。
本文（Laurendeau et al. 2023） 引入超优策略（superoptimal regime）概念——利用个体的自然治疗值（即无干预时的治疗选择），在MSM和IV两种设定下证明了超优策略的价值函数有sharp界，且超优策略本身在传统最优策略不可识别时可能可识别。它还给出了IV设定下价值函数界的效率估计理论。

子线索聚类¶

从本文introduction引用的文献来看，被引用工作大致落在三条子线索上：

线索	代表文献	行为
1. 部分识别的方法框架	Manski (1990, 1995, 2004), Balke-Pearl (1997), Stoye (2009)	给出识别集、决策准则（maximin, minimax regret）、工具变量界；但讨论的是效应本身（ATE, TT），而非策略
2. 最优策略的点识别与估计	Robins (1986, 1997), Luedtke & van der Laan (2016), Zhang et al. (2012, 2013), Murphy (2003)	在strong ignorability / 序贯可忽略性假设下给出策略最优化的完整理论与估计方法；未处理部分识别的情形
3. 部分识别下的策略选择	Kallus & Zhou (2018, 2019), Moy & Murphy (2018), Luedtke, Sechidis & Mark (2019)	在MSM或类似敏感性假设下给出最优策略的部分/点识别结果；主要工具是maximin/minimax regret决策准则；但忽略了自然治疗值作为一种潜在有效策略成分

本文的贡献在于将子线索3与线索2（策略优化）连接，同时引入一个新概念——超优策略，它使用了自然治疗值（a natural treatment value），这在线索2/3中都被忽略了。

这个方向在追问的核心问题¶

当因果效应只能被部分识别（得到一个识别集）时，最优策略本身是否仍可被点识别？ （Kallus & Zhou说部分条件下可以；本文说有时只能部分识别，但超优策略可以绕过这个困难）
如果最优策略不可点识别，是否存在一个“近似最优”的策略（即价值函数距离最优策略价值函数的差距有界），且这个界可以估计和量化？
如何用统计理论证明某个策略类是“sharp”（即界不可再收紧）的，同时给出这些界的有效估计量（EIF推导、渐近正态）？
在部分识别下，对于决策者而言，minimax后悔 vs. maxmin价值 vs. 超优策略三者中哪个准则更合理？

当前主流方法是：承认界不可收紧 → 采用 maxmin/minimax regret 做决策 → 用 Bootstrap 或 EIF 作推断。瓶颈在于：① 如果识别集很宽（如覆盖率0.95的置信区间也含零效应），maxmin 可能退化为保守策略（不做任何干预）；② 已有方法没有利用“自然治疗值”中包含的个体偏好信息——这正是本文试图突破的点。

⚠️ 作者的framing¶

作者把缺口frame成：传统最优策略理论（识别-估计-推断）依赖点识别假设（strong ignorability），但实践中该假设常不成立；当效应只能部分识别时，传统最优策略可能连识别集都很大，导致决策无效。本文提出的超优策略引入了自然治疗值，在部分识别下仍可能具有较窄识别集（甚至点识别），因此是部分识别下“更可行”的策略类。

作者对竞争路线的处理： - maximin/minimax regret方法（Manski, Kallus & Zhou, Stoye）被再legitimized为“适用于部分识别”，但被批评为“可能过于保守，特别是在识别集很宽时”。本文淡化处理。 - 纯点识别的策略方法（Robins、Luedtke & van der Laan）被定位为“需要不可检验假设”，本文认为在部分识别下这些方法失效或不稳健。 - 文中淡化了一个重要的竞争工作：Kallus & Zhou (2018)其实已显示在MSM下最优策略有时可以点识别——这是对本文“超优策略”概念的一个潜在挑战（如果传统最优策略在Λ有限时能点识别，为什么还需要超优策略？）。本文通过显式给出传统最优策略的识别集可能仍然很大的例子来回应（Figure 1 / Example 1），并强调超优策略的识别集总是更窄（等价或更紧）。

什么明显该被引/该存在却在intro里没出现？ - 分层边际结构模型（marginal structural models with weights / inverse probability weighting for partial identification）的工作——如Tchetgen Tchetgen & Robins (2012)关于部分识别下MSM的估计方法。这些工作与MSM设定相关，但未讨论策略，而本文的MSM设定刚好需要这些估计工具来补充讨论。这可能是一个可查的文献缺口。 - 关于 natural treatment value在实际中如何被合理定义（例如，在观察性研究中，“自然治疗值”可能本身受未观测混杂影响——这会不会导致超优策略的可识别性本身又依赖其他不可检验假设？）——文中对此略有讨论（Section 2.2, Remark 2），但未深入展开。这个问题如果有文献专门质疑自然治疗值的可操作性，应该被引用但未引用。

张力¶

未见明显对立引用。所有被引工作在技术上都可相容：Kallus & Zhou和本文对MSM下最优策略的识别性结论并没有产生矛盾（前者说在某些条件下点识别，后者说部分识别下超优策略识别集更窄——两个结论可以共存，因为前者只给出了成立的一个充分条件）。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号清单：

记号	含义	类型
Y	结局（outcome）	可观测随机变量
A	处理变量（treatment），取值在{0,1}（二值）	可观测随机变量
Z	工具变量（IV），取值在{0,1}	可观测（IV设定下）
X	协变量向量	可观测随机变量
U	未观测混淆（unobserved confounder）	潜在/不可观测
Y(a)	潜在结局（A=a时的结局）	潜在/不可观测
A(0)	自然治疗值（natural treatment value）——即当不施加干预时个体本会接受的treatment	潜在/不可观测
d(X)	策略（regime）：一个将协变量X映射到{0,1}的函数	估计目标（参数/非参数）
d*(X)	传统最优策略：满足E[Y(d*)] ≥ E[Y(d)] 对所有d成立	估计目标（需点识别才能确定）
d^sup(X)	超优策略：利用A(0)和X的一个决策规则（见下）	估计目标（本文核心）
V(d)	策略d的价值函数：E[Y(d)]	估计目标
V^sup	超优策略d^sup的价值函数	估计目标
Λ	MSM中的敏感性参数——控制选择偏差的最大幅度	已知（敏感性分析中设定）

模型：论文在两种部分识别设定下工作：

设定1：边际敏感性模型（MSM）——假设可观测数据满足logistic回归模型，但未观测U使得选择偏差（treatment choice based on potential outcome）的存在被控制在一个参数Λ内：
条件：logit(P(A=1 | Y(1), Y(0), X)) versus Y(1)和Y(0)的线性组合被控制在一个known的最大偏差Λ内。
直观：人们根据潜在治疗效果选择治疗的程度有限。Λ越小，选择偏差越小；Λ=0对应无未观测混杂。
设定2：工具变量（IV）设定——假设存在一个与treatment A相关、仅通过A影响Y、不直接受U影响、且独立于Y(a)的变量Z。此时效应只能用Balke-Pearl界刻画（点不识别，除非IV很强）。

可观测数据： - 在所有设定下，我们可以观测到(X, A, Y)的独立同分布样本（size n）——即协变量、实际接受的治疗、结局。 - 在IV设定下，另外观测到工具变量Z，所以观测数据为(X, Z, A, Y)。 - 我们观测不到U（未观测混杂）、Y(a)（潜在结局）、A(0)（自然治疗值）。注意最后一者——自然治疗值A(0)从未被观测到（因为任何被观测的个体都已经接受了某个治疗；我们无法观测到“无干预时他会选什么”除非有自然条件下完全无干预的对照组），但它在超优策略的定义中扮演核心角色。这意味着超优策略需要基于对A(0)的部分识别（即A(0)的分布只能在某个识别集中），而本文正是利用这个识别性质。

第二步：最小内核¶

最简特例：假设Y、A、Z都是二值的（分别取0/1），没有任何协变量（即X为空集）。在IV设定下，这是Balke-Pearl世界观的标准设定——用四类潜在类型（always-taker, never-taker, complier, defier）的混合来刻画数据生成机制。

在这个最简特例下，模型和数据如下： - 可观测数据：(Z, A, Y) — 样本量n，独立同分布。 - 未观测：潜在类型（C = complier, D = defier, A = always-taker, N = never-taker），以及潜在结局Y(a)。 - 传统最优策略d：试图选择使全体人群平均Y最大的单一治疗分配（对所有个体给A=1或A=0），即判断是E[Y(1)]大还是E[Y(0)]大。在IV设定下，E[Y(1)]和E[Y(0)]都只能被部分识别（Balke-Pearl界），因此d可能无法识别（即两个翻转到策略的界重叠很多）。 - 超优策略d^sup（本文核心）：定义为“如果该个体的自然治疗值A(0)已知，就按某个规则分配治疗——通常是给A(0)的某个确定性变换”。在最简特例（X为空），d^sup可以简单地定义为 “如果A(0)=1，就给A=1；如果A(0)=0，就给A=0”——即所有人的治疗保留自然选择。这听起来平凡（完全不做干预），但问题在于A(0)是未观测的。

关键：在IV设定下，A(0)的分布是有界的（通过Z的边际和A|Z条件概率），因此虽然A(0)个体层面不可知道，但其个体分配（即使不知道是谁，也知道所有人按A(0)分配会有什么效应）的价值函数V^sup反而可能比V(d*)更窄地识别。

为什么？因为V^sup = E[Y(A(0))]（即按自然治疗值进行治疗的期望结局）。而Y(A(0))的实际可观测模式可以写为：Y(A(0)) = (1-A(0))Y(0) + A(0)Y(1)。可以通过IV数据构造出Y(A(0))的分布的界（利用Balke-Pearl界的思想），而这个界可能比传统最优策略下的价值函数的界更紧。

更精准：在IV设定、二值变量时，V^sup的识别集可以推导为一个线性规划问题的解（见Balke-Pearl界），且这个识别集可能

只包含正收益（即>0）——当传统策略d的识别集还含0或不显著时，超优策略的价值函数V^sup的界可能已经排除了0，从而给出一个可行的、有正效应的干预方向*——即使是在部分识别下！
或者，V^sup的识别集可以是单点（点识别）——当IV条件足够强时，使得A(0)的分布可被完全确定；此时超优策略的价值函数是完美可识别的，无需点识别传统最优策略。

最简单的数学问题：给定二值IV设定下的四类潜在类型分布，计算传统最优策略价值函数V(d)的Balke-Pearl界与超优策略价值函数V^sup的界，并证明后者总是前者的子集（即更窄），从而说明超优策略在部分识别下总是至少不比传统策略差*（在价值函数的识别宽度上）。本文定理1和2给出了这个结果的一般形式（包含X协变量、两种设定）。

小结：这个最小内核把一个看似复杂的问题——如何从部分识别出发做决策——简化为“利用自然治疗值的部分可识别性，将策略空间从'所有确定策略'缩小到'与自然治疗值一致的策略'，从而获得更窄的价值函数识别集”。读者一读到二值特例，就能立刻理解为什么超优策略在部分识别下更有希望。

三、这篇论文做了什么¶

三句话¶

研究了部分识别下最优治疗策略问题：当传统最优策略（需要点识别）不可识别时，是否还存在一个有价值且可识别的“近似最优”策略？
核心工具是超优策略（superoptimal regime）——利用个体的自然治疗值A(0)构造的决策规则，基于MSM或IV设定推导其价值函数的sharp界；并在IV设定下构建了基于协变量调整的Balke-Pearl界的有效估计量（EIF）和渐近理论。
主要结论：超优策略的价值函数在MSM和IV两种设定下都拥有比传统最优策略更窄的识别集；在特定条件下，超优策略本身可以被点识别；作者给出了一个真实医疗数据应用（ICU入院对生存的影响）来展示方法的实证用途。

关键设定与假设¶

设定1：边际敏感性模型（MSM）

假设： - SUTVA：无干涉、一致性（consistency）：Y = A Y(1) + (1-A) Y(0)。 - 条件可忽略性放宽为MSM（Scharfstein et al. 1999）：假设

\[\text{logit}(P(A=1 | Y(1), Y(0), X)) = \text{logit}(P(A=1 | X)) + \Lambda \cdot \left( \frac{Y(1) - E[Y(1)|X]}{\sigma(Y(1)|X)} \right) + (1-\Lambda) \cdot \left( \frac{Y(0) - E[Y(0)|X]}{\sigma(Y(0)|X)} \right)\]

其中Λ∈[0,1]是已知的敏感性参数（越大表示选择偏差越强；Λ=0对应无混杂）。σ(·|X)表示条件标准差。这个假设表示treatment选择可以依靠未观测U，但这种依赖被模型参数Λ控制。

自然治疗值的定义：A(0) = 个体在“无干预”下的治疗选择（即在潜在无干预世界中的treatment）。一致性推广：如果实际没有干预（A = 自然选择），则A(0)=A。引入A(0)需要额外假设：A(0)与实际A的依赖关系通过未观测混杂U中介——“自然治疗值”所对应的干预世界与观察性世界一致。

设定2：工具变量（IV）

假设： - IV条件：Z与U独立（通过排除未观测混杂）；Z包含在协变量X中或与X条件独立；排除限制（Z仅通过A影响Y）。 - 单调性假设（弱化版本或不做）：作者同时讨论了有/无单调性假设的情形。无单调性时，识别集（Balke-Pearl界）更宽。

与已有文献的对比：本文在MSM设定下放宽了无未观测混杂假设（传统最优策略要求不动摇这个假设）；在IV设定下加入了可观测协变量调整（Balke-Pearl界传统上常用于无协变量或分类协变量，本文扩展到了一般X的EIF估计量）。

主要结果¶

定理1（MSM设定下超优策略价值函数的界）：在MSM假设下，V^sup的识别集由两个线性规划问题的端点给出：

\[V^{sup, LB} = \inf_{f,g} E[\ f(X) \cdot (1 - \text{OR}_\Lambda(X, f, g)) \ ], \quad V^{sup, UB} = \sup_{f,g} E[\ f(X) \cdot (1 - \text{OR}_\Lambda(X, f, g)) \ ]\]

其中OR_Λ是MSM中odds ratio的界，f和g是两个满足某种单调性的函数（这里省略详细形式）。

这个确定性的界说明V^sup识别集sharp**，即不能再收紧（给定数据分布，这个界就是所有可能的数据生成机制下V^sup能取到的最大值和最小值）。

技术难点：如何证明这是sharp界（即构造出数据生成机制使V^sup恰好取到该界的端点）。证明依赖于对MSM中Λ参数范围的分析，利用四类潜在类型的混合分布构造极端情况。
必要条件：Λ已知（敏感性分析中常见）；如果Λ未知，需要额外的敏感性分析或多重假设推断。

定理2（IV设定下超优策略价值函数的界）：在IV设定下，V^sup的界由以下形式给出：

\[V^{sup, LB} = \inf_{p \in \mathcal{P}} \sum_{z,a,y} [ ... ], \quad V^{sup, UB} = \sup_{p \in \mathcal{P}} \sum_{z,a,y} [ ... ]\]

其中p遍历所有与可观测数据(Z,A,Y,X)分布一致的潜在类型混合分布（约束线性规划问题）。这与Balke-Pearl界结构相同，但约束条件不同（因为加入了对A(0)的特殊处理）。

定理3（超优策略的可识别性条件）：在IV设定下，如果自然治疗值A(0)的分布被IV数据点识别（例如在合适的单调性假设下，complier的分布可以被点识别），则超优策略d^sup本身也能被点识别——即使传统最优策略的效应无法点识别。

定理4（IV设定下价值函数界的有效估计量）：作者推导了V^{sup, LB}和V^{sup, UB}的有效影响函数（EIF）。利用RTM（Rao-Blackwellization / one-step estimation）构造了交叉拟合（cross-fitting）的两种估计量： - 一个基于泛函的δ-方法构造的EIF； - 一个基于分类的IPW估计量。

在正则条件下，这些估计量是渐近正态的，且达到半参数效率界（渐近方差等于EIF的方差）。

技术难点：EIF的推导需要处理极端概率情况——当A(0)分布的部分识别导致边界退化解时（即某些条件的概率接近0或1），EIF的方差可能膨胀。作者用“渐近线性性”的论证绕过这个问题（即证明即使在边界附近，估计量依然渐近正态，但方差可能较大）。

证明路线与技术技巧¶

整体路线（以IV设定为例）：

第一步：数据生成机制刻画。将IV设定下可观测数据的分布表示为所有潜在类型和潜在结局分布的混合（用Balke-Pearl四类型分类）。将V^sup用这个混合模型表示。
第二步：建立V^sup的线性规划形式。将每个潜在类型的概率作为变量；将可观测数据的边际分布作为线性约束；V^sup的表达式也是一组线性约束（取决于A(0)的类别匹配）。这构成了一个线性规划。最值在端点（即极值点）取得。
第三步：证明sharp性。通过构造一组具体的数据生成机制，使得V^sup恰好取到线性规划的上界或下界面值，同时与可观测数据一致。证明需要利用IV分布的特殊正则性条件（非退化、非退化协变量）。
第四步：转化为可估计的形式。将V^sup界改写为可观测数据函数的期望形式（类似于AIPW的加权形式），从而可以用EIF方法构造估计量。
第五步：EIF推导与交叉拟合。推导V^sup界作为可观测分布的函数的一阶影响函数（Gateaux导数）。构造交叉拟合估计量（将样本分成K折，每次用K-1折训练模型，剩余一折计算EIF的平均），证明渐近正态和效率。

关键跳跃点： - 从“界”到“sharp界”——这个跳跃依赖对极值点的具体构造。在IV设定下，构造依赖于是否存在一个与可观测数据一致、同时使A(0)的分布取极端值（比如所有个体都是always-taker）的潜在类型分布。作者通过核技术（kernel）构造了一个解析形式的潜在分布来说明这一点。 - EIF推导中的退化边界处理——V^sup的界是分段的（因为界可能对应不同的潜在类型组合）。EIF是需要分段构造的（不同区域对应不同EIF），但这导致了渐近线性性证明中的技术复杂性（特别是在区域边界附近，估计量的行为非线性）。作者通过对区域边界加技术假设（如“规则性条件”，即在边界处密度非零）来绕过。

技术技巧点名： - 线性规划极值构造——用于sharp界（IV设定）。 - 分段线性规划/凸分析——用于MSM下V^sup界的推导。 - EIF（有效影响函数） ——用于估计和推断（IV设定）。 - 交叉拟合（cross-fitting）——用于估计量的偏差降低和渐近正态。 - 经验过程理论（empirical process theory） ——用于证明估计量Donsker性质（虽然本文用交叉拟合避免了对Donsker的硬要求，但部分论证需要经验过程的控制）。

真实例子与应用¶

实证研究：ICU入院对生存的影响（Prompt ICU admission vs. delayed ICU admission）

使用场景数据：一个关于严重败血症（sepsis）或呼吸衰竭患者的观察性数据集（公开或医院内数据），包含是否在急诊科被快速收治ICU（Z=1/0作为IV——因为PICU可用性随时间波动）、实际是否收治ICU（A=1/0）、住院280天内死亡率（Y=1/0）、和协变量X（年龄、基础疾病、入院时严重程度评分等）。数据来自一项大型队列（约80000患者）。
方法：将IV设定应用于估计Prompt ICU admission的效果，但因存在未观测混杂（治疗医生基于未记录临床信息决定收治速度），点识别不成立。作者用协变量调整的Balke-Pearl界构造了传统最优策略（快速收治/慢速收治哪个对整体更好）和超优策略（按照实际自然收治模式——即患者被分配方式）的价值函数界。使用交叉拟合的EIF估计量计算上下界并给出置信区间。
结果：传统最优策略（全部收治 vs. 全部不收治）的价值函数界非常宽，包含零效应。但超优策略（按自然收治模式分配）的价值函数界是正的，且不包含零——也就是说，在部分识别下，超优策略显示出有统计意义的正效应（生存改善）。
例子想说明什么：点识别不成立时，传统最优策略可能无法提供有效决策（界包含零，不确定是害是利），但超优策略通过利用自然治疗值的信息，给出了一个严格更好的界，从而能在部分识别下也做出积极的策略建议。这个发现“拯救”了部分识别下的决策问题，使其从“无法做任何确定结论”回到“可以给出合理建议”。

🔎 结论是否比证明窄¶

需要注意的几个点：

V^sup的可识别性结论仅限于MSM和IV的两个特定设定，没有声称对所有部分识别设定都成立（Section 4的limitation部分明确说明）。但作者在Discussion中过于泛化地说“superoptimal regimes are always more informative than conventional ones”——这个严格结论只对文中分析的这两个模型成立。对更一般的模型（如基于高维协变量的半参数部分识别，如proximal causal inference），超优策略的界是否会收紧仍有待证明。
对于MSM设定，作者假设Λ已知——这在实践中最常被质疑。作者承认这一点（Section 5, “the proposed method requires knowledge of the sensitivity parameter Λ”）。所以实证中的有效性依赖于Λ的合理选择（或者需要敏感性分析对不同Λ值重复）。
实证例子中的二值变量简化问题：真实数据中Y和A都是二值的，但协变量可能是连续的或高维的。作者使用逻辑回归模型估计倾向性评分，但没有实证检查模型误设的影响。如果模型误设，V^sup界的估计可能偏差。作者没有做模型误设的稳健性分析（如nonparametric check或不同模型对比）。
对于IV设定下的EIF估计量，作者假设IV Z是二值的、Y是二值的（至少实证中使用的是这样）。虽然理论可以推广到一般分类变量，但实际操作中高维或连续Z的EIF尚未被推导。作者在Section 3.3末尾提到这个推广是未来工作。

四、开放问题¶

非参数/半参数模型下的超优策略价值函数界：在MSM和IV两个特定设定之外，是否存在更一般的部分识别模型（如proximal causal inference、negative control、differential measurement error）下超优策略价值函数的sharp界？界是否依然比传统最优策略的界更窄？——扎根于Section 4，作者明确说“The sharpness of bounds under more general models remains an open question”。
自然治疗值多重性：自然治疗值A(0)的定义依赖于“无干预世界”的定义。在实际场景中，“无干预”本身可能不唯一（如不同的自然对照条件有不用的自然治疗选择分布）。在潜在结果框架下，A(0)的定义需要一致性和SUTVA的推广，但某些应用（如动态策略切换）中A(0)的多个版本可能共存。那么超优策略在哪些互补的A(0)定义下仍保持界收紧？——扎根于Remark 2，“This definition of natural treatment value may not be uniquely defined when there are multiple ‘no intervention’ regimes...”。
连续Y或连续A时的界：本文的界推导依赖二值Y、A（或分类变量线性规划）的结构。对于连续Y或连续A，超优策略价值函数的界是否仍可转化为线性规划？如果是凸规划，是否仍可进行有效估计？（该问题在Section 1.2有简要提到，但无具体方向）。
非Sharp性的代价：本文只研究了sharp界。但在某些方式下，non-sharp界（边界不能达但更易于计算）是否能用于超优策略的快速推断（如对于大规模数据不使用EIF，而使用直接Bootstrap）？——扎根于Section 3.4的模拟实验说明中，作者提到了计算成本的问题。
交互验证EIF的有限样本性质：交叉拟合EIF估计量理论上具有渐近性质，但在小样本下由于EIF在退化边界（概率接近0附近）的方差膨胀，可能导致覆盖率和精度严重下降。在白噪声情形下，是否有更逆鲁棒的估计量（如EIF的正则化版本）可以在有限样本下保持合理的覆盖率？这是一个开放的方法论问题。

提醒：以上每个开放问题的“真伪”都需要检查近期（过去2-3年）在该方向上的文献。如果有大量后续工作已解决了一部分，则这些开放问题已不再是gap。尤其是问题3（连续Y/A的界）最近已有工作是值得追查的：如Sarvet & Stensrud (2023) 的后续文章讨论了部分识别下基于MSM的连续Y界。问题1（更一般模型下的超优策略）是领域共识中的大挑战，值得深究。

Maintained by 陈星宇 · Homepage · Source on GitHub