Doubly Robust Estimation of Optimal Individual Treatment Regime in A Semi-supervised Framework¶

作者: Xintong Li, Mengjiao Peng, Yong Zhou
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202025.0168

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在半监督设定（大量无标签协变量数据 \(X\) 与少量有标签数据 \((X,A,Y)\) 并存）下，如何有效且稳健地估计最优个体化治疗方案及其对应的价值函数。当前该方向的成熟度处于方法涌现与理论初步建立期：半监督价值函数估计已有若干效率界与 DR 方法，但将半监督效率增益与 ITR 的非标准收敛（立方根速率、非正态极值分布）结合的理论框架刚刚成型，尚未形成统一范式。

发展脉络： - 奠基工作（ITR 与价值函数的监督估计）：Q-learning 与直接价值函数优化（如 Qian & Murphy 2011, Zhang et al. 2012）确立了在监督设定下估计 ITR 的两条主线——结果回归与价值函数直接最大化。作者引用 Zhang et al. (2012) 指出其"established the value function as a criterion for ITR estimation"，但留下口子：纯监督方法无法利用无标签数据，效率受限。 - 主要进展（半监督效率增益与 DR 估计）：半参数效率界与 DR 估计在因果推断中的引入（Robins et al. 1994, Bang & Robins 2005）为观察性数据下的稳健估计提供了框架。作者引用 Zhang et al. (2012) 的 DR 扩展（Zhang et al. 2013），指出其"developed a doubly robust method for ITR estimation"，但口子在于：这些 DR 方法仍局限于纯监督设定。随后，半监督学习在因果推断中的渗透（如 Kallus et al. 2020, Cheng et al. 2021）开始填补这一空白，作者引用 Cheng et al. (2021) 时明确判断其"proposed a semi-supervised DR estimator for the average treatment effect"，但未触及 ITR 估计的非标准分布问题。 - 当前 frontier（ITR 估计的非标准渐近理论）：ITR 估计因涉及价值函数的最大化操作，其收敛速率与分布不再是标准的 \(\sqrt{n}\) 与正态分布。Laber et al. (2014) 与 Xu et al. (2018) 探讨了 ITR 估计的立方根收敛与非标准分布，作者引用 Xu et al. (2018) 指出其"characterized the nonstandard asymptotics for value function estimation"，但口子在于：这些理论仅适用于监督设定，半监督下的非标准分布性质未知。 - 本文的位置：本文填补了"半监督效率增益 + DR 稳健性 + ITR 非标准渐近理论"的三重空白，在半监督框架下推导了 ITR 估计的立方根收敛速率与带二次漂移的高斯过程极大值点分布。

子线索聚类： 1. ITR 估计与价值函数最大化：Qian & Murphy (2011), Zhang et al. (2012), Zhang et al. (2013)。这一簇在做：如何定义与估计 ITR 的价值函数，并在观察性数据下构建 DR 估计量。 2. 半监督因果推断与效率增益：Kallus et al. (2020), Cheng et al. (2021)。这一簇在做：如何利用无标签数据提升 ATE 或价值函数估计的效率，通常依赖半参数效率界与灵活的插补/核平滑技术。 3. ITR 估计的非标准渐近理论：Laber et al. (2014), Xu et al. (2018)。这一簇在做：揭示 ITR 估计因最大化操作导致的立方根收敛与非正态分布性质，为推断提供理论基础。

这个方向在追问的核心问题： 1. 半监督下 ITR 估计的效率界是什么？ 当前主流方法（如 Cheng et al. 2021）在 ATE 上已达到半监督效率界，但 ITR 的价值函数因涉及最大化，其效率界是否与 ATE 相同？瓶颈在于：最大化操作可能改变效率界的结构与可达性。 2. 半监督下 ITR 估计的收敛速率与分布是什么？ 监督下已知为立方根速率与非标准分布（Xu et al. 2018），半监督下是否保持？瓶颈在于：无标签数据的插补可能改变价值函数的局部曲率，从而影响漂移项与收敛速率。 3. 如何在半监督下构建 DR 估计量以同时利用无标签数据与抵抗倾向得分模型误设？ 瓶颈在于：DR 结构要求结果模型与倾向得分模型之一正确，而半监督插补通常依赖结果模型，如何在倾向得分未知时保持 DR 性质？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成：现有半监督方法仅关注 ATE，未触及 ITR 的非标准渐近；现有 ITR 非标准渐近理论仅适用于监督设定。这使得本文成为"将半监督效率增益引入 ITR 非标准渐近理论"的显然下一步。 - 被淡化或回避的竞争路线：基于半参数效率界的直接 DR 估计（如 Cheng et al. 2021 的 ATE 方法）——作者未讨论是否可将该路线直接推广至 ITR，而是选择了单指标核平滑插补 + 单指标倾向得分模型的组合路线。 - 明显该被引 / 该存在却未出现的：半参数效率界的理论工作（如 Robins & Rotnitzky 1995 的效率界推导）——本文推导了非标准分布，但未引用或讨论半监督下 ITR 价值函数的半参数效率界是否与本文估计量的渐近方差匹配。这是一个值得研究者去查的问题：本文的估计量是否达到了半监督下的效率界？

张力：未见明显对立引用。各子线索在不同设定下得出不同结论（监督下立方根收敛 vs. 半监督下 ATE 的 \(\sqrt{n}\) 收敛），但这是设定差异而非矛盾。核心张力在于：最大化操作是否将半监督下的 \(\sqrt{n}\) 收敛拉回立方根收敛？ 本文的回答是"是"，这与半监督 ATE 的 \(\sqrt{n}\) 收敛形成对比，但并非矛盾，而是问题结构差异的体现。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(d \in \mathbb{N}\)：协变量维数。
\(\mathcal{A} = \{0, 1\}\)：二值处理空间。
\(D \in \mathcal{D}\)：治疗方案，即从协变量到处理的映射 \(D: \mathbb{R}^d \to \mathcal{A}\)。
\(V(D) = E\{Y(D)\}\)：方案 \(D\) 的价值函数，即潜在结果的期望。
\(D^{\text{opt}} = \arg\max_{D \in \mathcal{D}} V(D)\)：最优治疗方案。
\(\beta \in \mathbb{R}^d\)：单指标模型的参数向量（用于结果模型或倾向得分模型）。
随机变量 / 样本：
\(X \in \mathbb{R}^d\)：协变量（随机变量）。
\(A \in \mathcal{A}\)：实际接受的处理（随机变量）。
\(Y \in \mathbb{R}\)：观测结果（随机变量）。
\(Y(a)\)：处理 \(a\) 下的潜在结果。
\(\mathcal{L} = \{(X_i, A_i, Y_i)\}_{i=1}^n\)：有标签数据集，样本量 \(n\)。
\(\mathcal{U} = \{X_j\}_{j=1}^N\)：无标签数据集，样本量 \(N\)（通常 \(N \gg n\)）。
维数 / 样本量等指标：
\(n\)：有标签样本量。
\(N\)：无标签样本量。
\(d\)：协变量维数。
\(h\)：核平滑带宽。
潜在 / 不可观测量：
\(Y(D) = Y(1)D(X) + Y(0)\{1 - D(X)\}\)：方案 \(D\) 下的潜在结果，不可直接观测，需靠假设识别。
\(\pi(x) = P(A=1|X=x)\)：倾向得分，若在观察性研究中未知，需估计或假设。
\(\mu_a(x) = E[Y(a)|X=x]\)：结果模型，不可直接观测。

模型：数据生成机制为：\((X, A, Y)\) 服从联合分布 \(P\)，其中 \(X\) 的边际分布为 \(P_X\)，\(A|X\) 服从 Bernoulli(\(\pi(X)\))，\(Y|X,A\) 的条件期望为 \(\mu_A(X)\)。无标签数据 \(\mathcal{U}\) 中的 \(X_j\) 独立同分布地从 \(P_X\) 中抽取，与 \(\mathcal{L}\) 独立。要估的对象是 \(D^{\text{opt}}\) 与 \(V(D^{\text{opt}})\)。

可观测数据：研究者实际能观测到的是 \(\mathcal{L}\) 中的 \((X_i, A_i, Y_i)\) 与 \(\mathcal{U}\) 中的 \(X_j\)。想要但观测不到的是 \(Y(1)\) 与 \(Y(0)\)（只能观测到与实际处理 \(A\) 对应的那个），因此需靠一致性假设（\(Y = Y(A)\)）、可忽略性假设（\(A \perp Y(a) | X\)）与正值假设（\(0 < \pi(X) < 1\)）来识别 \(V(D)\)。

第二步：讲最小内核

整篇论文的证明与方法本质上是单指标模型 + 核平滑插补 + 价值函数最大化这一特殊例子的推广，但其核心数学困难（立方根收敛与非标准分布）已在最简特例中完全呈现。最简特例为：\(d=1\)（单维协变量）、线性单指标结果模型 \(\mu_a(x) = \alpha_a + \beta_a x\)、已知倾向得分 \(\pi(x)\)（随机化实验）、有标签样本量 \(n\) 与无标签样本量 \(N \to \infty\)。

在这个特例下，核心思路从头到尾如下： 1. 插补价值函数：利用无标签数据 \(\mathcal{U}\) 与单指标核平滑，构造插补价值函数 \(\hat{V}_{\text{imp}}(D) = \frac{1}{N} \sum_{j=1}^N \left[ \hat{\mu}_1(X_j) D(X_j) + \hat{\mu}_0(X_j) \{1 - D(X_j)\} \right]\)，其中 \(\hat{\mu}_a(x)\) 是基于 \(\mathcal{L}\) 与单指标核平滑估计的结果模型。 2. 最大化操作：最优 ITR 估计量为 \(\hat{D}^{\text{opt}} = \arg\max_{D \in \mathcal{D}} \hat{V}_{\text{imp}}(D)\)。在单维线性单指标下，\(D^{\text{opt}}(x) = I(\mu_1(x) - \mu_0(x) > 0) = I(\Delta\alpha + \Delta\beta x > 0)\)，这是一个阈值函数。 3. 立方根收敛的来源：\(\hat{D}^{\text{opt}}\) 的估计误差取决于 \(\hat{\mu}_1 - \hat{\mu}_0\) 在阈值点 \(x^*\)（使得 \(\Delta\alpha + \Delta\beta x^* = 0\)）附近的局部行为。由于 \(\hat{\mu}_a\) 是核平滑估计量，其在 \(x^*\) 附近的局部曲率导致最大化操作的误差为 \(O_p(n^{-1/3})\)（立方根速率），而非 \(O_p(n^{-1/2})\)。 4. 非标准分布的来源：\(\hat{D}^{\text{opt}}\) 的渐近分布不是正态分布，而是带二次漂移的中心化高斯过程的最大值点。具体地，令 \(Z_n(t) = n^{2/3} \{\hat{V}_{\text{imp}}(D_t) - V(D_t)\}\)（其中 \(D_t\) 是局部参数化的方案），则 \(Z_n(t)\) 收敛到 \(Z(t) = W(t) - c t^2\)，其中 \(W(t)\) 是零均值高斯过程，\(c\) 是取决于 \(\mu_1 - \mu_0\) 在 \(x^*\) 处曲率的常数。\(\hat{D}^{\text{opt}}\) 的渐近分布为 \(\arg\max_t Z(t)\) 的分布，这是经典的 Chernoff 分布类型。

为什么成立：立方根收敛与非标准分布的根源在于价值函数在最优方案处的一阶导数为零（因为 \(D^{\text{opt}}\) 是极大值点），导致局部近似为二次函数（漂移项 \(-ct^2\)），而估计噪声为高斯过程（\(W(t)\)）。最大化操作在"漂移 + 噪声"下的收敛速率由漂移的曲率与噪声的方差共同决定，平衡后速率为 \(n^{-1/3}\)。半监督插补改变了噪声项的方差（因利用无标签数据而减小），但未改变漂移项的曲率（因曲率取决于真实结果模型 \(\mu_a\)），因此收敛速率仍为立方根，只是渐近分布的方差参数变小（效率增益）。

三、这篇论文做了什么¶

三句话： ①研究了在半监督框架下（大量无标签协变量数据与少量有标签数据并存）最优个体化治疗方案（ITR）与价值函数的估计问题。 ②核心工具是单指标核平滑插补（利用无标签数据）与基于单调指标模型类的双重稳健（DR）构造（抵抗倾向得分误设）。 ③主要结论是：所提估计量具有立方根收敛速率，且非标准渐近分布为带二次漂移的中心化高斯过程的最大值点；在倾向得分未知时，DR 估计量保持双重稳健性与半监督效率增益。

关键设定与假设：在第二节最小记号的基础上补全完整设定： - 单指标模型假设：结果模型 \(\mu_a(x) = m_a(\beta_a^\top x)\)，倾向得分模型 \(\pi(x) = s(\eta^\top x)\)，其中 \(m_a, s\) 为未知单调联系函数，\(\beta_a, \eta\) 为单指标参数。统计含义：将多维协变量降维至一维指标，允许非参数联系函数，比线性模型更灵活，比全非参数模型更易估计（避免维数灾难）。 - 核平滑假设：使用核函数 \(K(\cdot)\) 与带宽 \(h\) 估计 \(m_a, s\)。假设 \(K\) 为有界、对称、高阶核；\(h \to 0\) 且 \(nh \to \infty\)（保证核估计一致性）。统计含义：核平滑的收敛速率受带宽 \(h\) 控制，需平衡偏差与方差。 - 半监督设定假设：无标签数据 \(\mathcal{U}\) 的样本量 \(N \to \infty\) 且 \(N/n \to \infty\)（无标签数据远多于有标签数据）。统计含义：插补价值函数 \(\hat{V}_{\text{imp}}(D)\) 中的经验平均近似于 \(P_X\) 下的期望，误差可忽略。 - 可忽略性假设：\(A \perp Y(a) | X\)。统计含义：处理分配在给定协变量下与潜在结果独立，保证价值函数的识别。 - 正值假设：\(0 < \pi(X) < 1\) 几乎必然。统计含义：每个处理组都有正概率被观测到。 - 相比已有文献的放宽或强化：相比 Zhang et al. (2013) 的 DR 估计（要求线性或参数模型），本文通过单调指标模型类放宽了模型假设；相比 Xu et al. (2018) 的监督非标准分布理论，本文引入了半监督设定与 DR 结构，强化了效率与稳健性。

主要结果： 1. 定理：半监督 ITR 估计量的立方根收敛与非标准分布（已知倾向得分）： - 陈述：在倾向得分 \(\pi(x)\) 已知（如随机化实验）时，基于单指标核平滑插补的 ITR 估计量 \(\hat{D}^{\text{opt}}\) 满足 \(n^{1/3}(\hat{D}^{\text{opt}} - D^{\text{opt}}) \rightsquigarrow \arg\max_t \{W(t) - c t^2\}\)，其中 \(W(t)\) 为零均值高斯过程，\(c\) 为取决于结果模型曲率的常数。 - 直觉：价值函数在最优方案处的一阶导数为零，局部为二次漂移；核平滑估计的噪声为高斯过程；最大化操作在漂移与噪声的平衡下给出立方根速率与 Chernoff 型分布。 - 必要条件：单指标模型结构、核平滑带宽满足 \(h = O(n^{-1/3})\)（与立方根速率匹配）、无标签样本量 \(N/n \to \infty\)。 - 解决的技术难点：将监督下的立方根收敛理论（Xu et al. 2018）推广至半监督插补设定，证明插补操作不改变漂移项曲率但减小噪声方差。

定理：双重稳健半监督 ITR 估计量的立方根收敛与非标准分布（未知倾向得分）：
陈述：在倾向得分 \(\pi(x)\) 未知时，基于单调指标模型类构造的 DR 估计量 \(\hat{D}^{\text{opt}}_{\text{DR}}\) 满足：若结果模型 \(\mu_a\) 或倾向得分模型 \(\pi\) 之一正确指定，则 \(n^{1/3}(\hat{D}^{\text{opt}}_{\text{DR}} - D^{\text{opt}}) \rightsquigarrow \arg\max_t \{W_{\text{DR}}(t) - c t^2\}\)。
直觉：DR 构造通过逆概率加权（IPW）与结果回归的组合，使得当任一模型正确时，价值函数的估计一致；最大化操作仍导致立方根收敛与 Chernoff 型分布。
必要条件：单调指标模型类中至少一个模型（结果或倾向得分）正确指定；核平滑带宽满足特定条件；无标签样本量 \(N/n \to \infty\)。
解决的技术难点：在 DR 结构下，插补与 IPW 的组合如何影响价值函数的局部曲率与噪声方差，证明 DR 性质不破坏立方根收敛与非标准分布结构。
定理：半监督效率增益：
陈述：半监督估计量的渐近方差（高斯过程 \(W(t)\) 的方差参数）小于纯监督估计量的渐近方差，效率增益取决于无标签数据对结果模型估计的改善程度。
直觉：无标签数据通过插补减小了结果模型估计的方差，从而减小了价值函数估计的噪声。
必要条件：无标签数据 \(N\) 充分大，使得插补误差可忽略。
解决的技术难点：量化插补操作对高斯过程方差参数的具体影响，证明效率增益的显式表达式。

证明路线与技术技巧： - 整体路线： 1. 构造插补价值函数：基于有标签数据 \(\mathcal{L}\) 估计单指标模型参数 \(\hat{\beta}_a\) 与联系函数 \(\hat{m}_a\)，利用无标签数据 \(\mathcal{U}\) 构造 \(\hat{V}_{\text{imp}}(D) = \frac{1}{N} \sum_{j=1}^N [\hat{\mu}_1(X_j) D(X_j) + \hat{\mu}_0(X_j) \{1 - D(X_j)\}]\)。 2. 局部参数化与展开：将 \(\hat{D}^{\text{opt}}\) 在 \(D^{\text{opt}}\) 附近局部参数化为 \(D_t\)，对 \(\hat{V}_{\text{imp}}(D_t) - V(D_t)\) 进行高阶展开，分离漂移项（二次函数 \(-ct^2\)）与噪声项（经验过程）。 3. 经验过程弱收敛：证明 \(n^{2/3}\{\hat{V}_{\text{imp}}(D_t) - V(D_t)\}\) 在 Skorokhod 線空間 \(D[0,1]\) 中弱收敛到 \(Z(t) = W(t) - c t^2\)，其中 \(W(t)\) 为零均值高斯过程。 4. 极大值点连续映射定理：由 \(Z_n(t) \rightsquigarrow Z(t)\) 与 \(\arg\max\) 的连续性（在特定条件下），得到 \(\arg\max_t Z_n(t) \rightsquigarrow \arg\max_t Z(t)\)，即 \(n^{1/3}(\hat{D}^{\text{opt}} - D^{\text{opt}}) \rightsquigarrow \arg\max_t \{W(t) - c t^2\}\)。 5. DR 扩展：在未知倾向得分时，将插补价值函数替换为 DR 价值函数 \(\hat{V}_{\text{DR}}(D) = \frac{1}{N} \sum_{j=1}^N \left[ \hat{\mu}_1(X_j) D(X_j) + \hat{\mu}_0(X_j) \{1 - D(X_j)\} + \frac{A_i D(X_i) - (1-A_i)\{1-D(X_i)\}}{\hat{\pi}(X_i)} \{Y_i - \hat{\mu}_{A_i}(X_i)\} \right]\)，重复步骤 2-4，证明 DR 结构下的漂移项与噪声项性质不变。

关键跳跃点：
步骤 2 中的高阶展开：将 \(\hat{V}_{\text{imp}}(D_t) - V(D_t)\) 展开至二阶（漂移项）与一阶（噪声项），需精确控制核平滑估计的偏差与方差，使得偏差项在带宽 \(h = O(n^{-1/3})\) 下恰好贡献二次漂移，方差项在 \(n^{2/3}\) 缩放下收敛到高斯过程。这是最吃功夫的引理，难点在于：核平滑估计的偏差与方差在局部参数化 \(t\) 下的精确表达式，需用到单指标模型的导数与核函数的性质。
步骤 3 中的经验过程弱收敛：证明 \(Z_n(t)\) 弱收敛到 \(Z(t)\) 需验证 \(Z_n(t)\) 的有限维分布收敛与轨道紧性。难点在于：\(Z_n(t)\) 中的插补项与核平滑项的依赖结构，需用经验过程理论中的 chaining / bracketing 技术控制轨道紧性。
技术技巧点名：
单指标核平滑：用于估计 \(\mu_a(x)\) 与 \(\pi(x)\)，避免维数灾难，同时保留非参数灵活性。用在步骤 1 与步骤 2 的展开中。
局部参数化：将 \(\hat{D}^{\text{opt}}\) 在 \(D^{\text{opt}}\) 附近参数化为 \(D_t\)，使得最大化操作转化为连续参数的极大值问题。用在步骤 2。
经验过程弱收敛：用于证明 \(Z_n(t) \rightsquigarrow Z(t)\)，需用 chaining / bracketing 技术控制轨道紧性。用在步骤 3。
极大值点连续映射定理：用于从 \(Z_n \rightsquigarrow Z\) 推导 \(\arg\max Z_n \rightsquigarrow \arg\max Z\)，需验证 \(\arg\max\) 在 \(Z\) 处的连续性（唯一极大值点）。用在步骤 4。
DR 构造：通过 IPW 与结果回归的组合，保证任一模型正确时的一致性。用在步骤 5。

真实例子与应用： - ACTG 175 数据：这是 AIDS Clinical Trials Group 175 研究，比较不同抗逆转录病毒疗法对 HIV 感染者的疗效。数据包含协变量（年龄、性别、基线 CD4 计数等）、处理（四种疗法组合，本文简化为二值：ZDV+ddI vs. 其他）与结果（CD4 计数变化）。 - 怎么把本文方法用上去：将 ACTG 175 数据视为观察性数据（因非随机化分配需调整倾向得分），取部分数据为有标签集 \(\mathcal{L}\)，其余协变量为无标签集 \(\mathcal{U}\)。用单指标核平滑估计结果模型 \(\mu_a(x)\) 与倾向得分 \(\pi(x)\)，构造 DR 半监督 ITR 估计量 \(\hat{D}^{\text{opt}}_{\text{DR}}\)。 - 得到什么结果：半监督 DR 估计量相比纯监督估计量，在价值函数估计上方差更小（效率增益），且在倾向得分模型轻微误设时仍保持一致性（稳健性）。最优 ITR 建议对高基线 CD4 计数患者优先分配 ZDV+ddI。 - 这个例子想说明什么：验证半监督 DR 方法在真实观察性数据上的效率增益与稳健性，展示相对于纯监督 baseline 的优势。

🔎 结论是否比证明窄： - 作者在定理陈述中明确要求"单指标模型假设"与"核平滑带宽 \(h = O(n^{-1/3})\)"，但在 abstract 与 intro 中泛泛 claim "cube root convergence rate"与"nonstandard asymptotic distribution"，未强调这些条件。研究者需注意：立方根收敛与非标准分布的结论在带宽 \(h\) 的特定选择下严格证明，若带宽选择偏离 \(O(n^{-1/3})\)，结论可能不成立。 - DR 估计量的双重稳健性在"结果模型或倾向得分模型之一正确指定"下严格证明，但作者在 abstract 中泛泛 claim "doubly robust"，未强调"之一正确"的条件。研究者需注意：若两模型均误设，DR 估计量可能不一致。

四、开放问题（点到为止，扎根具体语句）¶

半监督下 ITR 价值函数的半参数效率界是否与本文估计量的渐近方差匹配？ 本文推导了非标准分布，但未讨论半监督下的半参数效率界。扎根点：intro 中未引用 Robins & Rotnitzky (1995) 的效率界理论，且 abstract 仅 claim "efficiency gains compared to supervised estimation methods"，未给出效率界的显式比较。需确认：本文估计量是否达到了半监督下的效率界，还是仅比监督方法更优但未达界？
带宽 \(h\) 的选择对立方根收敛与非标准分布的影响是否可自适应处理？ 本文定理要求 \(h = O(n^{-1/3})\)，但实际中带宽需数据驱动选择。扎根点：定理陈述中 \(h\) 为固定序列，未讨论自适应带宽选择（如 cross-validation）下的渐近性质。需确认：自适应带宽选择是否破坏立方根收敛与非标准分布？
DR 估计量在两模型均误设时的性质是什么？ 本文仅证明"之一正确"下的 DR 性质，未讨论两模型均误设时的行为。扎根点：abstract 泛泛 claim "doubly robust"，但定理陈述明确要求"之一正确"。需确认：两模型均误设时，估计量是否仍收敛（速率与分布如何）？
连续处理或多值处理下的半监督 ITR 估计是否仍具有立方根收敛与非标准分布？ 本文仅考虑二值处理 \(\mathcal{A} = \{0, 1\}\)。扎根点：intro 中引用的 Zhang et al. (2012) 考虑了多值处理，但本文设定限于二值。需确认：多值处理下的最大化操作是否仍导致立方根收敛，还是收敛速率改变？

Maintained by 陈星宇 · Homepage · Source on GitHub

Doubly Robust Estimation of Optimal Individual Treatment Regime in A Semi-supervised Framework¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论