Pseudo-empirical likelihood methods for causal inference¶

作者: Jingyue Huang, Changbao Wu, Leilei Zeng
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：本子方向的核心问题是：在观测性研究中，如何对平均处理效应（ATE）进行统计推断（点估计、置信区间、假设检验），同时保持对模型设定误差的稳健性。这里的稳健性主要指对倾向得分模型或结果回归模型中的一个（但不能两个都错）具有抵御能力——即双重稳健性（Double Robustness, DR）。当前该方向的技术成熟度较高，涌现出多种 DR 估计量（如 AIPW、TMLE）及其推断理论，但推断框架（尤其是基于似然或拟似然的推断）仍是一个活跃且存在 open gaps 的领域。
发展脉络：本文的引言将已有文献大致串成两条主要线索，并在它们的交叉点上定位了自己。
1. 奠基工作：Empirical Likelihood（EL）由 Owen (1988, 1990, 2001) 系统建立，是半参数推断的经典工具。其核心思想是：在仅利用矩条件约束时，通过在多项分布族上的最大似然（即经验似然）来构造参数推断，且其似然比统计量在正则条件下服从标准 Wilks 定理（即渐近 χ² 分布）。但 EL 在处理“估计的”参数时（如在倾向得分中代入估计值），需要将估计步骤带来的不确定性纳入标准 EL 框架。
2. 主要进展：此后，EL 在复杂数据（如缺失数据、测量误差、因果推断）中得到推广，其中关键的一支是 Pseudo-Empirical Likelihood (PEL)。PEL 与标准 EL 的核心区别在于：后者在构造似然时，观测数据是最终的分析单位；而 PEL 通过先对数据进行某种变换（如逆概率加权）得到一个“伪”样本，再对新样本应用经验似然。作者引用 Chen, Leung 和 Qin (2003) 以及 Qin 和 Lawless (1994) 的工作，指出 PEL 在处理“两步估计”问题上的优势。与此同时，因果推断领域 DR 估计量的理论基础由 Robins, Rotnitzky 和 Zhao (1994) 建立，之后的 Bang 和 Robins (2005) 等进一步发展了增强型 IPW 估计量（AIPW），而 Targeted Maximum Likelihood Estimation (TMLE) 由 van der Laan 和 Rose (2011) 提出。这些 DR 方法在点估计上效果优异，但在推断（尤其是置信区间构造、假设检验）上，常用的渐近正态理论（基于 EIF 的 Sandwich 方差估计）可能在小样本下表现不佳。
3. 当前 Frontiera：大量近期工作（作者引用 Tan (2010), Vermeulen 和 Vansteelandt (2015), Chernozhukov 等 (2018)）致力于将 EL 或其它稳健推断方法（如广义矩估计 GMM）与 DR 估计结合，以兼顾点估计的稳健性和推断的 reliability。例如，Tan (2010) 使用了基于 EL 的 DR 估计，但其重点在点估计和模型选择，而非推断（如 EL ratio 检验）。本文即是在此 gap 上切入：如何为 DR 估计量（通过 model-calibration 构造的 PEL 估计量）建立一个完整的、基于 PEL ratio 的推断框架。
4. 本文位置：作者声称他们填补了“现有 DR EL 工作中普遍缺失的、关于拟似然比统计量渐近分布的理论”。作者具体提到，他们没有采用 Tan (2010) 的“先通过 EL 校准得到权重，再构造点估计”的路线，而是直接用一个 PEL 函数来表达 ATE，并重点分析该 PEL ratio 统计量的样本分布。这本质上是将 EL 从“估计加权”工具升级为“直接推断”框架。
子线索聚类：
- Cluster A: 经验似然在复杂数据中的推广。包括 Chen, Leung 和 Qin (2003)（缺失数据下的 PEL）、Qin 和 Lawless (1994)（一般半参数模型中的 EL）、Ibrahim 等 (2008)（缺失数据下的伪似然与剖分似然）、Chaudhuri 和 Ghosh (2011)（用估计的倾向得分的 EL）。这个 cluster 的核心是处理“两步”或“估计的”参数对 EL ratio 的影响。
- Cluster B: 因果推断中双重稳健估计量与推断。包括 Robins, Rotnitzky 和 Zhao (1994)（IPW 估计与 DR 的奠基）、Bang 和 Robins (2005)（AIPW 估计）、van der Laan 和 Rose (2011)（TMLE）、Tan (2010)（EL 校准的 DR 估计）、Vermeulen 和 Vansteelandt (2015)（半参数效率理论与 M 估计）、Chernozhukov 等 (2018)（DML，通过 cross-fitting 处理 nuisance 参数估计对推断的影响）。这个 cluster 的核心是 DR 点估计的效率与推断的稳健性。
这个方向在追问的核心问题：
1. 如何在 DR 估计量的框架下，构造一个“似然比检验”意义上的统计量，使其渐近分布已知且易处理？ 即，如何将 EL 的 Wilks 定理推广到 DR 设定中。
2. 如何处理 nuisance 参数（倾向得分、结果回归函数）的估计对推断（而非仅点估计）的影响？ 这是非标准问题的根源——Wilks 定理在“估计的参数”下可能失效，需要修正 scaling constant。
3. 在小样本下，基于渐近正态的推断（如 Sandwich 方差 + Wald 型统计量）与基于拟似然比（或 Bootstrap）的推断，孰优孰劣？
4. 是否存在一个统一的、无 need for scaling constant 的推断程序？
⚠️ 作者的 framing：
- 作者将缺口 frame 为“现有 DR 文献中，普遍缺少一个直接基于拟似然比统计量的推断框架”。他们强调，Tan (2010) 虽用了 EL 校准，但讨论的是点估计和最优化，并未分析 PEL ratio 的分布；Vermeulen 和 Vansteelandt (2015) 的 M 估计虽可推得 Wald 型统计量，但并非拟似然比形式。因此，本文声称是第一个在 DR 估计下建立起 PEL ratio 统计量渐近理论的。
- 被淡化/回避的竞争路线：作者在引言末段提到，与他们的 DR PEL 平行的还有基于“calibrated estimation equations”的其它方法（如 GMM），但他们选择不深度对比。此外，他们未提及 DML 及其基于 Neyman orthogonality + cross-fitting 的推断框架，后者也是一种处理 nuisance 参数对推断影响的主流方法。Chernozhukov 等 (2018) 虽被引用，但仅作为“nuisance 参数需要合适处理”的证据，而未被用作本文方法的核心对比对象。
- 什么明显该被引/该存在、却没出现在 intro 里？ 引言没有引用关于“bootstrap after two-step estimation”的通用理论文献（如 Shao 和 Tu (1995) 或 Field 和 Welsh (2007)），尽管本文 Bootstrap 置信区间是其中的一个特例。另外，关于“semiparametric efficiency bound for the ATE”的标准论证（如 Hahn (1998)）也未出现，但这可能是作者假设读者已知，无需在方法论文中重复。
张力：未见明显相反结论。所有被引工作都在推进一个共识：DR 是好的，EL（或其变种）是构造稳健推断的合适工具，但细节挑战（inference 理论）尚未完全解决。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- Y_i(1) 和 Y_i(0)：个体 i 的潜在结果（potential outcomes），分别对应接受处理和不接受处理。这是不可观测的，每名个体只有一个可以实现。
- T_i ∈ {0, 1}：处理分配变量，1 表示接受处理，0 表示对照。这是可观测的。
- X_i：一组协变量向量（维度 p）。可观测的。
- Y_i = T_i * Y_i(1) + (1-T_i) * Y_i(0)：可观测结果。
- τ = E[Y_i(1) - Y_i(0)]：平均处理效应 (ATE)，目标是它的估计与推断。
- π(X_i; α) = P(T_i=1 | X_i)：倾向得分（propensity score），通常参数化（例如 logistic 回归），由参数 α 刻画（α 是一未知向量）。
- μ_1(X_i; β_1) = E[Y_i | T_i=1, X_i]：结果回归模型（处理组），通常参数化，由参数 β_1 刻画。
- μ_0(X_i; β_0) = E[Y_i | T_i=0, X_i]：结果回归模型（对照组），通常参数化，由参数 β_0 刻画。
- R_{i1} = T_i / π(X_i; α)（处理组逆概率权重），R_{i0} = (1-T_i) / (1-π(X_i; α))（对照组逆概率权重）。
- n：总样本量。n_1 和 n_0 分别是处理和对照组样本量。
模型：
- 基础因果模型：满足无混杂性（(Y(1), Y(0)) ⟂ T | X）和 正定性（0 < π(X) < 1）。这是两个标准假设。
- 可观测模型：我们观测到独立同分布的样本 {(T_i, X_i, Y_i): i = 1, ..., n}，来自一个总体分布 P。所有参数都和这个总体有关。
- 假设：
  - Scenario A (只倾向得分正确)：我们假设 π(X; α) 的模型（比如 logistic）是正确的。但不需要假设任何结果回归模型 μ_1(X; β_1), μ_0(X; β_0) 正确。
  - Scenario B (双重稳健)：我们假设或者 π(X; α) 的模型正确，或者两个结果回归模型 μ_1(X; β_1), μ_0(X; β_0) 都正确。允许其中一个错（但不能两个都错）。
可观测数据：研究者实际拿到的是 {(T_i, X_i, Y_i): i=1,...,n}。
- 想要的：τ = E[Y(1) - Y(0)]。
- 观测到的：Y_i、T_i、X_i。未观测到的反事实 Y_i(1-T_i) 使得直接估计 τ 的均值困难。只能靠可识别性来间接估计，即通过 E[Y(1)] = E[ T * Y / π(X)] 等公式（给定假设下成立）。

第二步：讲最小内核¶

论文的核心想法可以用一个极简版本概括：ATE 的估计本质上是一个“两样本”问题——处理组和对照组——而经验似然（PEL）通过构造一个“伪总体”上的得分数，将 IPW 和 DR 估计量统一在一个推断框架下。

让我们去掉多重协变量、非线性模型等复杂性，假设只有一个协变量 X（一维），且处理分配 T 只依赖于 X（完全可忽略），且 Y 是连续的。我们想用 IPW 的思路估计 τ。

最简版本设定：
- 数据: (T_i, Y_i, X_i), i=1,...,n。n_1 = Σ T_i, n_0 = n - n_1。
- 已知：倾向得分函数 π(X_i) 已知（或从 X_i 上完美估计出）——这是一个关键简化，但可以体现 PEL 的思路。实际中 π 是估出来的，但先忽略这一步。
- 目标：对 τ = E[Y(1) - Y(0)] 做点估计和置信区间。
PEL 的构造：
1. 把数据“虚拟”成两组 我们要比较 Y(1) 和 Y(0) 的均值。PEL 的方法是将每个观测 i 当成它属于“伪处理组”和“伪对照组”两次：
  - 对于处理组样本 (T_i=1, Y_i, X_i)，它直接贡献给 Y(1) 的推断（权重 1），但它通过 IPW 权重 1/π(X_i) 也贡献给 Y(1) 的总体表示，所以它的“伪处理组”观测是 {1/π(X_i), Y_i}。
  - 对于对照组样本 (T_i=0, Y_i, X_i)，它贡献给 Y(0) 的推断（权重 1 / (1-π(X_i))），所以它的“伪对照组”观测是 {1/(1-π(X_i)), Y_i}。更严格地，PEL 不再对原始样本 (T_i, X_i, Y_i) 分配概率质量，而是对每个个体分配两个“伪质量” p_i 和 q_i（归一化和为 1），分别用于构造 Y(1) 和 Y(0) 的分布。但为了只用一个似然函数，作者把问题简化为一个多分类问题：把所有 n 个观测当成 2n 个点（每个观测贡献两个伪点），并对这 2n 个点上的概率 p_{i1}（代表处理组伪点）和 p_{i0}（代表对照组伪点）做经验似然。这个 2n 维的简单将似然构造简化。
2. 构建 PEL 函数：定义 PEL 函数（取 log 形式）： L(τ) = max_{p_i1, p_i0} Σ_i [log(p_{i1}) + log(p_{i0})] 约束条件：
  - (1) Σ_i p_{i1} = 1, p_{i1} >= 0 (对所有 i)
  - (2) Σ_i p_{i0} = 1, p_{i0} >= 0 (对所有 i)
  - (3) Σ_i [ p_{i1} * ( T_i / π(X_i) ) * Y_i - p_{i0} * ( (1-T_i) / (1-π(X_i)) ) * Y_i ] = τ —— 这是 校准约束，它迫使“处理组的加权的 Y”与“对照组的加权的 Y”的差的期望等于 τ。
  注意：约束 (3) 中的系数 T_i/π(X_i) 和 (1-T_i)/(1-π(X_i)) 正是用来做 IPW的关键。当 τ 取真值时，这个约束是渐近有效的；如果 τ 是真实的，则可能出现无解，从而产生偏差。
最小内核结论：在这个极简例子中，最大 PEL 估计量 hat τ 就是解出上述在无约束 (3) 时的最优解（即不强制 τ 固定，而是最大化无约束似然函数的最大值）。无约束（即 τ 自由）时，我们可以独立最大化两组权重。这等价于求： L_free = Σ_i log(p_i1) + Σ_i log(p_i0) 最大化——这是两个独立的多项分布，最优解是 p_i1 = 1/n，p_i0 = 1/n。此时，ATE 的估计值 hat τ = (1/n) * Σ_i [ T_i / π(X_i) * Y_i - (1-T_i) / (1-π(X_i)) * Y_i ]，这就是标准的 IPW 估计量！所以 PEL 的这一步是：PEL 的点估计量自然等价于 IPW 估计量。

现在，τ 被独立出来，我们可以对 PEL 的似然比统计量 -2 log(L(τ)/L_free) 进行分析。这个统计量在 τ = τ_0（真值）时，渐近于一个中心 χ² 分布（如果倾向得分已知）或一个缩放后的 χ² 分布（如果倾向得分估计得当，即 nuisance 参数存在）。这正是论文核心理论结果的雏形——对于 IPW 情形，它不服从标准 Wilks 定理；而对于 DR 情形，它变成加权 χ²。

这个最小内核告诉读者：PEL 将 ATE 的推断转化为一个关于 τ 的拟似然比检验问题；点估计是 IPW 或 DR 的某个变体；推断通过一个非标准的 χ² 分布实现。

三、这篇论文做了什么¶

三句话：
1. 问题：本文研究了在无混杂性假设下，如何利用伪经验似然（PEL） 方法对平均处理效应（ATE）进行点估计和区间估计（推断），并重点分析了两类 PEL 方法——仅基于倾向得分的方法和同时纳入结果回归模型的 DR 方法。
2. 工具/方法：通过构造模型校准约束下的 PEL 函数，将 IPW 估计量和 DR 估计量统一到一个拟似然推断框架下，推导了相应 PEL ratio 统计量的渐近分布。
3. 主要结论：
  - Scenario A (IPW PEL)：最大 PEL 估计量等价于经典的 IPW 估计量。PEL ratio 统计量在倾向得分正确估计下渐近服从一个非标准的 χ² 分布，即其渐近分布是加权卡方分布（weighted sum of χ²_1），而非标准 Wilks 定理中的单一 χ²。
  - Scenario B (DR PEL)：通过引入 outcome regression 构建 model-calibration 约束后，最大 PEL 估计量是双重稳健的（给定倾向得分或结果回归正确）。对应的 PEL ratio 统计量的渐近分布也是一个加权卡方，但权重结构取决于哪个模型错误（或全部正确）。这是本文的主要理论贡献。
  - 推断实现：由于渐近分布中的 scaling constant (加权系数) 极难解析计算，作者转而提出用 Bootstrap 重新估计 PEL ratio 统计量的分位数，从而构造置信区间，这避免了复杂的渐近方差估计。
关键设定与假设：在第二节最小记号基础上补全：
- 定义 1 和 2：定义了处理组和对照组的“伪经验似然”函数。它基于所有 n 个观测，但赋予每个观测两次概率质量（一次作为处理组代表，一次作为对照组代表），形成一个维度 2n 的简单多项式。
- 假设 1-5：
  1. SUTVA 和 consistency 是隐式的。
  2. 无混杂性：(Y(1), Y(0)) ⟂ T | X （假设 1）。
  3. 正定性：0 < π(X) < 1 （假设 2）。
  4. 模型设定：
    - Scenario A：倾向得分的参数模型 π(X; α) 是正确的（假设 3）。不需要结果回归模型。
    - Scenario B：双重稳健：或者倾向得分模型正确（假设 3），或者两个结果回归模型 μ_1(X; β_1), μ_0(X; β_0) 都正确（假设 4和5）。
  5. 技术假设：X 的分布有界的支撑、Y 有界矩等标准正则条件（假设 6-9），保证 MLE 的根方一致性和 IF 的存在性。
- 与已有文献相比，方法上的硬核进展：本文强化了 Tan (2010) 的 EL 校准方法，它为给定参数模型（如 logistic 倾向得分或线性结果回归）提供了一个闭合的拟似然推断框架；与 DML (Chernozhukov 等, 2018) 相比，本文的方法不需要 cross-fitting，但需要建立 PEL ratio 的渐近分布（而 DML 关注的是 Wald 型统计量的 Neyman 正交性）。
主要结果：
- Theorem 1 (IPW PEL ratio 统计量)：
  - 陈述：设 π(X) 由参数 α_0 估得（MLE），并与真参数一致（即模型正确）。那么，PEL ratio 统计量 -2 log R(τ_0)（其中 τ_0 是 ATE 真值）是渐近非中心 χ² 分布，但自由度并不固定为 1，而是等于渐近于 V_1 的秩（rank of a certain limiting variance matrix V_1）。实际上，它渐近于 Σ_{k=1}^d λ_k Z_k^2，其中 {Z_k} 是独立标准正态，{λ_k} 是某个矩阵的特征值。所以是加权卡方。
  - 直觉：这是因为 PEL 函数中包含了由 hat α 引入的额外不确定性。如果 α 已知（即倾向得分已知），则 Wilks 定理成立，-2 log R(τ_0) 渐近于 χ²_1。本文的 hat α 是从数据中估计出的，这破坏了标准识别条件，PEL ratio 不再中心化，从而收敛到非标准分布。
  - 必要条件: 倾向得分模型 π(X; α) 正确。
  - 解决的技术难点：证明了 PEL ratio 在 hat α 下是一个“overspecified”的矩条件问题，其渐近分布远不止是加了一个自由度，而是整个分布改变了。
- Theorem 2 (DR PEL ratio 统计量)：
  - 陈述：在 model-calibration 约束下（引入结果回归 μ_1, μ_0），且假设 双重稳健性成立（即倾向得分或两个结果回归都正确）。那么 PEL ratio 统计量的渐近分布还是加权卡方，但方差矩阵结构依赖于哪个模型错误。
  - 直觉：当结果回归模型正确时（但对倾向得分无要求），PEL ratio 不再仅依赖于倾向得分的 IF，而是融合了结果回归的 IF，从而具有更强的稳健性。
  - 必要条件: 必须满足双重稳健条件。
  - 解决的技术难点：作者需要处理两个模型（倾向得分和结果回归）同时存在（或只存在一个）时的复杂协方差结构，并证明如何在一个统一框架下处理 PEL ratio。这比 Theorem 1 复杂得多。
- Corollary 1 (Bootstrap 置信区间)：
  - 因为 weighting constant 难以计算，作者提出用 Bootstrap 重新计算 -2 log R(τ_0) 的经验分布，并取分位数构造置信区间。无需解析计算复杂 scaling constant，这是一个实用性极强的贡献。
证明路线与技术技巧：
- 整体路线：证明的核心是 PEL ratio -2 log R(τ) 的渐近分布。路线可概括为 3 步：
  1. 用 Lagrange multiplier 求解 PEL 函数：将 PEL 最大化问题转化为一个凸优化问题，得到关于 τ 的 PEL ratio -2 log R(τ) 的一个显式表达式，它表示为 Lagrange multiplier λ 的函数。
  2. 分步 Taylor 展开：将 λ 对 τ 在真值 τ_0 处展开。这个展开将 -2 log R(τ_0) 表示为几个得分函数的平方和及其交叉项的渐近形式，其中这些得分函数与 α（倾向得分参数）、β_1, β_0（结果回归参数）和 τ 本身的 IF 有关。
  3. 处理 nuisance 参数的 IF：关键跳跃是处理hat α 和 hat β 的 IF 如何影响最终的渐近分布。这些 IF 由 n 减去它们的方差（即一个产品的逆 Fisher 信息）给出。由于 PEL 的校准方程包含了这些 IF，最终的展开式会收敛到一个由V_1 协方差矩阵决定的二次型，而不是标准二次型。Wilks 定理的失效是因为 V_1 的秩不等于自由度 2（实际上等于 2 减去被约束掉的维度）。
  4. 结论与 Bootstrap：证明 -2 log R(τ_0) 的渐近分布是 Z^T V_1^{-1} Z 的分布（其中 Z 是多元正态），这等价于加权卡方。最后，由于 V_1 太难计算，转而通过 Bootstrap 来直接近似 -2 log R(τ_0) 的分布。
- 关键跳跃点：
  - 联系 IPW/DR 与 PEL：如何将经典的 IPW/DR 估计量重新表述为 PEL 的最大化解？这由模型约束 (3) 的巧妙选择实现。例如，对 IPW，PEL 的校准方程不指定 τ，让估计量自然成为 IPW。对 DR，引入 Outcome Regression 的 IF 作为额外的校准方程。这是一个“将已知方法融入新框架”的漂亮设计。
  - Wilks 定理的失效与 repair：证明 -2 log R(τ_0) 并非标准 χ²，而是加权 χ²。作者通过 Legendre transformation 发现：PEL ratio 可以写成 n * (hat τ - τ_0)^T * (某个矩阵)^{-1} * (hat τ - τ_0) 的形式，但这里 hat τ 不是独立于其他参数的，τ 的估计与 α, β 的估计纠缠在一起，所以出现复杂权重。
- 技术技巧点名：
  - Empirical Process / 渐近正态理论：标准的高维似然推导技术，用于建立 Lagrange multiplier 和得分函数的渐近线性。
  - Taylor 展开 + Delta method：核心证明手段。
  - Legendre 变换 / 对偶性：用于将 PEL 的约束优化问题转化为关于 Lagrange multiplier 的无约束优化问题，并得到 -2 log ratio 的显式形式。
  - 高阶 Influence Function 的思想（虽然本文未明确使用 HOIF，但涉及）：IPW/DR 的 IF 正是 PEL 约束中的“得分”，这篇论文本质上是利用一阶 IF 来构建 PEL 推断函数。
真实例子与应用：
- 本文为纯理论/无实证例子。论文全部内容是理论推导和模拟研究。没有应用到真实数据集上。前言和摘要中明确说明是“simulation studies”。
🔎 结论是否比证明窄：
- Yes。Theorem 2（DR PEL ratio）的证明是建立在双重稳健性假设上的。论文“双重稳健推断”的 claim 只验证了“点估计是 DR 的，且当 DR 成立时推断是有效（口头上，通过渐近分布理论）”。作者并未证明：当倾向得分和结果回归都错时，PEL ratio 统计量或置信区间的性质（可能是 completely inconsistent）。这与“DR 推断”的完整愿景（对任一模型错误都有 robust inference）相比是窄的。
- 此外，Bootstrap 置信区间是经验的，并非理论上的“Bootstrap 有效性”证明。作者只在模拟中展示了其良好表现，但并未证明 Bootstrap 在什么条件下一定能逼近真实的分位数。对于具有非标准渐近分布的 PEL ratio，Bootstrap 的有效性是一个非平凡的问题，本文未触及。
- 作者在结论（Section 8）中明确指出：“...it is worth mentioning that the bootstrap method we proposed is only justified through simulation and more rigorous theoretical justification is needed.” 这表明作者自己都认为结论比证明窄。

四、开放问题（点到为止）¶

DR + model-calibration PEL 的完全稳健推断：Theorem 2 假设了 DR（即至少一个模型正确）。如果两个模型都错了，PEL ratio 统计量的分布是什么？置信区间是否会失效？这是最直接的开放问题。扎根于 Theorem 2 的陈述（要求 DR 条件）。
Bootstrap 的理论保证：作者自己提到“...more rigorous theoretical justification is needed” for the bootstrap method。对于非标准 χ² 分布（加权卡方），Bootstrap 是否依然能提供正确的渐近置信水平？这需要建立 Bootstrap consistency in the context of PEL with estimated parameters。这是一个理论挑战。
高维协变量下的推广：当前方法假设协变量维数 p 相对样本量 n 是固定的（经典 low-dimensional asmptotics）。如果 p 很大，甚至 p >> n，如何将 PEL 与高维倾向得分/结果回归（如 LASSO）结合，并建立推断理论？文中只用了有限维参数模型，该方法在高维下会崩。文未提到“broadening the framework to high-dimensional settings”作为未来工作（Section 8）。
与其他推断框架的深度对比：本文仅与 IPW 和线性回归做了模拟对比。它与基于 DML 的 Wald 型推断、基于 TMLE 的 Wald 型推断、或基于 Tan (2010) 的全 EL 推断，在有限样本下的相对优劣如何？是否存在某个模型设定下，PEL ratio 的推断比这些竞争方法更优？作者未给出系统分析。这个对比实验可作为实证研究方向。

Maintained by 陈星宇 · Homepage · Source on GitHub