Pseudo-empirical likelihood methods for causal inference¶
作者: Jingyue Huang, Changbao Wu, Leilei Zeng
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
-
这个方向是什么:本子方向的核心问题是:在观测性研究中,如何对平均处理效应(ATE)进行统计推断(点估计、置信区间、假设检验),同时保持对模型设定误差的稳健性。这里的稳健性主要指对倾向得分模型或结果回归模型中的一个(但不能两个都错)具有抵御能力——即双重稳健性(Double Robustness, DR)。当前该方向的技术成熟度较高,涌现出多种 DR 估计量(如 AIPW、TMLE)及其推断理论,但推断框架(尤其是基于似然或拟似然的推断)仍是一个活跃且存在 open gaps 的领域。
-
发展脉络:本文的引言将已有文献大致串成两条主要线索,并在它们的交叉点上定位了自己。
- 奠基工作:Empirical Likelihood(EL)由 Owen (1988, 1990, 2001) 系统建立,是半参数推断的经典工具。其核心思想是:在仅利用矩条件约束时,通过在多项分布族上的最大似然(即经验似然)来构造参数推断,且其似然比统计量在正则条件下服从标准 Wilks 定理(即渐近 χ² 分布)。但 EL 在处理“估计的”参数时(如在倾向得分中代入估计值),需要将估计步骤带来的不确定性纳入标准 EL 框架。
- 主要进展:此后,EL 在复杂数据(如缺失数据、测量误差、因果推断)中得到推广,其中关键的一支是 Pseudo-Empirical Likelihood (PEL)。PEL 与标准 EL 的核心区别在于:后者在构造似然时,观测数据是最终的分析单位;而 PEL 通过先对数据进行某种变换(如逆概率加权)得到一个“伪”样本,再对新样本应用经验似然。作者引用 Chen, Leung 和 Qin (2003) 以及 Qin 和 Lawless (1994) 的工作,指出 PEL 在处理“两步估计”问题上的优势。与此同时,因果推断领域 DR 估计量的理论基础由 Robins, Rotnitzky 和 Zhao (1994) 建立,之后的 Bang 和 Robins (2005) 等进一步发展了增强型 IPW 估计量(AIPW),而 Targeted Maximum Likelihood Estimation (TMLE) 由 van der Laan 和 Rose (2011) 提出。这些 DR 方法在点估计上效果优异,但在推断(尤其是置信区间构造、假设检验)上,常用的渐近正态理论(基于 EIF 的 Sandwich 方差估计)可能在小样本下表现不佳。
- 当前 Frontiera:大量近期工作(作者引用 Tan (2010), Vermeulen 和 Vansteelandt (2015), Chernozhukov 等 (2018))致力于将 EL 或其它稳健推断方法(如广义矩估计 GMM)与 DR 估计结合,以兼顾点估计的稳健性和推断的 reliability。例如,Tan (2010) 使用了基于 EL 的 DR 估计,但其重点在点估计和模型选择,而非推断(如 EL ratio 检验)。本文即是在此 gap 上切入:如何为 DR 估计量(通过 model-calibration 构造的 PEL 估计量)建立一个完整的、基于 PEL ratio 的推断框架。
- 本文位置:作者声称他们填补了“现有 DR EL 工作中普遍缺失的、关于拟似然比统计量渐近分布的理论”。作者具体提到,他们没有采用 Tan (2010) 的“先通过 EL 校准得到权重,再构造点估计”的路线,而是直接用一个 PEL 函数来表达 ATE,并重点分析该 PEL ratio 统计量的样本分布。这本质上是将 EL 从“估计加权”工具升级为“直接推断”框架。
-
子线索聚类:
- Cluster A: 经验似然在复杂数据中的推广。包括 Chen, Leung 和 Qin (2003)(缺失数据下的 PEL)、Qin 和 Lawless (1994)(一般半参数模型中的 EL)、Ibrahim 等 (2008)(缺失数据下的伪似然与剖分似然)、Chaudhuri 和 Ghosh (2011)(用估计的倾向得分的 EL)。这个 cluster 的核心是处理“两步”或“估计的”参数对 EL ratio 的影响。
- Cluster B: 因果推断中双重稳健估计量与推断。包括 Robins, Rotnitzky 和 Zhao (1994)(IPW 估计与 DR 的奠基)、Bang 和 Robins (2005)(AIPW 估计)、van der Laan 和 Rose (2011)(TMLE)、Tan (2010)(EL 校准的 DR 估计)、Vermeulen 和 Vansteelandt (2015)(半参数效率理论与 M 估计)、Chernozhukov 等 (2018)(DML,通过 cross-fitting 处理 nuisance 参数估计对推断的影响)。这个 cluster 的核心是 DR 点估计的效率与推断的稳健性。
-
这个方向在追问的核心问题:
- 如何在 DR 估计量的框架下,构造一个“似然比检验”意义上的统计量,使其渐近分布已知且易处理? 即,如何将 EL 的 Wilks 定理推广到 DR 设定中。
- 如何处理 nuisance 参数(倾向得分、结果回归函数)的估计对推断(而非仅点估计)的影响? 这是非标准问题的根源——Wilks 定理在“估计的参数”下可能失效,需要修正 scaling constant。
- 在小样本下,基于渐近正态的推断(如 Sandwich 方差 + Wald 型统计量)与基于拟似然比(或 Bootstrap)的推断,孰优孰劣?
- 是否存在一个统一的、无 need for scaling constant 的推断程序?
-
⚠️ 作者的 framing:
- 作者将缺口 frame 为“现有 DR 文献中,普遍缺少一个直接基于拟似然比统计量的推断框架”。他们强调,Tan (2010) 虽用了 EL 校准,但讨论的是点估计和最优化,并未分析 PEL ratio 的分布;Vermeulen 和 Vansteelandt (2015) 的 M 估计虽可推得 Wald 型统计量,但并非拟似然比形式。因此,本文声称是第一个在 DR 估计下建立起 PEL ratio 统计量渐近理论的。
- 被淡化/回避的竞争路线:作者在引言末段提到,与他们的 DR PEL 平行的还有基于“calibrated estimation equations”的其它方法(如 GMM),但他们选择不深度对比。此外,他们未提及 DML 及其基于 Neyman orthogonality + cross-fitting 的推断框架,后者也是一种处理 nuisance 参数对推断影响的主流方法。Chernozhukov 等 (2018) 虽被引用,但仅作为“nuisance 参数需要合适处理”的证据,而未被用作本文方法的核心对比对象。
- 什么明显该被引/该存在、却没出现在 intro 里? 引言没有引用关于“bootstrap after two-step estimation”的通用理论文献(如 Shao 和 Tu (1995) 或 Field 和 Welsh (2007)),尽管本文 Bootstrap 置信区间是其中的一个特例。另外,关于“semiparametric efficiency bound for the ATE”的标准论证(如 Hahn (1998))也未出现,但这可能是作者假设读者已知,无需在方法论文中重复。
-
张力:未见明显相反结论。所有被引工作都在推进一个共识:DR 是好的,EL(或其变种)是构造稳健推断的合适工具,但细节挑战(inference 理论)尚未完全解决。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
Y_i(1)和Y_i(0):个体i的潜在结果(potential outcomes),分别对应接受处理和不接受处理。这是不可观测的,每名个体只有一个可以实现。T_i ∈ {0, 1}:处理分配变量,1表示接受处理,0表示对照。这是可观测的。X_i:一组协变量向量(维度p)。可观测的。Y_i = T_i * Y_i(1) + (1-T_i) * Y_i(0):可观测结果。τ = E[Y_i(1) - Y_i(0)]:平均处理效应 (ATE),目标是它的估计与推断。π(X_i; α) = P(T_i=1 | X_i):倾向得分(propensity score),通常参数化(例如 logistic 回归),由参数α刻画(α是一未知向量)。μ_1(X_i; β_1) = E[Y_i | T_i=1, X_i]:结果回归模型(处理组),通常参数化,由参数β_1刻画。μ_0(X_i; β_0) = E[Y_i | T_i=0, X_i]:结果回归模型(对照组),通常参数化,由参数β_0刻画。R_{i1} = T_i / π(X_i; α)(处理组逆概率权重),R_{i0} = (1-T_i) / (1-π(X_i; α))(对照组逆概率权重)。n:总样本量。n_1和n_0分别是处理和对照组样本量。
-
模型:
- 基础因果模型:满足无混杂性(
(Y(1), Y(0)) ⟂ T | X)和 正定性(0 < π(X) < 1)。这是两个标准假设。 - 可观测模型:我们观测到独立同分布的样本
{(T_i, X_i, Y_i): i = 1, ..., n},来自一个总体分布P。所有参数都和这个总体有关。 - 假设:
- Scenario A (只倾向得分正确):我们假设
π(X; α)的模型(比如 logistic)是正确的。但不需要假设任何结果回归模型μ_1(X; β_1), μ_0(X; β_0)正确。 - Scenario B (双重稳健):我们假设或者
π(X; α)的模型正确,或者两个结果回归模型μ_1(X; β_1), μ_0(X; β_0)都正确。允许其中一个错(但不能两个都错)。
- Scenario A (只倾向得分正确):我们假设
- 基础因果模型:满足无混杂性(
-
可观测数据:研究者实际拿到的是
{(T_i, X_i, Y_i): i=1,...,n}。- 想要的:
τ = E[Y(1) - Y(0)]。 - 观测到的:
Y_i、T_i、X_i。未观测到的反事实Y_i(1-T_i)使得直接估计τ的均值困难。只能靠可识别性来间接估计,即通过E[Y(1)] = E[ T * Y / π(X)]等公式(给定假设下成立)。
- 想要的:
第二步:讲最小内核¶
论文的核心想法可以用一个极简版本概括:ATE 的估计本质上是一个“两样本”问题——处理组和对照组——而经验似然(PEL)通过构造一个“伪总体”上的得分数,将 IPW 和 DR 估计量统一在一个推断框架下。
让我们去掉多重协变量、非线性模型等复杂性,假设只有一个协变量 X(一维),且处理分配 T 只依赖于 X(完全可忽略),且 Y 是连续的。我们想用 IPW 的思路估计 τ。
-
最简版本设定:
- 数据:
(T_i, Y_i, X_i),i=1,...,n。n_1 = Σ T_i,n_0 = n - n_1。 - 已知:倾向得分函数
π(X_i)已知(或从X_i上完美估计出)——这是一个关键简化,但可以体现 PEL 的思路。实际中π是估出来的,但先忽略这一步。 - 目标:对
τ = E[Y(1) - Y(0)]做点估计和置信区间。
- 数据:
-
PEL 的构造:
-
把数据“虚拟”成两组 我们要比较
Y(1)和Y(0)的均值。PEL 的方法是将每个观测i当成它属于“伪处理组”和“伪对照组”两次:- 对于处理组样本
(T_i=1, Y_i, X_i),它直接贡献给Y(1)的推断(权重 1),但它通过 IPW 权重1/π(X_i)也贡献给Y(1)的总体表示,所以它的“伪处理组”观测是{1/π(X_i), Y_i}。 - 对于对照组样本
(T_i=0, Y_i, X_i),它贡献给Y(0)的推断(权重 1 / (1-π(X_i))),所以它的“伪对照组”观测是{1/(1-π(X_i)), Y_i}。 更严格地,PEL 不再对原始样本(T_i, X_i, Y_i)分配概率质量,而是对每个个体分配两个“伪质量”p_i和q_i(归一化和为 1),分别用于构造Y(1)和Y(0)的分布。但为了只用一个似然函数,作者把问题简化为一个多分类问题:把所有n个观测当成2n个点(每个观测贡献两个伪点),并对这2n个点上的概率p_{i1}(代表处理组伪点)和p_{i0}(代表对照组伪点)做经验似然。这个2n维的简单将似然构造简化。
- 对于处理组样本
-
构建 PEL 函数: 定义 PEL 函数(取 log 形式):
L(τ) = max_{p_i1, p_i0} Σ_i [log(p_{i1}) + log(p_{i0})]约束条件:- (1)
Σ_i p_{i1} = 1,p_{i1} >= 0(对所有 i) - (2)
Σ_i p_{i0} = 1,p_{i0} >= 0(对所有 i) - (3)
Σ_i [ p_{i1} * ( T_i / π(X_i) ) * Y_i - p_{i0} * ( (1-T_i) / (1-π(X_i)) ) * Y_i ] = τ—— 这是 校准约束,它迫使“处理组的加权的 Y”与“对照组的加权的 Y”的差的期望等于τ。
注意:约束 (3) 中的系数
T_i/π(X_i)和(1-T_i)/(1-π(X_i))正是用来做 IPW的关键。当 τ 取真值时,这个约束是渐近有效的;如果 τ 是真实的,则可能出现无解,从而产生偏差。 - (1)
-
-
最小内核结论: 在这个极简例子中,最大 PEL 估计量
hat τ就是解出上述在无约束 (3) 时的最优解(即不强制 τ 固定,而是最大化无约束似然函数的最大值)。无约束(即 τ 自由)时,我们可以独立最大化两组权重。这等价于求:L_free = Σ_i log(p_i1) + Σ_i log(p_i0)最大化——这是两个独立的多项分布,最优解是p_i1 = 1/n,p_i0 = 1/n。此时,ATE 的估计值hat τ = (1/n) * Σ_i [ T_i / π(X_i) * Y_i - (1-T_i) / (1-π(X_i)) * Y_i ],这就是标准的 IPW 估计量!所以 PEL 的这一步是:PEL 的点估计量自然等价于 IPW 估计量。现在,
τ被独立出来,我们可以对 PEL 的似然比统计量-2 log(L(τ)/L_free)进行分析。这个统计量在τ = τ_0(真值)时,渐近于一个中心 χ² 分布(如果倾向得分已知)或一个缩放后的 χ² 分布(如果倾向得分估计得当,即 nuisance 参数存在)。这正是论文核心理论结果的雏形——对于 IPW 情形,它不服从标准 Wilks 定理;而对于 DR 情形,它变成加权 χ²。这个最小内核告诉读者:PEL 将 ATE 的推断转化为一个关于
τ的拟似然比检验问题;点估计是 IPW 或 DR 的某个变体;推断通过一个非标准的 χ² 分布实现。
三、这篇论文做了什么¶
-
三句话:
- 问题:本文研究了在无混杂性假设下,如何利用伪经验似然(PEL) 方法对平均处理效应(ATE)进行点估计和区间估计(推断),并重点分析了两类 PEL 方法——仅基于倾向得分的方法和同时纳入结果回归模型的 DR 方法。
- 工具/方法:通过构造模型校准约束下的 PEL 函数,将 IPW 估计量和 DR 估计量统一到一个拟似然推断框架下,推导了相应 PEL ratio 统计量的渐近分布。
- 主要结论:
- Scenario A (IPW PEL):最大 PEL 估计量等价于经典的 IPW 估计量。PEL ratio 统计量在倾向得分正确估计下渐近服从一个非标准的 χ² 分布,即其渐近分布是加权卡方分布(weighted sum of χ²_1),而非标准 Wilks 定理中的单一 χ²。
- Scenario B (DR PEL):通过引入 outcome regression 构建 model-calibration 约束后,最大 PEL 估计量是双重稳健的(给定倾向得分或结果回归正确)。对应的 PEL ratio 统计量的渐近分布也是一个加权卡方,但权重结构取决于哪个模型错误(或全部正确)。这是本文的主要理论贡献。
- 推断实现:由于渐近分布中的 scaling constant (加权系数) 极难解析计算,作者转而提出用 Bootstrap 重新估计 PEL ratio 统计量的分位数,从而构造置信区间,这避免了复杂的渐近方差估计。
-
关键设定与假设:在第二节最小记号基础上补全:
- 定义 1 和 2:定义了处理组和对照组的“伪经验似然”函数。它基于所有
n个观测,但赋予每个观测两次概率质量(一次作为处理组代表,一次作为对照组代表),形成一个维度2n的简单多项式。 - 假设 1-5:
- SUTVA 和 consistency 是隐式的。
- 无混杂性:
(Y(1), Y(0)) ⟂ T | X(假设 1)。 - 正定性:
0 < π(X) < 1(假设 2)。 - 模型设定:
- Scenario A:倾向得分的参数模型
π(X; α)是正确的(假设 3)。不需要结果回归模型。 - Scenario B:双重稳健:或者倾向得分模型正确(假设 3),或者两个结果回归模型
μ_1(X; β_1), μ_0(X; β_0)都正确(假设 4和5)。
- Scenario A:倾向得分的参数模型
- 技术假设:
X的分布有界的支撑、Y 有界矩等标准正则条件(假设 6-9),保证 MLE 的根方一致性和 IF 的存在性。
- 与已有文献相比,方法上的硬核进展:本文强化了 Tan (2010) 的 EL 校准方法,它为给定参数模型(如 logistic 倾向得分或线性结果回归)提供了一个闭合的拟似然推断框架;与 DML (Chernozhukov 等, 2018) 相比,本文的方法不需要 cross-fitting,但需要建立 PEL ratio 的渐近分布(而 DML 关注的是 Wald 型统计量的 Neyman 正交性)。
- 定义 1 和 2:定义了处理组和对照组的“伪经验似然”函数。它基于所有
-
主要结果:
-
Theorem 1 (IPW PEL ratio 统计量):
- 陈述:设
π(X)由参数α_0估得(MLE),并与真参数一致(即模型正确)。那么,PEL ratio 统计量-2 log R(τ_0)(其中τ_0是 ATE 真值)是渐近非中心 χ² 分布,但自由度并不固定为 1,而是等于渐近于V_1的秩(rank of a certain limiting variance matrixV_1)。实际上,它渐近于Σ_{k=1}^d λ_k Z_k^2,其中{Z_k}是独立标准正态,{λ_k}是某个矩阵的特征值。所以是加权卡方。 - 直觉:这是因为 PEL 函数中包含了由
hat α引入的额外不确定性。如果α已知(即倾向得分已知),则 Wilks 定理成立,-2 log R(τ_0)渐近于 χ²_1。本文的hat α是从数据中估计出的,这破坏了标准识别条件,PEL ratio 不再中心化,从而收敛到非标准分布。 - 必要条件: 倾向得分模型
π(X; α)正确。 - 解决的技术难点:证明了 PEL ratio 在
hat α下是一个“overspecified”的矩条件问题,其渐近分布远不止是加了一个自由度,而是整个分布改变了。
- 陈述:设
-
Theorem 2 (DR PEL ratio 统计量):
- 陈述:在
model-calibration约束下(引入结果回归μ_1, μ_0),且假设 双重稳健性成立(即倾向得分或两个结果回归都正确)。那么 PEL ratio 统计量的渐近分布还是加权卡方,但方差矩阵结构依赖于哪个模型错误。 - 直觉:当结果回归模型正确时(但对倾向得分无要求),PEL ratio 不再仅依赖于倾向得分的 IF,而是融合了结果回归的 IF,从而具有更强的稳健性。
- 必要条件: 必须满足双重稳健条件。
- 解决的技术难点:作者需要处理两个模型(倾向得分和结果回归)同时存在(或只存在一个)时的复杂协方差结构,并证明如何在一个统一框架下处理 PEL ratio。这比 Theorem 1 复杂得多。
- 陈述:在
-
Corollary 1 (Bootstrap 置信区间):
- 因为 weighting constant 难以计算,作者提出用 Bootstrap 重新计算
-2 log R(τ_0)的经验分布,并取分位数构造置信区间。无需解析计算复杂 scaling constant,这是一个实用性极强的贡献。
- 因为 weighting constant 难以计算,作者提出用 Bootstrap 重新计算
-
-
证明路线与技术技巧:
-
整体路线:证明的核心是 PEL ratio
-2 log R(τ)的渐近分布。路线可概括为 3 步:- 用 Lagrange multiplier 求解 PEL 函数:将 PEL 最大化问题转化为一个凸优化问题,得到关于
τ的 PEL ratio-2 log R(τ)的一个显式表达式,它表示为 Lagrange multiplierλ的函数。 - 分步 Taylor 展开:将
λ对τ在真值τ_0处展开。这个展开将-2 log R(τ_0)表示为几个得分函数的平方和及其交叉项的渐近形式,其中这些得分函数与α(倾向得分参数)、β_1, β_0(结果回归参数)和τ本身的 IF 有关。 - 处理 nuisance 参数的 IF:关键跳跃是处理
hat α和hat β的 IF 如何影响最终的渐近分布。这些 IF 由n减去它们的方差(即一个产品的逆 Fisher 信息)给出。由于 PEL 的校准方程包含了这些 IF,最终的展开式会收敛到一个由V_1协方差矩阵决定的二次型,而不是标准二次型。Wilks 定理的失效是因为V_1的秩不等于自由度2(实际上等于 2 减去被约束掉的维度)。 - 结论与 Bootstrap:证明
-2 log R(τ_0)的渐近分布是Z^T V_1^{-1} Z的分布(其中 Z 是多元正态),这等价于加权卡方。最后,由于V_1太难计算,转而通过 Bootstrap 来直接近似-2 log R(τ_0)的分布。
- 用 Lagrange multiplier 求解 PEL 函数:将 PEL 最大化问题转化为一个凸优化问题,得到关于
-
关键跳跃点:
- 联系 IPW/DR 与 PEL:如何将经典的 IPW/DR 估计量重新表述为 PEL 的最大化解?这由模型约束 (3) 的巧妙选择实现。例如,对 IPW,PEL 的校准方程不指定
τ,让估计量自然成为 IPW。对 DR,引入 Outcome Regression 的 IF 作为额外的校准方程。这是一个“将已知方法融入新框架”的漂亮设计。 - Wilks 定理的失效与 repair:证明
-2 log R(τ_0)并非标准 χ²,而是加权 χ²。作者通过 Legendre transformation 发现:PEL ratio 可以写成n * (hat τ - τ_0)^T * (某个矩阵)^{-1} * (hat τ - τ_0)的形式,但这里hat τ不是独立于其他参数的,τ的估计与α, β的估计纠缠在一起,所以出现复杂权重。
- 联系 IPW/DR 与 PEL:如何将经典的 IPW/DR 估计量重新表述为 PEL 的最大化解?这由模型约束 (3) 的巧妙选择实现。例如,对 IPW,PEL 的校准方程不指定
-
技术技巧点名:
- Empirical Process / 渐近正态理论:标准的高维似然推导技术,用于建立 Lagrange multiplier 和得分函数的渐近线性。
- Taylor 展开 + Delta method:核心证明手段。
- Legendre 变换 / 对偶性:用于将 PEL 的约束优化问题转化为关于 Lagrange multiplier 的无约束优化问题,并得到 -2 log ratio 的显式形式。
- 高阶 Influence Function 的思想(虽然本文未明确使用 HOIF,但涉及):IPW/DR 的 IF 正是 PEL 约束中的“得分”,这篇论文本质上是利用一阶 IF 来构建 PEL 推断函数。
-
-
真实例子与应用:
- 本文为纯理论/无实证例子。论文全部内容是理论推导和模拟研究。没有应用到真实数据集上。前言和摘要中明确说明是“simulation studies”。
-
🔎 结论是否比证明窄:
- Yes。Theorem 2(DR PEL ratio)的证明是建立在双重稳健性假设上的。论文“双重稳健推断”的 claim 只验证了“点估计是 DR 的,且当 DR 成立时推断是有效(口头上,通过渐近分布理论)”。作者并未证明:当倾向得分和结果回归都错时,PEL ratio 统计量或置信区间的性质(可能是 completely inconsistent)。这与“DR 推断”的完整愿景(对任一模型错误都有 robust inference)相比是窄的。
- 此外,Bootstrap 置信区间是经验的,并非理论上的“Bootstrap 有效性”证明。作者只在模拟中展示了其良好表现,但并未证明 Bootstrap 在什么条件下一定能逼近真实的分位数。对于具有非标准渐近分布的 PEL ratio,Bootstrap 的有效性是一个非平凡的问题,本文未触及。
- 作者在结论(Section 8)中明确指出:“...it is worth mentioning that the bootstrap method we proposed is only justified through simulation and more rigorous theoretical justification is needed.” 这表明作者自己都认为结论比证明窄。
四、开放问题(点到为止)¶
-
DR + model-calibration PEL 的完全稳健推断:Theorem 2 假设了 DR(即至少一个模型正确)。如果两个模型都错了,PEL ratio 统计量的分布是什么?置信区间是否会失效?这是最直接的开放问题。扎根于 Theorem 2 的陈述(要求 DR 条件)。
-
Bootstrap 的理论保证:作者自己提到“...more rigorous theoretical justification is needed” for the bootstrap method。对于非标准 χ² 分布(加权卡方),Bootstrap 是否依然能提供正确的渐近置信水平?这需要建立 Bootstrap consistency in the context of PEL with estimated parameters。这是一个理论挑战。
-
高维协变量下的推广:当前方法假设协变量维数 p 相对样本量 n 是固定的(经典 low-dimensional asmptotics)。如果 p 很大,甚至 p >> n,如何将 PEL 与高维倾向得分/结果回归(如 LASSO)结合,并建立推断理论?文中只用了有限维参数模型,该方法在高维下会崩。文未提到“broadening the framework to high-dimensional settings”作为未来工作(Section 8)。
-
与其他推断框架的深度对比:本文仅与 IPW 和线性回归做了模拟对比。它与基于 DML 的 Wald 型推断、基于 TMLE 的 Wald 型推断、或基于 Tan (2010) 的全 EL 推断,在有限样本下的相对优劣如何?是否存在某个模型设定下,PEL ratio 的推断比这些竞争方法更优?作者未给出系统分析。这个对比实验可作为实证研究方向。
Maintained by 陈星宇 · Homepage · Source on GitHub