Valid post-selection inference for penalized G-estimation¶
作者: Ajmery Jaman, Ashkan Ertefaie, Michèle Bally, Renée Lévesque, Robert W. Platt et al.
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么:在因果推断中,当处理效应随协变量水平变化(即 effect modification / heterogeneity)时,研究者需要识别并估计这些效应修饰因子。在纵向 / 时间序列暴露设定下,结构嵌套均值模型(SNMM)与 G-estimation 是处理时间依赖性混杂与效应修饰的经典框架。然而,当协变量维度升高、效应修饰因子需由数据驱动筛选时,惩罚 G-estimation 虽能选出变量,却破坏了经典 G-estimator 的渐近正态性与 sandwich 方差的合法性,导致 Type I error 严重膨胀。本子方向要解决的根本统计问题是:在因果模型(特别是 SNMM)中,如何对经数据驱动筛选出的效应修饰因子参数进行有效的 post-selection inference(PoSI)。当前该方向处于从线性回归 / Q-learning 的 PoSI 方法向更复杂因果模型(SNMM + proximal treatment effect)迁移的成熟期。
发展脉络: 1. 奠基工作(SNMM 与 G-estimation):Robins 提出 SNMM 与 G-estimation 处理时间依赖性混杂。Vansteelandt and Joffe (2014) 综述了 SNMM 的优势与应用困境(引用句:"The goal is to estimate the parameters ψ utilizing the observed data via G-estimation"),确立了 G-estimation 的标准形式与 sandwich 方差。 2. 高维惩罚与变量筛选:Fan and Peng (2004) 证明了非凹惩罚似然在参数发散时的 oracle property 与 sandwich 方差一致性(引用句:"Such sandwich estimators are consistent even when the number of parameters tends to infinity")。Jaman et al. (2025) 将惩罚引入 SNMM,提出 doubly robust penalized G-estimator 并证明 oracle property(引用句:"Jaman et al. (2025) established the asymptotic properties of the penalized G-estimator and verified the double-robustness property"),但留下筛选后推断的口子。 3. Post-selection inference 的两条主线: - PoSI / UPoSI 路线:Berk et al. (2013) 提出对所有可能子模型提供同时推断保证的 PoSI 方法(引用句:"provides inferential guarantees for arbitrary model selection approaches, including informal ones");Kuchibhotla et al. (2020) 将其推广为随机设计下的 UPoSI(引用句:"an extension of the random design UPoSI approach");Bachoc et al. (2020) 给出渐近均匀有效的置信区间。 - Selective Inference(条件化推断)路线:Lee et al. (2016) 与 Tibshirani et al. (2016) 对 Lasso 等多面体选择事件发展了精确的条件化推断(引用句:"developed frameworks for inference under ... LASSO"),通过条件化选择事件获得有限样本精确 \(p\)-value。 4. 高维因果推断的去偏 / decorrelated 路线:Zhang and Zhang (2014) 提出低维参数的高维置信区间;Ning and Liu (2017) 提出更一般的 decorrelated score function 框架,声称达到半参数有效界(引用句:"the decorrelated score method Ning and Liu (2017) provides a general framework for high dimensional inference that can be used to infer the oracle parameter under misspecified models")。 5. 因果 / DTR 中的 PoSI 萌芽:Zhao et al. (2022) 对 Lasso 筛选的效应修饰做了条件化选择性推断;Jones et al. (2022) 将 UPoSI 扩展至 Robust Q-learning(引用句:"extended the UPoSI approach to develop valid inference for robust Q-learning");Gao et al. (2025) 对多阶段静态治疗策略用 one-step improvement 做推断(引用句:"we can derive a one-step improvement Ning and Liu (2017); Gao et al. (2025) of the penalized-G estimator")。 6. 本文位置:将 UPoSI(多面体投影)与 one-step decorrelated(条件化)两条路线同时嵌入 penalized G-estimation + proximal treatment effect 的 SNMM 框架,填补了纵向因果效应修饰筛选后有效推断的空白。
子线索聚类: - 子线索 A:SNMM / G-estimation 与效应修饰建模(Robins, Vansteelandt & Joffe 2014; Boruvka et al. 2018; Jaman et al. 2025)。聚焦于时间依赖性混杂下的 blip 函数参数化与 doubly robust 估计。 - 子线索 B:Post-selection inference 的通用框架(Berk et al. 2013; Kuchibhotla et al. 2020; Bachoc et al. 2020; Lee et al. 2016; Tibshirani et al. 2016)。聚焦于线性回归 / Lasso 下,如何对选择事件调整置信区间宽度或条件化分布。 - 子线索 C:高维因果 / DTR 的去偏与推断(Zhang & Zhang 2014; Ning & Liu 2017; Zhao et al. 2022; Jones et al. 2022; Gao et al. 2025)。聚焦于用 decorrelated score / one-step estimator 消除惩罚引入的偏差,恢复渐近正态性。
核心追问与瓶颈: 1. 如何定义被选择参数的推断目标? 是条件化于选择事件推断"被选入的参数",还是无条件化推断"oracle 参数"?两者覆盖概率的保证域不同。 2. 惩罚 G-estimator 的选择偏差如何消除? 惩罚引入的非凹优化与收缩偏差使得经典 sandwich 方差不再一致,naive 推断 Type I error 膨胀。 3. SNMM 的 G-estimating equation 结构如何适配 PoSI 框架? G-estimation 涉及纵向协变量与 blip 函数的交互,其选择事件比线性回归更复杂(非单纯残差的多面体约束),且 nuisance 参数(如处理机制模型)需同时估计。
⚠️ 作者的 framing: - 作者将缺口 frame 为:"penalized G-estimation 缺少有效 post-selection inference,而现有 PoSI 方法只覆盖线性回归或 Q-learning,未触及 SNMM 与 proximal treatment effect"。这让本文成为"将两条成熟 PoSI 路线移植到更复杂因果模型"的显然下一步。 - 被淡化的竞争路线:作者虽引用了 Zhao et al. (2022) 的 selective inference for effect modification via Lasso,但未深入对比其条件化框架与本文 one-step 方法的实质差异(Zhao 用 Robinson 变换解耦 nuisance,本文用 G-estimation 解耦;Zhao 条件化于 Lasso 路径,本文条件化于惩罚 G-estimator 的选择事件)。此外,半参数效率理论下的 debiased ML / cross-fitting 路线(如 Chernozhukov et al. 2018 的 Double ML)在 intro 中完全缺席——这是一个明显该存在却未出现的路线,因为 SNMM 的 doubly robust G-estimation 本身就是半参数有效估计的候选,cross-fitting 能进一步处理 nuisance 估计的过拟合偏差,这与 post-selection 的偏差消除有交集但视角不同。值得研究者去查:debiased ML 与 decorrelated score 在 SNMM 设定下是否等价?若等价,本文的 one-step 方法是否只是 Double ML 的特例?
张力:未见明显对立引用。各路线(PoSI vs. Selective vs. Debiased)在不同假设与覆盖域下给出有效推断,彼此互补而非矛盾。但存在一个隐含张力:PoSI / UPoSI 追求无条件化覆盖保证(对任意选择程序有效,但区间宽),Selective / one-step 追求条件化或渐近窄区间(但对选择事件有特定假设)——本文同时呈现两条路线,但未在理论上量化两者的区间宽度差异(仅在模拟中比较)。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代
- \(n\):独立个体数(\(i = 1, \dots, n\))。
- \(J\):时间点数 / 决策阶段数(\(j = 1, \dots, J\))。
- \(A_j\):个体 \(i\) 在时间 \(j\) 的处理变量(二值,\(0/1\))。
- \(Y_j\):个体 \(i\) 在时间 \(j\) 的响应变量(重复测量结局)。
- \(L_j\):个体 \(i\) 在时间 \(j\) 的协变量向量(包含时间依赖性混杂与潜在效应修饰因子)。
- \(H_{ij}\):个体 \(i\) 在时间 \(j\) 的历史向量 \(\{L_1, A_1, Y_1, \dots, L_j\}\),维度为 \(d_j\)。
- \(\psi\):目标参数(效应修饰参数),维度为 \(p\)(低维,\(p\) 固定或远小于 \(n\)),刻画 blip 函数中 \(A_j\) 与 \(H_{ij}\) 的交互效应。
- \(\beta\):高维 nuisance 参数(处理机制模型 / confounding 模型的参数),维度为 \(q\)(\(q\) 可随 \(n\) 发散)。
- \(\gamma^*(a_j, h_{ij}; \psi)\):blip 函数(潜在结果框架下的反事实差),SNMM 的核心结构假设,定义为 \(E[Y_j(\bar{a}_j, 0) - Y_j(\bar{a}_{j-1}, 0) | H_{ij} = h_{ij}]\),参数化为 \(\gamma^* = a_j h_{1,ij}^\top \psi\)(\(h_{1,ij}\) 是 \(h_{ij}\) 的子集,即候选效应修饰因子)。
- \(\hat{\psi}_P\):penalized G-estimator,经非凹惩罚(如 SCAD / MCP)筛选 \(h_{1,ij}\) 中非零效应修饰因子后得到的 \(\psi\) 估计。
- \(\hat{M}\):选择事件,即惩罚 G-estimation 选出的非零效应修饰因子集合(模型)。
- 可观测数据:对每个个体 \(i\),观测到 \((L_{i1}, A_{i1}, Y_{i1}, L_{i2}, A_{i2}, Y_{i2}, \dots, L_{iJ}, A_{iJ}, Y_{iJ})\)。不可观测 / 需假设识别的量:反事实结局 \(Y_j(\bar{a}_j, 0)\)、blip 函数 \(\gamma^*\) 的真实参数 \(\psi\)。识别需依赖序贯可忽略性(sequential ignorability)或 proximal 因果假设(用阴性 / 阳性代理变量替代未观测混杂)。
第二步:最小内核——单时间点(\(J=1\))、线性 blip、Lasso 惩罚
剥掉纵向结构(\(J=1\))、非凹惩罚(换成 Lasso)、proximal 假设(换成标准可忽略性),最小内核如下:
-
模型:\(J=1\),blip 函数 \(\gamma^*(a_1, h_1; \psi) = a_1 h_1^\top \psi\),其中 \(h_1 \in \mathbb{R}^p\) 为候选效应修饰因子。G-estimating equation 为:
\[\sum_{i=1}^n \left\{ Y_{i1} - \gamma^*(A_{i1}, H_{i1}; \psi) - m(H_{i1}; \beta) \right\} \times \left\{ A_{i1} - \pi(H_{i1}; \beta) \right\} \times H_{i1} = 0\]其中 \(\pi(H_{i1}; \beta) = P(A_1=1 | H_{i1})\) 是处理机制模型,\(m(H_{i1}; \beta) = E[Y_1(0) | H_{i1}]\) 是基线期望模型。\(\beta\) 为高维 nuisance 参数。 -
惩罚估计:对 \(\psi\) 施加 Lasso 惩罚 \(\lambda \|\psi\|_1\),解惩罚 G-estimating equation 得 \(\hat{\psi}_P\)。选择事件 \(\hat{M} = \text{supp}(\hat{\psi}_P)\)。
-
核心数学困难:\(\hat{\psi}_P\) 因 Lasso 收缩,\(\hat{\psi}_P\) 的分布不再是正态(偏差非零、支撑集随机)。Naive sandwich 方差假设 \(\hat{M}\) 固定,忽略了选择事件的随机性,导致 Type I error 膨胀。
-
本文破题想法:
- UPoSI 路线:不条件化于 \(\hat{M}\),而是对所有可能子模型 \(M \subseteq \{1, \dots, p\}\) 构造同时推断区间,保证 \(\inf_{\psi \in \mathbb{R}^p} P(\psi_M \in C_M) \geq 1-\alpha\)。核心是将 G-estimator 的投影方向调整为"对所有子模型同时有效"的最大 \(t\)-统计量修正。
-
One-step decorrelated 路线:条件化于 \(\hat{M}\),构造 one-step 估计器 \(\hat{\psi}_{OS} = \hat{\psi}_P - \hat{\Delta}^{-1} \hat{S}(\hat{\psi}_P)\),其中 \(\hat{\Delta}\) 是 decorrelated score 的信息矩阵,\(\hat{S}\) 是去偏 score。通过消除惩罚偏差,恢复 \(\hat{\psi}_{OS}\) 的渐近正态性,条件化于 \(\hat{M}\) 后做标准 \(z\)-检验。
-
为什么成立:UPoSI 依赖 Kuchibhotla et al. (2020) 的最大投影框架,将 G-estimator 的线性结构映射为所有子模型的线性组合,用同时推断控制选择随机性;One-step 依赖 Ning & Liu (2017) 的 decorrelated score,将高维 nuisance \(\beta\) 的影响通过投影消除,使得 \(\hat{\psi}_{OS}\) 在 \(\hat{M}\) 固定时的渐近分布与 \(\psi\) 的真实分布一致。两者在 \(J=1\) 时退化为线性回归的 PoSI / selective inference,本文的推广在于将 G-estimating equation 的交互结构(\(A_j - \pi\) 残差与 \(H_j\) 的乘积)纳入框架。
三、这篇论文做了什么¶
三句话:①研究了高维协变量下 SNMM 中 proximal treatment effect 的效应修饰因子经惩罚 G-estimation 筛选后的有效推断问题;②核心工具是将 UPoSI(多面体选择调整投影)与 one-step decorrelated score(条件化选择推断)两条 PoSI 路线扩展至惩罚 G-estimation;③主要结论是两种方法在各自框架下渐近有效(UPoSI 无条件化覆盖 \(1-\alpha\),one-step 条件化渐近正态),模拟显示 naive 方法 Type I error 膨胀至 0.15-0.30,而调整方法控制在 0.05 附近,UPoSI 区间更宽但无需假设选择机制。
关键设定与假设: - SNMM 与 proximal treatment effect:blip 函数 \(\gamma^*(a_j, h_{ij}; \psi) = a_j h_{1,ij}^\top \psi\),\(h_{1,ij}\) 为候选效应修饰因子。Proximal 设定允许使用阴性 / 阳性代理变量(proxy variables)替代未观测混杂,放宽了序贯可忽略性假设。 - Doubly robust G-estimation:G-estimating equation 依赖处理机制模型 \(\pi\) 与基线期望模型 \(m\),两者之一正确即可识别 \(\psi\)(doubly robust)。 - 惩罚与选择:对 \(\psi\) 施加非凹惩罚(SCAD / MCP),用 MM 算法(Hunter & Li 2005)求解,选择事件 \(\hat{M} = \text{supp}(\hat{\psi}_P)\)。 - 高维假设:nuisance 参数 \(\beta\) 维度 \(q = o(n^{1/3})\),满足稀疏条件(\(\|\beta\|_0 = s_\beta = o(n^{1/4})\));目标参数 \(\psi\) 维度 \(p\) 固定或 \(p = o(n^{1/3})\)。 - Assumption A.1-A.5:涵盖参数空间紧性、G-estimating equation 的光滑性 / 可微性、惩罚函数的性质(SCAD / MCP 的非凹与阈值)、信息矩阵的正定性、nuisance 估计的收敛率(\(\|\hat{\beta} - \beta\| = O_P(n^{-1/4})\))。相比 Jaman et al. (2025) 的 oracle property 证明,本文额外要求 nuisance 估计的 \(n^{-1/4}\) 收敛率(用于 one-step 去偏的残差控制)与信息矩阵的均匀正定性(用于 UPoSI 的投影稳定性)。
主要结果: 1. Theorem 1(UPoSI 的渐近有效性):对任意选择程序 \(\hat{M}\),基于 penalized G-estimator 的 UPoSI 投影置信区间 \(C_{\hat{M}}\) 满足 \(\liminf_{n \to \infty} \inf_{\psi \in \mathbb{R}^p} P(\psi_{\hat{M}} \in C_{\hat{M}}) \geq 1-\alpha\)。直觉:UPoSI 将 G-estimator 视为所有子模型的线性投影,用同时推断的"保险"覆盖选择随机性。必要条件:G-estimator 的渐近线性性(\(\hat{\psi}_P - \psi = \Delta^{-1} S_n + o_P(n^{-1/2})\))与 nuisance 估计的一致性。技术难点:G-estimator 的 score 函数是 \((Y - \gamma - m)(A - \pi)H\) 的交互项,其投影结构比线性回归更复杂,需证明交互项的渐近线性性在所有子模型上均匀成立。 2. Theorem 2(One-step decorrelated 的条件化渐近正态性):条件化于 \(\hat{M}\),one-step 估计器 \(\hat{\psi}_{OS}\) 满足 \(\sqrt{n}(\hat{\psi}_{OS,\hat{M}} - \psi_{\hat{M}}) \to_d N(0, \Delta_{\hat{M}}^{-1} V_{\hat{M}} \Delta_{\hat{M}}^{-1})\)。直觉:decorrelated score 消除惩罚偏差与高维 nuisance 偏差,恢复正态性。必要条件:nuisance 估计的 \(n^{-1/4}\) 收敛率、稀疏条件 \(s_\beta = o(n^{1/4})\)、decorrelated score 的信息矩阵 \(\hat{\Delta}\) 的一致性。技术难点:one-step 修正需在惩罚 G-estimator 的非零分量上操作,同时控制 nuisance 估计对 score 函数的过拟合偏差(需 cross-fitting 或样本拆分,本文未用 cross-fitting,依赖稀疏条件直接控制)。 3. Corollary 1(Naive sandwich 方差的失效):证明 naive sandwich 方差估计器 \(\hat{V}_{naive}\) 在惩罚选择下不一致(\(\hat{V}_{naive} \not\to V\)),因选择偏差导致 \(E[\hat{\psi}_P | \hat{M}] \neq \psi_{\hat{M}}\)。
证明路线与技术技巧: - 整体路线(UPoSI): 1. 建立 penalized G-estimator \(\hat{\psi}_P\) 的渐近线性展开:\(\hat{\psi}_P - \psi = \Delta^{-1} S_n(\psi, \hat{\beta}) + o_P(n^{-1/2})\),其中 \(S_n\) 是 G-estimating score。 2. 将 \(S_n\) 分解为线性投影部分与 nuisance 估计残差部分,证明残差部分 \(o_P(n^{-1/2})\) 在所有子模型上均匀可控。 3. 对线性投影部分构造 UPoSI 的最大 \(t\)-统计量 \(K_n = \max_{M \subseteq \{1,\dots,p\}} |t_M|\),用 Kuchibhotla et al. (2020) 的同时推断框架控制 \(K_n\) 的分布。 4. 证明 \(K_n\) 的渐近分布可通过 Gaussian 逼近获得,从而构造置信区间 \(C_{\hat{M}} = \{\psi : |t_{\hat{M}}| \leq K_n^{1-\alpha}\}\)。 - 整体路线(One-step): 1. 定义 decorrelated score \(\tilde{S}(\psi, \beta) = S(\psi, \beta) - \Delta_{\psi,\beta} \Delta_{\beta}^{-1} S_\beta(\beta)\),其中 \(\Delta_{\psi,\beta}\) 是 score 对 \(\psi\) 的导数,\(\Delta_{\beta}\) 是 nuisance score 对 \(\beta\) 的导数,\(S_\beta\) 是 nuisance score。 2. 证明 \(\tilde{S}\) 对 \(\beta\) 的局部不敏感性(\(\partial \tilde{S} / \partial \beta \approx 0\)),使得 \(\tilde{S}(\psi, \hat{\beta}) \approx \tilde{S}(\psi, \beta)\),消除 nuisance 偏差。 3. 构造 one-step 估计器 \(\hat{\psi}_{OS} = \hat{\psi}_P - \hat{\Delta}^{-1} \tilde{S}(\hat{\psi}_P, \hat{\beta})\),证明 \(\hat{\psi}_{OS}\) 的惩罚偏差与 nuisance 偏差均被 \(\hat{\Delta}^{-1} \tilde{S}\) 消除。 4. 条件化于 \(\hat{M}\),证明 \(\sqrt{n}(\hat{\psi}_{OS,\hat{M}} - \psi_{\hat{M}})\) 的渐近正态性,用 sandwich 方差 \(\hat{\Delta}^{-1} \hat{V} \hat{\Delta}^{-1}\) 构造置信区间。 - 关键跳跃点: - UPoSI 的均匀渐近线性性:需证明 G-estimator 的交互项 \((Y - \gamma - m)(A - \pi)H\) 在所有子模型 \(M\) 上的投影残差均匀 \(o_P(n^{-1/2})\)。这依赖 empirical process 技术(覆盖数 / chaining)控制 nuisance 估计的均匀收敛。 - One-step 的 decorrelated score 构造:需在 G-estimating equation 的非线性结构(blip 函数含 \(A_j H_{ij}\) 交互)下,找到 \(\Delta_{\psi,\beta}\) 与 \(\Delta_{\beta}\) 的显式表达,并证明 \(\hat{\Delta}\) 的一致性。难点在于 \(\Delta_{\beta}\) 涉及处理机制模型 \(\pi\) 与基线期望模型 \(m\) 的导数,两者均为高维非参数 / 半参数估计。 - 技术技巧点名: - Empirical process / chaining:用于控制 UPoSI 中所有子模型上 score 函数的均匀收敛(Lemma 3 的证明)。 - Decorrelated score / orthogonalization:Ning & Liu (2017) 的核心工具,通过投影消除 nuisance score 对目标 score 的干扰,实现局部不敏感性。 - MM 算法(Hunter & Li 2005):用于求解非凹惩罚 G-estimating equation,通过 minorization-maximization 迭代逼近 SCAD / MCP 的解。 - Doubly robust 信息矩阵:G-estimation 的信息矩阵 \(\Delta\) 在 \(\pi\) 或 \(m\) 之一正确时仍一致,这是 SNMM 的经典性质,本文依赖它构造 UPoSI 投影与 one-step sandwich。
真实例子与应用: - 数据 / 场景:终末期肾病(ESRD)患者的血液透析滤过(HDF)治疗,数据来自 Centre Hospitalier de l'Université de Montréal(CHUM)。纵向设定:每个患者多次透析 session(\(J\) 为 session 数),处理 \(A_j\) 为该 session 是否达到高对流体积(\(\geq 21L\),二值),结局 \(Y_j\) 为 session 特定的透析效果指标(如 Kt/V),协变量 \(L_j\) 包含患者特征与 session 特定临床指标(如血管通路类型、血流量等)。 - 如何用上去:用 penalized G-estimation 筛选影响 HDF 效果异质性的效应修饰因子(如血管通路类型、血流量),然后用 UPoSI 与 one-step 构造筛选后参数的置信区间。 - 得到什么结果:UPoSI 与 one-step 均识别出血管通路类型(fistula vs. catheter)为显著效应修饰因子,置信区间排除 0;naive 方法也识别出但区间过窄(低估不确定性)。UPoSI 区间比 one-step 宽约 30%,反映无条件化保证的保守性。 - 想说明什么:验证理论方法在真实纵向因果数据上的可行性,展示 naive 推断的风险(区间过窄),对比 UPoSI(保守但通用)与 one-step(窄但依赖选择机制假设)的实际差异。
🔎 结论是否比证明窄: - Theorem 2 的条件化渐近正态性严格证明于 \(\hat{M}\) 固定且 nuisance 稀疏条件 \(s_\beta = o(n^{1/4})\) 下,但作者在讨论中泛泛 claim "one-step 方法在更一般选择程序下也有效"(未指明具体条件),这是一个比证明窄的 claim。 - UPoSI 的无条件化覆盖保证严格证明于 \(p\) 固定或 \(p = o(n^{1/3})\),但作者暗示"UPoSI 可扩展至 \(p\) 更高的情况"(未给出证明或条件),这也是一个泛泛 claim。
四、开放问题(点到为止,扎根具体语句)¶
- 半参数效率界与 one-step 的关系:本文的 one-step decorrelated 估计器是否达到 SNMM 下 proximal treatment effect 参数的半参数效率界?Ning & Liu (2017) 声称 decorrelated score 达到效率界,但 SNMM 的 doubly robust 结构与 proximal 假设下的效率界尚未推导。扎根点:Theorem 2 的 sandwich 方差 \(\Delta^{-1} V \Delta^{-1}\) 是否等于 proximal SNMM 的有效影响函数的方差?需查 proximal CI 的效率界文献(如 Tchetgen et al. 2024)。
- Cross-fitting 与 nuisance 过拟合偏差:本文依赖稀疏条件 \(s_\beta = o(n^{1/4})\) 控制 nuisance 估计偏差,未用 cross-fitting / sample splitting。若 nuisance 模型非稀疏(如用随机森林 / DNN 估计 \(\pi\) 与 \(m\)),one-step 的渐近正态性是否仍成立?扎根点:Assumption A.4 的 \(n^{-1/4}\) 收敛率假设,与 Chernozhukov et al. (2018) 的 cross-fitting 框架对比。
- \(p\) 发散时 UPoSI 的计算可行性:UPoSI 需遍历所有 \(2^p\) 个子模型计算最大 \(t\)-统计量,当 \(p\) 较大时计算不可行。Kuchibhotla et al. (2020) 提出近似算法,但本文未讨论 SNMM 设定下的计算方案。扎根点:Section 4 的 UPoSI 构造,当 \(p > 20\) 时如何实现?
- Proximal 假设下的选择事件刻画:本文的选择事件基于惩罚 G-estimator 的支撑集,但 proximal 设定引入阴性 / 阳性代理变量,其选择事件是否仍可表示为多面体约束(Lee et al. 2016 的框架要求)?扎根点:Section 3.2 的条件化推断假设选择事件可刻画,proximal 变量的筛选是否破坏多面体结构?
Maintained by 陈星宇 · Homepage · Source on GitHub