跨篇综合 · 因果推断¶

子方向: 因果推断
期刊范围: AoS
聚合期刊论文数: 4
生成日期: 2026-06-02

本页由跨篇综合自动生成：从近期期刊精读里归纳反复出现的开放问题、张力与迁移空位。不打分、不排名，每条点名来源论文 [k]，供你自己判断。

一、这个子方向的全景¶

这批论文共同追问：在偏离经典理想假设（如完整因果图、线性潜变量、无混杂、固定处理水平、非适应性策略）的复杂现实下，因果效应的识别与推断还能否获得严格的理论保证？主流路线有三条：一是基于非高斯性/图判据突破非线性潜变量混淆的识别死局[1]；二是基于Neyman随机化与Stein方法，为多处理水平与发散维度提供非渐近的有限样本保证[2]；三是引入潜在因子/局部结构假设（如最近邻、迭代图扩展），在序贯适应性实验[3]或局部图知识[4]中实现半参数/非参数推断。整体停在“识别与估计的初步理论框架已建立，但向高维发散、小样本推断、计算效率及自动化扩展的过渡尚未完成”的阶段。

二、反复出现的开放问题¶

高维/发散维度下的理论失效与扩展
①问题表述：当处理水平数发散[2]、潜在因子维度随样本发散[3]、或混杂变量为高维连续协变量[4]时，现有正态逼近界、误差界或图扩展算法失效或未给出速率保证，需建立高维渐近理论并量化发散维度的代价。
②点名论文：[2], [3], [4]
③卡点路线：非渐近有限样本界[2]与非参数最近邻逼近[3]在维度发散时逼近误差不消失；局部图扩展[4]未将降维子集纳入高维渐近分析。
缺乏半参数效率界与有效推断（置信区间/方差估计）
①问题表述：现有估计量（如ICA框架[1]、最近邻[3]、设计基推断[2]）均未推导半参数效率界（EIF），且缺乏渐近精确的置信区间构造或方差估计；需推导效率界并构造一步估计/DML以达到有效推断。
②点名论文：[1], [2], [3], [4]
③卡点路线：ICA小样本不稳定且无方差[1]；Berry-Esseen界常数依赖未知矩无法直接构造CI[2]；最近邻未对比EIF[3]；图扩展调整集的方差与最优调整集方差之差未量化[4]。
强假设负担的转移与现实中不可知参数的推断
①问题表述：理论证明依赖强认知或结构假设（如用户正确指定局部图PAS[4]、潜在因子维度已知[3]、无反馈环路[1]），现实中这些参数不可知，需发展数据驱动的自适应选择并证明其推断一致性，或向更一般设定（循环图/时序图）推广。
②点名论文：[1], [3], [4]
③卡点路线：图判据要求无反馈[1]；因子模型要求d固定[3]；迭代图扩展要求用户无误提供PAS[4]。

三、张力 / 矛盾¶

非线性潜变量混淆识别的路径张力：[1]证明在非线性混淆下，基于overcomplete ICA的分解唯一性失效，必须依赖非高斯性建立图论判据；而proximal因果推断（如Miao et al. 2018）在非高斯假设失效时，仍可通过代理变量恢复识别性。两者在“非高斯性”与“代理变量”作为识别核心杠杆上存在假设互补与路径排斥的张力（涉及[1]）。
强结构假设与纯非参数方法的张力：[3]引入非参数潜在因子模型放宽了双线性因子模型[2, Bai 2009]的线性假设，但引入了潜在因子存在性及维度固定的假设；在无结构的纯非参数设定下，该因子存在性假设的必要性构成了与纯非参数方法的张力。同理，[4]用局部结构知识（PAS）替代完整图知识，本质上转移了假设负担而非消除强假设（涉及[3], [4]）。
有限样本推断路径的张力：[2]通过Stein方法为置换统计量提供显式Berry-Esseen界，与Leung (2022)基于置换统计量线性逼近的方法在逼近路径与紧致度上存在技术张力；同时，[2]的显式界与Lin (2020)聚焦随机化检验有限样本水平控制的切入点不同（涉及[2]）。

四、迁移空位（接研究者武器库）¶

高阶U-统计量计算与退化速率分析
①空位在哪：[2]的Berry-Esseen界仅覆盖线性与二次置换统计量，未处理交互效应的高阶情形；[3]的最近邻匹配偏差需高阶纠偏。
②用武器库里的哪一件：Hoeffding分解 + einsum/tensor contraction评估高阶U-统计量计算成本 + treewidth分析退化速度。
③第一步具体动作：将[2]中的交互效应置换统计量进行Hoeffding分解，用einsum写出高阶核的tensor contraction表达式，并基于treewidth分析其退化阶数，推导其Berry-Esseen界。
Minimax下界验证非渐近界的紧性
①空位在哪：[2]的Berry-Esseen界（如\(O(T/\sqrt{N})\)项）未证明其紧性；[4]数据驱动估计PAS的非精确性代价未量化。
②用武器库里的哪一件：Minimax下界技术构造最坏情形潜在结果赋值/因果结构。
③第一步具体动作：针对[2]的多处理水平发散设定，构造一族最坏情形的潜在结果矩赋值，推导正态逼近误差的minimax下界，与[2]的\(O(T/\sqrt{N})\)上界比对验证紧性。
HOIF高阶影响函数降偏与半参效率界推导
①空位在哪：[3]最近邻估计未推导半参数效率界且未做高阶纠偏；[4]调整集的渐近方差与最优调整集方差之差未量化。
②用武器库里的哪一件：半参数效率理论（EIF） + HOIF构造高阶纠偏估计 + tensor contraction计算。
③第一步具体动作：在[3]的序贯适应性实验设定下推导反事实均值的EIF，对比最近邻估计的渐近方差判断有效性；若未达到有效，构造基于HOIF的二阶纠偏估计量，用einsum评估高阶U-统计量的计算成本。
高维渐近下的降维子集与方差分析
①空位在哪：[4]将PAS视为降维子集但未引入高维渐近分析；[3]的潜在因子维度d发散时逼近误差不消失。
②用武器库里的哪一件：高维渐近理论。
③第一步具体动作：将[4]的PAS选择映射为高维协变量中的子集选择问题，在\(d/n \to \kappa \in (0, \infty)\)的高维渐近框架下，推导数据驱动选择PAS导致的渐近方差膨胀的确切上界。

本页聚合的论文¶

[1] Parameter identification in linear non-Gaussian causal models under general confounding — Annals of Statistics (2026-05-26)
[2] Berry–Esseen bounds for design-based causal inference with possibly diverging treatment levels and varying group sizes — Annals of Statistics (2026-05-26)
[3] Counterfactual inference in sequential experiments — Annals of Statistics (2026-05-26)
[4] Confounder selection via iterative graph expansion — Annals of Statistics (2026-05-26)

Maintained by 陈星宇 · Homepage · Source