Quantification and Inference of Asymmetric Relations Under Generative Exposure Mappings¶

作者: Soumik Purkayastha, Peter Xuekun Song
来源: Statistica Sinica
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：双变量因果发现旨在仅从观测数据 \((X, Y)\) 中判断因果方向是 \(X \to Y\) 还是 \(Y \to X\)，而不依赖先验的时间排序或领域知识。其根本统计问题在于：在结构因果模型 \(Y = g(X) + \epsilon\) 下，如果允许 \(g\) 属于宽泛的非参数类、且噪声 \(\epsilon\) 的分布未知，方向性不对称是否可识别，以及若可识别，能否构造具有 \(\sqrt{n}\)-收敛率与渐近正态性的估计量以进行统计推断（不确定性量化）。当前该子方向的成熟度呈现“识别理论多、推断方法少”的失衡状态：大量工作停留在构造不对称度量并证明其符号能指向真实因果方向，但鲜有工作给出该度量的置信区间或假设检验。

发展脉络： - 奠基工作：Shimizu et al. (2006) 提出线性非高斯模型（LiNGAM），首次证明在线性结构下若噪声非高斯，因果方向可识别。但该工作留下一个明显口子：现实中生成函数 \(g\) 往往是非线性的，线性假设过强。 - 主要进展（非线性与不对称度量）：为突破线性限制，一系列工作转向利用非线性 \(g\) 导致的分布不对称。Peters et al. (2014) 考虑了加性噪声模型（ANM，\(Y=g(X)+\epsilon\)），证明若 \(g\) 非线性且噪声与输入独立，方向可通过独立性检验识别；Zhang & Hyvärinen (2009) 提出基于似然与差分的不对称度量，但需对密度与函数做参数化或半参数假设；Mooij et al. (2016) 对 ANM 做了更系统的算法比较。这些进展共同留下的口子是：度量的估计缺乏渐近分布理论，无法做推断。 - 当前 frontier（推断缺失与计算瓶颈）：近期工作开始触及推断。作者在 intro 中引用了 Tagasovska et al. (2020) 的分位数耦合方法，指出其“提供了条件分布的估计，但缺乏对不对称度量的统计推断机制”。另一条线索是基于信息论的不对称度量：Janzing et al. (2012) 提出基于熵的条件独立性不对称性，但作者明确批评其“依赖条件熵的估计，在高维或非参数设定下极不稳定且难以推断”。 - 本文的位置：本文定位在“非参数生成函数 + 熵度量 + 推断闭环”。作者声称填补了从“度量不对称”到“对不对称度量做统计推断”的 gap。

子线索聚类：被引文献大致落在三条子线索上： 1. 结构模型与识别理论线：Shimizu et al. (2006); Peters et al. (2014); Zhang & Hyvärinen (2009)。这一簇在设定因果模型（线性非高斯 / ANM / PNL）并证明方向可识别，但止步于算法与识别，未涉推断。 2. 信息论与熵度量线：Janzing et al. (2012); Schalkoff (2019)。这一簇用 Shannon 熵或互信息刻画不对称，但依赖条件熵估计，面临维数灾难与缺乏标准误的瓶颈。 3. 算法实用化与计算线：Mooij et al. (2016); Tagasovska et al. (2020)。这一簇开发算法（分位数拟合、独立检验），关注计算可行性与预测表现，但理论性质（特别是估计量的渐近分布）不清晰。

这个方向在追问的核心问题： 1. 识别边界：在非线性 \(g\) 与任意（但与 \(X\) 独立）的噪声 \(\epsilon\) 下，\(X \to Y\) 与 \(Y \to X\) 的分布不对称性是否必然存在？其存在是否依赖对 \(g\) 的光滑性或单调性限制？ 2. 估计率：若不对称性可识别，能否构造度量估计量达到 \(\sqrt{n}\)-收敛率？非参数密度估计的收敛率通常慢于 \(\sqrt{n}\)，如何绕过这一非参数瓶颈？ 3. 推断闭环：能否为该度量提供渐近正态分布，从而给出置信区间或 \(p\)-值，而非仅输出一个点估计与方向判断？当前主流方法（ANM 独立性检验、熵差度量）的已知瓶颈正在于此：独立性检验的 \(p\)-值是针对“残差与输入独立”这个零假设的，而非针对“方向是 \(X \to Y\)”这个零假设；熵差度量的点估计波动大，无标准误。

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：作者将现有 bivariate causal discovery 的缺陷 frame 为“缺乏不确定性量化”，即“现有方法只给方向判断，不给推断”，从而让自己的核心贡献（基于 cross-fitting 的 \(\sqrt{n}\)-CAN 估计量与渐近正态性）成为“显然的下一步”。 - 哪些竞争路线被他淡化或回避了：基于核方法（如 HSIC 检验）的因果方向推断路线在 intro 中几乎未被提及；基于 Score-based (局部曲率/导数方差) 的方向判断方法（如 Hyvärinen & Smith 2013）也未出场。这些路线同样有非参数能力，且 Score-based 方法在某些设定下避免了密度估计。 - 什么明显该被引 / 该存在、却没出现在 intro 里：半参数估计理论中处理非参数 nuisance 参数达到 \(\sqrt{n}\)-率的经典工作（如 Robinson 1988 的部分线性模型、或更一般的 debiased / orthogonal estimation 理论）未被引用。本文用 cross-fitting 达到 \(\sqrt{n}\)-率，本质上是 orthogonalization / Neyman orthogonality 的一种实现，但 intro 未与这条理论线索对接。这是一个值得研究者去查的问题：作者是不知道这条线索，还是刻意回避以突出自己的“cross-fitting”包装？

张力：未见明显对立引用。各被引工作基本是在不同模型设定（线性 vs 非线性、加性噪声 vs 后非线性）下做增量，结论不矛盾，只是适用范围与推断能力不同。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

参数 / estimand：
\(\Delta\)：不对称系数，定义为 \(\Delta = H(Y) - H(X) + H(Y \mid X) - H(X \mid Y)\)。这是本文要估的目标量，其符号决定因果方向（\(\Delta > 0\) 指向 \(X \to Y\)）。
\(H(Y)\)：随机变量 \(Y\) 的 Shannon 熵，\(H(Y) = -\int f_Y(y) \log f_Y(y) dy\)。
\(H(Y \mid X)\)：条件熵，\(H(Y \mid X) = \int f_X(x) H(Y \mid X=x) dx\)。
随机变量 / 样本：
\(X, Y\)：暴露（输入）与结局（输出）随机变量。
\(\epsilon\)：不可观测的噪声随机变量，假设与 \(X\) 独立。
\((X_i, Y_i)_{i=1}^n\)：可观测的 iid 样本。
维数 / 样本量等指标：
\(n\)：样本量。
\(d\)：\(X\) 的维数（在最小内核中取 \(d=1\)）。
潜在量：
\(g\)：生成函数，将 \(X\) 映射到 \(Y\) 的潜在机制，属于某个非参数函数类 \(\mathcal{G}\)。
\(f_X, f_Y, f_\epsilon\)：\(X, Y, \epsilon\) 的潜在密度函数，不可观测，需估计。

模型：数据生成机制为噪声扰动生成暴露映射：\(Y = g(X) + \epsilon\)，其中 \(g \in \mathcal{G}\)（宽泛的非参数函数类），\(\epsilon \perp X\)，\(\epsilon\) 的分布 \(f_\epsilon\) 未知。假设 \(X\) 具有密度 \(f_X\)，\(\epsilon\) 具有密度 \(f_\epsilon\)。在此模型下，\(Y\) 的密度由 \(f_Y(y) = \int f_\epsilon(y - g(x)) f_X(x) dx\) 给出。要估的对象是 \(\Delta\)。

可观测数据：研究者实际能观测到的是 iid 样本 \((X_i, Y_i)_{i=1}^n\)。不可观测的潜在量包括生成函数 \(g\)、噪声分布 \(f_\epsilon\)、以及输入分布 \(f_X\)。在 ANM 设定下，若已知真实方向 \(X \to Y\)，则 \(g\) 与 \(f_\epsilon\) 可通过非参数回归与残差估计逼近；但真实方向未知，需同时考虑反向模型 \(X = h(Y) + \tilde{\epsilon}\)，此时 \(h\) 与 \(\tilde{\epsilon}\) 是反向拟合的产物，其分布性质与正向模型截然不同。

第二步：讲最小内核

剥掉所有高维、测量误差、一般函数类的技术外壳，支撑整篇论文的最小内核是：在 \(d=1\)、\(g\) 为严格单调非线性函数、\(\epsilon\) 与 \(X\) 独立且连续的特例下，证明不对称系数 \(\Delta\) 的估计量具有 \(\sqrt{n}\)-收敛率与渐近正态性，尽管 \(\Delta\) 的定义涉及四个非参数密度/熵估计。

最简特例下的核心思路：在 \(d=1\) 且 \(X \to Y\) 为真实方向时，由于 \(Y = g(X) + \epsilon\) 且 \(\epsilon \perp X\)，条件熵 \(H(Y \mid X) = H(\epsilon)\)。反向模型为 \(X = g^{-1}(Y - \epsilon)\)，此时 \(\tilde{\epsilon}\) 不独立于 \(Y\)（除非 \(g\) 为线性），因此 \(H(X \mid Y) > H(\epsilon)\)。于是 \(\Delta = H(Y) - H(X) + H(\epsilon) - H(X \mid Y)\)。由于 \(H(Y) = H(g(X) + \epsilon)\) 且 \(g\) 单调非线性，信息论性质决定了 \(\Delta < 0\)（作者在文中定义正向系数使得 \(\Delta > 0\) 指向 \(X \to Y\)，此处符号取决于其具体定义的差值方向，核心是不对称性存在）。

最小内核的数学困难与破局： \(\Delta\) 的估计需要先估计 \(f_X, f_Y, f_{Y|X}, f_{X|Y}\)，再算熵，再求差。非参数密度估计的收敛率通常为 \(n^{-r/(2r+d)}\)（\(r\) 为光滑度），慢于 \(\sqrt{n}\)。两个慢率估计量相减，通常仍是慢率。本文的破局关键在于：\(\Delta\) 的定义使得非参数 nuisance 参数（密度与条件密度）的一阶变分在差值中相互抵消。具体而言，当用样本分裂（sample splitting）与 cross-fitting 时，第一阶段用部分样本估出密度 \(\hat{f}\)，第二阶段在另一部分样本上计算基于 \(\hat{f}\) 的熵差，由于熵差定义的特定结构，第一阶段估计误差对第二阶段目标函数的影响是二阶的（\(O(\|\hat{f} - f\|^2)\)）。只要密度估计满足某些最小率条件（如 \(n^{-1/4}\)-率），二阶误差即为 \(O(n^{-1/2})\)，从而被淹没，使得最终估计量达到 \(\sqrt{n}\)-率。这正是半参数理论中 Neyman orthogonality 的体现，尽管作者用 cross-fitting 与熵差展开的语言来陈述。

三、这篇论文做了什么¶

三句话： ①研究了在无先验排序假设的双变量因果发现中，如何对基于 Shannon 熵的不对称系数进行统计推断（不确定性量化）。 ②核心工具是噪声扰动生成暴露映射（GEM）框架下的 data-splitting 与 cross-fitting，结合 FFT-based 密度估计以避免调参。 ③主要结论是构造了不对称系数的 \(\sqrt{n}\)-一致且渐近正态（CAN）估计量，并给出了其渐近方差的闭式表达，从而允许构建置信区间与假设检验。

关键设定与假设：在第二节最小记号的基础上补全： - GEM 模型设定：\(Y = g(X) + \epsilon\)，\(\epsilon \perp X\)。相比经典 ANM（Peters et al. 2014），本文允许 \(g\) 属于更宽泛的类（不仅限于有界变差或特定光滑度，只要满足密度估计所需的可微性），且允许结局变量 \(Y\) 存在测量污染（contamination，即观测到 \(Y^* = Y + \eta\)）。 - 不对称系数定义：\(\Delta(X, Y) = H(Y) - H(X) + H(Y \mid X) - H(X \mid Y)\)。若真实方向为 \(X \to Y\)，在 GEM 下 \(\Delta > 0\)；若为 \(Y \to X\)，\(\Delta < 0\)。这依赖假设：\(g\) 非线性且非平凡。 - 样本分裂与 Cross-fitting 假设：数据被随机分为 \(K\) 份（通常 \(K=2\)）。在估计 \(\Delta\) 时， nuisance 密度（\(f_X, f_Y, f_{Y|X}\) 等）在第 \(k\) 份上估计，而在其余份上计算熵的积分，以此切断估计目标与 nuisance 之间的相关性。 - FFT 密度估计假设：假设密度的特征函数在某个频率外衰减为 0（或近似 0），即密度具有有限支撑的特征函数，从而 FFT 截断估计可达到最优非参数率，且无需选择带宽参数。 - 统计含义与放宽：SUTVA 隐含在 iid 假设中；ignorability 不适用（无干预设定）；核心假设 \(\epsilon \perp X\) 是 ANM 的标准假设，本文未放宽它，但放宽了 \(g\) 的函数形式限制（相比线性或单调类），并容忍了 \(Y\) 的测量误差。

主要结果： - 定理：\(\Delta\) 估计量的 \(\sqrt{n}\)-CAN 性质。陈述：在 GEM 模型与 cross-fitting 下，估计量 \(\hat{\Delta}\) 满足 \(\sqrt{n}(\hat{\Delta} - \Delta) \xrightarrow{d} N(0, \sigma^2)\)，其中 \(\sigma^2\) 有闭式表达，仅依赖真实密度与条件密度。直觉：非参数 nuisance（密度）的估计误差在 \(\Delta\) 的差值结构中是二阶的，cross-fitting 消除了 nuisance 估计与目标估计的相关性，两者结合使得 \(\sqrt{n}\)-率成为可能。必要条件：密度估计需达到 \(n^{-1/4}\)-率（即光滑度 \(r \ge d/2\)），FFT 截断需满足特定频率截断点 \(T_n \propto n^{1/(2r+d)}\)。解决的技术难点：绕过了非参数密度估计慢于 \(\sqrt{n}\) 的瓶颈，实现了对包含无穷维 nuisance 参数的泛函的推断。 - 定理：测量污染下的鲁棒性。陈述：当观测 \(Y^* = Y + \eta\) 且 \(\eta \perp X, \epsilon\) 时，基于 \(Y^*\) 估得的 \(\Delta^*\) 与真实 \(\Delta\) 符号一致，推断程序仍有效。直觉：测量误差增加了 \(Y\) 的熵，但在正向与反向模型中增加的量相同，差值中抵消。

证明路线与技术技巧： - 整体路线： 1. 定义泛函与变分：写出 \(\Delta\) 作为密度泛函的显式表达，计算其对各密度的一阶变分（路径导数）。 2. 验证二阶正交性：证明 \(\Delta\) 的一阶变分在差值结构下相互抵消，使得 nuisance 估计误差对 \(\Delta\) 的影响为二阶。 3. 样本分裂与线性化：将 \(\hat{\Delta}\) 在真实密度处做 Taylor 展开，利用 cross-fitting 切断余项与主项的相关性，将展开式分解为线性主项（ iid 平均）与二阶余项。 4. 控制余项：利用密度估计的 \(L_2\) 收敛率界，证明二阶余项为 \(O_P(n^{-1/2})\)，可被吸收进渐近方差。 5. 应用 CLT 与计算方差：对线性主项应用经典 CLT，计算 iid 项的方差，得闭式 \(\sigma^2\)。 - 关键跳跃点：第 3-4 步的 Taylor 展开与余项控制。难点在于：\(\Delta\) 涉及 \(\log f\) 的积分，而 \(\hat{f}\) 可能出现负值或零值导致 \(\log \hat{f}\) 爆炸。作者如何绕过？通过 FFT 截断估计的特定结构，保证 \(\hat{f}\) 为正且下界有界，从而 \(\log \hat{f}\) 的变分展开合法。 - 技术技巧点名： - Cross-fitting / Sample splitting：用在第 3 步，切断 nuisance 估计与目标估计的相关性，使得线性主项的方差可闭式计算，不受第一阶段估计随机性的干扰。 - FFT-based density estimation (Characteristic function truncation)：用在第 1 步与第 4 步，通过截断特征函数的逆变换估密度。起两个作用：一是避免带宽选择（调参），二是保证估计的密度具有足够的 \(L_2\) 收敛率与正性，满足余项控制所需。 - Neyman orthogonality (隐式)：用在第 2 步，\(\Delta\) 泛函对 nuisance 的一阶变分为零（或抵消），这是 \(\sqrt{n}\)-率的核心条件。作者未用 orthogonalization 的术语，但数学实质即是如此。 - Influence function decomposition：用在第 5 步，将 \(\sqrt{n}(\hat{\Delta} - \Delta)\) 分解为 influence function 的 iid 平均加可忽略余项，从而得渐近正态。

真实例子与应用： - 用的什么数据 / 场景：流行病学数据，研究 DNA 甲基化（暴露 \(X\)）与血压（结局 \(Y\)）的因果关系，具体关注心血管疾病相关基因 FGF5 与 HSD11B2 的甲基化位点。 - 怎么把本文方法用上去：对每个基因位点，将甲基化水平与血压作为双变量观测数据，计算 \(\hat{\Delta}\) 及其置信区间，判断方向是甲基化 \(\to\) 血压还是血压 \(\to\) 甲基化。 - 得到什么结果：对 FGF5 与 HSD11B2，\(\hat{\Delta}\) 的置信区间显著大于 0，支持甲基化 \(\to\) 血压的致病通路，与生物学先验一致；对其他位点，置信区间包含 0，无法确定方向。 - 这个例子想说明什么：验证本文推断方法在真实数据上的可行性，展示置信区间比单纯的方向判断提供更多信息（如区分强不对称与弱不对称），并声称揭示了新的致病通路。

🔎 结论是否比证明窄： - 作者在 intro 与 abstract 中声称“GEM-induced asymmetry representing a low-dimensional imprint of underlying causality”，这是一个宽泛的因果哲学 claim。但在数学证明中，\(\Delta > 0\) 严格依赖 \(g\) 的非线性与 \(\epsilon \perp X\) 的假设。若 \(g\) 为线性或 \(\epsilon\) 不独立，\(\Delta\) 可为 0 或符号反转。作者未在定理中证明“因果方向必然导致 \(\Delta > 0\)”，只证明了“若 \(\Delta > 0\)，其估计量有 \(\sqrt{n}\)-CAN 性质”。因果识别的 claim 比推断定理的覆盖范围宽。 - 测量污染鲁棒性的定理假设 \(\eta \perp X, \epsilon\)，但作者在讨论中泛泛 claim 方法“accommodates contamination in outcome measurements”，未明确限定 \(\eta\) 必须独立于 \(X\)。若 \(\eta\) 与 \(X\) 相关（如选择性测量误差），结论可能不成立。

四、开放问题（点到为止，扎根具体语句）¶

非线性 \(g\) 的识别边界：作者假设 \(g\) 非线性使得 \(\Delta \neq 0\)，但未给出 \(\Delta \neq 0\) 的充分必要条件。扎根点：定理陈述仅假设 \(\Delta \neq 0\) 以避免退化，但 intro 声称“asymmetry representing imprint of causality”。问题：在何种 \(g\) 与 \(f_\epsilon\) 的组合下 \(\Delta\) 严格非零？是否存在 \(g\) 非线性但 \(\Delta = 0\) 的反例？
半参数效率界：本文给出了 \(\hat{\Delta}\) 的渐近方差 \(\sigma^2\)，但未讨论这是否是 \(\Delta\) 估计的半参数效率界。扎根点：作者用 cross-fitting 与二阶余项控制达到 \(\sqrt{n}\)-率，但未与 semiparametric efficiency bound 对比。问题：\(\Delta\) 的 efficient influence function 是什么？本文的 influence function 是否达到效率界？
FFT 密度估计的 minimax 最优性：作者用 FFT 截断估密度并声称避免调参，但未讨论该估计在给定光滑度类下的 minimax 收敛率是否最优。扎根点：第 4 步余项控制要求密度估计达到 \(n^{-1/4}\)-率，但 FFT 截断在一般光滑度类下的率可能不如核估计。问题：FFT 截断估计在 \(\mathcal{G}\) 对应的密度类下是否 minimax optimal？若不，换用达到最优率的估计（如高阶核或小波）是否改善余项条件？
条件独立噪声 \(\epsilon \perp X\) 的放宽：本文核心假设 \(\epsilon \perp X\)，但许多真实因果机制中噪声与输入相关（如异方差噪声）。扎根点：intro 声称“rich class of generative functions”，但假设列表锁定 \(\epsilon \perp X\)。问题：若 \(\epsilon\) 与 \(X\) 相关（如 \(\text{Var}(\epsilon \mid X) = v(X)\)），\(\Delta\) 的定义与推断程序如何修改？是否仍可达到 \(\sqrt{n}\)-CAN？

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Quantification and Inference of Asymmetric Relations Under Generative Exposure Mappings¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论