跳转至

Causal inference on distribution functions

讲者: Linbo Wang
讨论人: Hongtu Zhu
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-16
主题: 因果推断
视频: https://youtu.be/ol6dabNA7go · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2101.01599 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

本报告属于因果推断与非欧几里得数据的交叉方向,具体关注 “结果变量为分布函数(CDF)”时的因果效应定义、识别与估计。这个子方向回答一个核心追问:当每个观测单元提供的不是标量或向量,而是一个分布(如一条时间序列的累积分布、一幅图像的强度分布、一个宏基因组序列的组成分布)时,如何有意义地定义并估计从处理到这种“分布值结果”的因果效应?

  • 奠基与主流路线:经典因果推断(Rubin Causal Model, Robins等人)将结果限制在欧几里得空间 \(\mathbb{R}^p\),对分布值结果的处理通常是先降维成标量(如均值、分位数),再应用标准方法。这种做法的代价是丢失全分布信息,且无法捕捉对分布尾部的异质性因果效应。
  • 当前前沿路线之一:利用最优传输理论(Optimal Transport)与 Wasserstein 空间的几何结构来处理分布值数据。这一路线已被应用到贝叶斯推断(Bigot et al., 2018)、非参数统计(Panaretos & Zemel, 2019)、图像分析(Peyré & Cuturi, 2019)等方向,但将其与因果推断中的潜在结果框架结合,尤其是发展可识别、可估计并具有良好统计性质的因果估计量,是本工作的直接贡献。
  • 已知相关工作(报告提及或含暗示):Robins, Rotnitzky & Zhao (1994) 的经典双重稳健估计;Panaretos & Zemel (2019) 等对 Wasserstein 空间的统计理论;以及功能性数据分析(FDA)中通过 log-hazard 等变换将密度映射到线性空间的做法(讨论者 Hongtu Zhu 提及)。本工作区别于 FDA 路线的关键点在于因果效应的可解释性:变换到线性空间后定义的因果效应在原始尺度上难以直译,而在 Wasserstein 框架下选择参考分布 \(\lambda\) 可以得到「分位数差」或「最优传输映射」这类直观解释。

本报告在这个方向上的位置: - 它给出了分布值结果(一维 CDF)因果效应的 形式化定义(通过 Wasserstein 重心与参考分布统一),保证了平均因果效应等于个体因果效应的均值(幻灯片 Theorem)。 - 它提出 双重稳健估计方法(在分位数函数上直接应用 DR 公式),并证明估计量的渐近正态性与双重稳健性(点态的一致性与分布函数上的过程收敛性)。 - 它用一个实际应用(婚姻对体力活动分布的影响)展示了该框架相比于均值摘要分析的信息增益。 - 对应于单篇 arXiv 论文(2101.01599),合作者为 Zhenhua Lin, Dehan Kong, Linbo Wang(讲者)。注意转写中“John Holling”可能是 ASR 误识别,权威材料(幻灯片、论文摘要)均显示 Lin & Kong 为合作者。讨论者 Hongtu Zhu(UNC)在 QA 部分给出专业点评。


二、最小内核 / 一个最简例子

符号与模型

  • 处理变量 \(A \in \{0,1\}\)(二值),基线协变量 \(X\)(向量)。
  • 结果 \(Y\) 是一个随机分布函数(即每个单元对应一条累计分布函数 CDF,取值于 \([0,1]\),定义在某个支撑集 \([L,U]\) 上,本报告例中取 \([1,1000]\) cpm)。
  • 潜在结果框架:\(Y(0)\) 是单元在 \(A=0\) 下的潜在分布函数,\(Y(1)\)\(A=1\) 下的(均为随机 CDF)。
  • 可观测数据:\((X_i, A_i, Y_i)\),其中 \(Y_i\) 是观测到的 CDF(来自该单元的多期纵向测量,例如 \(10080\) 分钟的体力活动记录)。
  • 识别假设:无未测量混淆 \((Y(0), Y(1)) \perp\!\!\!\perp A \mid X\),共同支撑 \(\forall x, \; 0 < P(A=1|X=x) < 1\)

目标 estimand:平均因果效应(ACE),但此时 ACE 本身是一个函数(从 \([0,1]\) 映射到 \(\mathbb{R}\),取决于参考分布 \(\lambda\))。

最简特例\(d=1\),二值处理,两个点质量分布,无协变量):

假设只有两个单元: - 单元1:\(Y_1(1) = \delta_1\)(点质量在 1),\(Y_1(0) = \delta_1\)(无处理效应)。 - 单元2:\(Y_2(1) = \delta_3\)\(Y_2(0) = \delta_3\)。 - 观测到 \(A_1=1, A_2=0\),因此 \(Y_1 = \delta_1\)\(Y_2 = \delta_3\)(无混淆,忽略协变量)。

问题:如果沿用欧几里得平均(pointwise 平均 CDF),会得到新 CDF:在 \(t=1\)\(0.5\),在 \(t=3\)\(1.0\)。这对应一个在 1 和 3 各占 50% 的随机变量——并不是我们期望的“平均值”(我们希望得到 \(\delta_2\),点质量在 2,因为两个原始值的算术平均是 2)。

Wasserstein 重心解:定义重心 \(E^\circ Y\) 为最小化 \(\sum_i W^2_2(Y_i, \lambda)\) 的分布,其中 \(W_2\) 是平方 Wasserstein 距离(在 1D 下等于 \(\int_0^1 (F^{-1}(u)-G^{-1}(u))^2 du\))。对于上述两点质量,重心正是 \(\delta_2\)——点质量在 2。因为将 \(\delta_1\) 移动到 \(\delta_2\) 的成本是 \((2-1)^2=1\),将 \(\delta_3\) 移动到 \(\delta_2\) 成本也是 \(1\),总和为 \(2\);而移动到其他分布(如 \(\delta_{1.5}\))成本更高。

因果效应的定义: - 平均潜在结果的重心:\(\mu_1 = E^\circ Y(1)\), \(\mu_0 = E^\circ Y(0)\)。 - 对比方式:采用分位数差(差分累积分布并不直观且不满足个体平均)。定义平均因果效应函数:

\[\text{ACE}(\cdot) = \mu_1^{-1}(\cdot) - \mu_0^{-1}(\cdot), \quad \text{从 } [0,1] \to \mathbb{R}.\]
个体因果效应函数:\(\text{CE}_i(\cdot) = Y_i(1)^{-1}(\cdot) - Y_i(0)^{-1}(\cdot)\)。 - 关键性质(幻灯片 Theorem):\(\text{ACE}(\cdot) = \mathbb{E}[\text{CE}_i(\cdot)]\),即平均因果效应等于个体因果效应的平均(函数逐点成立)。这使得 ACE 在个体水平上有直接解释:例如 ACE(0.5) 是处理对中位数的平均效应。

估计(以双重稳健为例):在分位数函数上直接套用标准 DR 公式(Robins 等人 1994)。对于给定的分位数水平 \(u\),令 \(Q_i(u) = Y_i^{-1}(u)\)(即第 \(u\) 分位数的观测值)。然后:

\[\hat{\mu}_1^{-1}(u) = \frac{1}{n}\sum_{i=1}^n \left[ \frac{I(A_i=1) Q_i(u)}{\hat{P}(A=1|X_i)} - \left( \frac{I(A_i=1)}{\hat{P}(A=1|X_i)}-1 \right) \hat{\mathbb{E}}[Q(u)|A=1, X_i] \right].\]
类似可得 \(\hat{\mu}_0^{-1}(u)\)。当倾向评分模型 \(\hat{P}(A=1|X)\) 或结果回归模型 \(\hat{\mathbb{E}}[Q(u)|A,X]\) 中至少一个正确时,\(\hat{\text{ACE}}(u) = \hat{\mu}_1^{-1}(u) - \hat{\mu}_0^{-1}(u)\)\(\text{ACE}(u)\) 的一致估计;而且作为 \(u\) 的随机过程,收敛到高斯过程。


三、报告主体:讲者讲了什么

以下按照报告的时间线(基于 ASR 转录时间戳与幻灯片页码)整理核心论点与例证。

[0:00:00–0:06:00] 引言与动机

  • 讲者指出经典因果推断几乎只关注 \(\mathbb{R}^p\) 值结果,但现代数据(图像、宏基因组、可穿戴设备时间序列)最好被概括为分布函数。
  • 以 NHANES 2005-2006 的 Actigraph 7164 数据为例展示:每个参与者佩戴设备 7 天(10080 分钟),记录每分钟体力活动强度(cpm)。不同人的昼夜节律不同,而分布函数可以抹去节律差异,聚焦于强度的整体分布(幻灯片 p.5-6)。
  • 研究问题:婚姻对体力活动分布是否有因果效应?控制协变量年龄和性别。

[0:06:00–0:08:00] 潜在结果框架与定义挑战

  • 引入潜在结果 \(Y(a)\)。定义平均因果效应需要两步:求均值、然后对比。
  • 指出若直接点态欧几里得平均分布函数,会丢失结构:例如两点质量 \(\delta_1,\delta_3\) 的欧几里得平均是 0.5 在 1 和 0.5 在 3,而不是 \(\delta_2\)(幻灯片 p.10-12)。使用图像数字“6”的例子展示欧几里得平均也会模糊形状(幻灯片 p.12)。

[0:08:00–0:14:00] 最优传输与 Wasserstein 重心

  • 引入 Wasserstein 距离 \(W_2\):移动一个分布到另一个的最小二次成本(1D 下等价于分位数函数的 \(L^2\) 距离)。
  • 定义 Wasserstein 重心(Fréchet 均值):\(\mu = \arg\min_\lambda \sum_i W_2^2(Y_i, \lambda)\)
  • 重新计算两点质量例子:重心为 \(\delta_2\),成本 \(2\),而 \(\delta_{1.5}\) 成本更高。所以 Wasserstein 重心比欧几里得平均更“自然”(幻灯片 p.14)。
  • 注意:Wasserstein 重心在1D下可以显式计算,但在高维不再有简单解析形式,且不再有分位数解释(讨论者 Hongtu Zhu 提问)。

[0:14:00–0:18:00] 定义平均因果效应

  • \(\mu_1 = E^\circ Y(1)\), \(\mu_0 = E^\circ Y(0)\)
  • 两种对比方式:
  • 直接差分 CDF:\(\Delta = \mu_1 - \mu_0\)(函数差)。问题:不可解释(差不再是分布),且 \(\Delta \neq E[\Delta_i]\)(幻灯片 p.17)。
  • 分位数差\(\text{ACE}(u) = \mu_1^{-1}(u) - \mu_0^{-1}(u)\),其中 \(u\in[0,1]\) 为分位数水平。个体效应类似。定理\(\text{ACE}(u) = \mathbb{E}[Y_i(1)^{-1}(u) - Y_i(0)^{-1}(u)]\)(幻灯片 p.18)。这使得 ACE 可以在个体水平上解释,例如 ACE(0.5) 是中位数平均处理效应。

[0:18:00–0:24:00] 估计方法:双重稳健

  • 在分位数尺度上直接应用经典的三种估计量:outcome regression (G-computation)、IPW、双重稳健(DR)。
  • 关键洞察:不要在 CDF 尺度上做 G-computation(因为 \(\mu_a(t) \neq \mathbb{E}[\mathbb{E}[Y(t)|A=a,X]]\)),而是在分位数函数 \(Q_i(u)=Y_i^{-1}(u)\) 上做。然后 \(\hat{\mu}_a^{-1}(u)\) 可以通过公式直接获得(幻灯片 p.19)。
  • 报告的估计结果是“过程”收敛到高斯过程(而非仅点态)。该估计量保持双重稳健性质:只要倾向评分或结果回归中一个正确,一致且渐近正态(QA 时确认)。

[0:24:00–0:32:00] 统一框架:参考分布与最优传输映射

  • 定义平均因果效应映射
    \[\Delta_\lambda(\cdot) = (\mu_1^{-1} - \mu_0^{-1}) \circ \lambda(\cdot),\]
    其中 \(\lambda\) 是任意连续参考分布。
  • 特殊选择:
  • \(\lambda = \text{Unif}(0,1)\) → 分位数差(如前述)。
  • \(\lambda = \mu_0\) → 因果传输映射:\(\Delta_{\mu_0}(x) = \mu_1^{-1}(\mu_0(x)) - x\),即最优传输映射(从 \(\mu_0\)\(\mu_1\) 的位移)。这给出处理如何将 \(\mu_0\) 中每个点搬到 \(\mu_1\) 中对应点。
  • \(\lambda = Y_i(0)\) → 个体因果传输映射。
  • 讲者强调:尽管两个定义侧重点不同(分位数差更直观,传输映射更基于最优传输),但统一于同一框架。注意:平均传输映射不等于个体传输映射的期望(因为参考分布不同),但通过该框架保持了平均效应与个体效应的关系(使用相同参考分布时成立)(幻灯片 p.22-23)。

[0:32:00–0:43:00] 数据应用与结果

  • NHANES 数据:\(n=5524\)(已婚 2682 人,未婚 2842 人)。
  • 标准分析:每个个体用平均强度作为结果,应用 DR 估计 → 婚姻使平均强度增加 21.7 cpm(95% CI [17.1, 26.3]),但丢失了全分布信息(幻灯片 p.26)。
  • 本报告方法:估计 \(\hat{\mu}_1\)\(\hat{\mu}_0\)(DR 估计),绘制分位数差曲线和传输映射(幻灯片 p.27-29)。
  • 分位数差图(幻灯片 p.28a):例如中位数效应约 20 cpm;高位数(如 0.9)效应更大,约 60 cpm。这表明婚姻对高强度活动的影响更强。
  • 因果传输映射(幻灯片 p.29):显示每个强度水平上的“位移”,例如 200 cpm 移动到 220 cpm, 400 到 430, 800 到 815 等。

[0:43:00–0:59:00] 讨论:量化处理效应 vs 分位数差

  • 讲者澄清“分位数处理效应”(QTE,常用在 FDA 中,先汇总个体平均再取分位数)与“分位数差”(本文定义)的区别。
  • QTE:先聚合个体内多个观测得到个体平均(或其它摘要),然后看这些个体平均的分布的分位数。这衡量的是极端个体(如受婚影响最剧烈的个体)。
  • 分位数差:先保留个体内的分布,取重心,再看重心分布的分位数差。这衡量的是平均个体的分布极端值(如平均个体的高强度活动受婚变化)。
  • 应用场景:气候变暖使夏天更热、冬天更冷,但年均温变化不大——分位数差能捕捉这种极端分布的变化,而均值不可见(幻灯片 p.31-32 / 讨论部分)。

QA 与讨论者(Hongtu Zhu)评论摘录([0:44:00–1:03:00])

  • 讨论者提出四点
  • 为什么用 \(W_2\) 而不是更一般的 \(W_p\)?讲者回应:\(W_2\) 可使重心在两点样本时回归算术平均(幻灯片 p.14 的论点),\(W_p\) 则不然;但若多于两个点,只有 \(W_2\) 重心与样本均值对应这一性质成立。
  • 为什么不将密度函数变换到线性空间(如 log-hazard)后再做因果推断?讲者强调:解释性不同。在原始分布尺度上定义的因果效应(如分位数差)直观,而变换后的因果效应难以直译。
  • 扩展到多维分布的挑战:1D 下分位数与最优传输的简单关系在高维不成立,分位数无良好定义;最优传输映射仍然存在但无法直接解释为分位数差。
  • 数据处理细节:为什么截断到 1-1000 cpm?讲者解释:0 cpm 可能因设备防水问题被取下(游泳/淋浴),数据含义模糊;1000 以上的值很少,用经验 CDF 估计尾部,未做极值理论建模,待改进。
  • QA 进一步问题(主持人 Georgia 和 Jingshu 等):
  • 渐近性质是点态还是过程?讲者回答:过程收敛(Donsker-type)。
  • 双重稳健性需要模型在分位数层面逐个正确,还是整体正确?讲者回答:若只关心某一分位数,只需该分位数模型正确;这等同于将个体分布始终于该分位数作为标量结果再套用标准 DR。
  • 是否存在半参有效界?讲者承认目前还没有推导,因为函数空间下的半参效率理论需要扩展。这是开放问题。

四、对应论文与开放问题

对应论文

  • Lin, Z., Kong, D., & Wang, L. (2021+). Causal Inference on Distribution Functions. arXiv:2101.01599. [注意:在转写中讲者提及“John Holling from NUS”,但权威资料(幻灯片、论文摘要)显示合作者为 Zhenhua Lin 和 Dehan Kong。归纳推断:ASR 将 “Zhenhua” 误听为 “John”,并将 “Lin” 与 “Kong” 混淆。论文状态尚无发表期刊信息,标注为 2021+,请根据最新版本核实。]

开放问题(每条扎根于报告中的特定时间点或讨论)

  1. 半参有效界:如何在一维分布函数空间上定义半参效率界?报告没有给出,讲者表示“需要扩展整个框架到函数空间才能证明这一点”[1:02:30–1:02:40]。
  2. 尾部估计改进:报告采用经验 CDF 估计每个个体的分布,但在尾部表现不佳(截断到 1-1000)。如何整合极端值理论或可参数化尾部,使得分位数差的估计在极端分位数上更可靠?[0:57:00–0:58:00 讲者回应 Hongtu Zhu 的第四个问题]。
  3. 高维多变量结果:如何将本框架扩展到多维分布结果?1D 下均匀参考分布对应分位数差,但高维下分位数无清晰对应,且期望通过最优传输映射仍可定义,但缺乏直观解释。这成为瓶颈[0:56:00–0:57:00 讲者回应]。
  4. 协变量为复杂对象:本报告只处理了结果分布,但若处理变量本身也是分布值(或函数值),如何扩展?当前讨论未涉及。
  5. 局部缩短效应 vs 分位数差的进一步区分:报告在结尾对比了“分位数处理效应”(QTE on averages)与“平均分位数差”,但未提供将两者嵌套在统一估计框架下的理论。例如,能否同时估计两个目标并给出识别条件?[0:39:00–0:41:00]
  6. 群体因果传输映射的推断:当参考分布选择为 \(\mu_0\) 时,因果传输映射作为函数,其估计的不确定性量化(置信带)以及检验“是否为恒等映射”的方法尚未详细给出(仅展示了点估计和置信区间,但转写与幻灯片未显示对函数的推断细节)。

备注:所有时间点标注基于 ASR 转录,可能有几秒偏差。报告对应的完整论文 arXiv:2101.01599 应作为核查权威公式与引用的首选。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论