Causal inference on distribution functions¶
讲者: Linbo Wang
讨论人: Hongtu Zhu
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-16
主题: 因果推断
视频: https://youtu.be/ol6dabNA7go · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2101.01599 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
本报告属于因果推断与非欧几里得数据的交叉方向,具体关注 “结果变量为分布函数(CDF)”时的因果效应定义、识别与估计。这个子方向回答一个核心追问:当每个观测单元提供的不是标量或向量,而是一个分布(如一条时间序列的累积分布、一幅图像的强度分布、一个宏基因组序列的组成分布)时,如何有意义地定义并估计从处理到这种“分布值结果”的因果效应?
- 奠基与主流路线:经典因果推断(Rubin Causal Model, Robins等人)将结果限制在欧几里得空间 \(\mathbb{R}^p\),对分布值结果的处理通常是先降维成标量(如均值、分位数),再应用标准方法。这种做法的代价是丢失全分布信息,且无法捕捉对分布尾部的异质性因果效应。
- 当前前沿路线之一:利用最优传输理论(Optimal Transport)与 Wasserstein 空间的几何结构来处理分布值数据。这一路线已被应用到贝叶斯推断(Bigot et al., 2018)、非参数统计(Panaretos & Zemel, 2019)、图像分析(Peyré & Cuturi, 2019)等方向,但将其与因果推断中的潜在结果框架结合,尤其是发展可识别、可估计并具有良好统计性质的因果估计量,是本工作的直接贡献。
- 已知相关工作(报告提及或含暗示):Robins, Rotnitzky & Zhao (1994) 的经典双重稳健估计;Panaretos & Zemel (2019) 等对 Wasserstein 空间的统计理论;以及功能性数据分析(FDA)中通过 log-hazard 等变换将密度映射到线性空间的做法(讨论者 Hongtu Zhu 提及)。本工作区别于 FDA 路线的关键点在于因果效应的可解释性:变换到线性空间后定义的因果效应在原始尺度上难以直译,而在 Wasserstein 框架下选择参考分布 \(\lambda\) 可以得到「分位数差」或「最优传输映射」这类直观解释。
本报告在这个方向上的位置: - 它给出了分布值结果(一维 CDF)因果效应的 形式化定义(通过 Wasserstein 重心与参考分布统一),保证了平均因果效应等于个体因果效应的均值(幻灯片 Theorem)。 - 它提出 双重稳健估计方法(在分位数函数上直接应用 DR 公式),并证明估计量的渐近正态性与双重稳健性(点态的一致性与分布函数上的过程收敛性)。 - 它用一个实际应用(婚姻对体力活动分布的影响)展示了该框架相比于均值摘要分析的信息增益。 - 对应于单篇 arXiv 论文(2101.01599),合作者为 Zhenhua Lin, Dehan Kong, Linbo Wang(讲者)。注意转写中“John Holling”可能是 ASR 误识别,权威材料(幻灯片、论文摘要)均显示 Lin & Kong 为合作者。讨论者 Hongtu Zhu(UNC)在 QA 部分给出专业点评。
二、最小内核 / 一个最简例子¶
符号与模型:
- 处理变量 \(A \in \{0,1\}\)(二值),基线协变量 \(X\)(向量)。
- 结果 \(Y\) 是一个随机分布函数(即每个单元对应一条累计分布函数 CDF,取值于 \([0,1]\),定义在某个支撑集 \([L,U]\) 上,本报告例中取 \([1,1000]\) cpm)。
- 潜在结果框架:\(Y(0)\) 是单元在 \(A=0\) 下的潜在分布函数,\(Y(1)\) 是 \(A=1\) 下的(均为随机 CDF)。
- 可观测数据:\((X_i, A_i, Y_i)\),其中 \(Y_i\) 是观测到的 CDF(来自该单元的多期纵向测量,例如 \(10080\) 分钟的体力活动记录)。
- 识别假设:无未测量混淆 \((Y(0), Y(1)) \perp\!\!\!\perp A \mid X\),共同支撑 \(\forall x, \; 0 < P(A=1|X=x) < 1\)。
目标 estimand:平均因果效应(ACE),但此时 ACE 本身是一个函数(从 \([0,1]\) 映射到 \(\mathbb{R}\),取决于参考分布 \(\lambda\))。
最简特例(\(d=1\),二值处理,两个点质量分布,无协变量):
假设只有两个单元: - 单元1:\(Y_1(1) = \delta_1\)(点质量在 1),\(Y_1(0) = \delta_1\)(无处理效应)。 - 单元2:\(Y_2(1) = \delta_3\),\(Y_2(0) = \delta_3\)。 - 观测到 \(A_1=1, A_2=0\),因此 \(Y_1 = \delta_1\),\(Y_2 = \delta_3\)(无混淆,忽略协变量)。
问题:如果沿用欧几里得平均(pointwise 平均 CDF),会得到新 CDF:在 \(t=1\) 处 \(0.5\),在 \(t=3\) 处 \(1.0\)。这对应一个在 1 和 3 各占 50% 的随机变量——并不是我们期望的“平均值”(我们希望得到 \(\delta_2\),点质量在 2,因为两个原始值的算术平均是 2)。
Wasserstein 重心解:定义重心 \(E^\circ Y\) 为最小化 \(\sum_i W^2_2(Y_i, \lambda)\) 的分布,其中 \(W_2\) 是平方 Wasserstein 距离(在 1D 下等于 \(\int_0^1 (F^{-1}(u)-G^{-1}(u))^2 du\))。对于上述两点质量,重心正是 \(\delta_2\)——点质量在 2。因为将 \(\delta_1\) 移动到 \(\delta_2\) 的成本是 \((2-1)^2=1\),将 \(\delta_3\) 移动到 \(\delta_2\) 成本也是 \(1\),总和为 \(2\);而移动到其他分布(如 \(\delta_{1.5}\))成本更高。
因果效应的定义: - 平均潜在结果的重心:\(\mu_1 = E^\circ Y(1)\), \(\mu_0 = E^\circ Y(0)\)。 - 对比方式:采用分位数差(差分累积分布并不直观且不满足个体平均)。定义平均因果效应函数:
估计(以双重稳健为例):在分位数函数上直接套用标准 DR 公式(Robins 等人 1994)。对于给定的分位数水平 \(u\),令 \(Q_i(u) = Y_i^{-1}(u)\)(即第 \(u\) 分位数的观测值)。然后:
三、报告主体:讲者讲了什么¶
以下按照报告的时间线(基于 ASR 转录时间戳与幻灯片页码)整理核心论点与例证。
[0:00:00–0:06:00] 引言与动机¶
- 讲者指出经典因果推断几乎只关注 \(\mathbb{R}^p\) 值结果,但现代数据(图像、宏基因组、可穿戴设备时间序列)最好被概括为分布函数。
- 以 NHANES 2005-2006 的 Actigraph 7164 数据为例展示:每个参与者佩戴设备 7 天(10080 分钟),记录每分钟体力活动强度(cpm)。不同人的昼夜节律不同,而分布函数可以抹去节律差异,聚焦于强度的整体分布(幻灯片 p.5-6)。
- 研究问题:婚姻对体力活动分布是否有因果效应?控制协变量年龄和性别。
[0:06:00–0:08:00] 潜在结果框架与定义挑战¶
- 引入潜在结果 \(Y(a)\)。定义平均因果效应需要两步:求均值、然后对比。
- 指出若直接点态欧几里得平均分布函数,会丢失结构:例如两点质量 \(\delta_1,\delta_3\) 的欧几里得平均是 0.5 在 1 和 0.5 在 3,而不是 \(\delta_2\)(幻灯片 p.10-12)。使用图像数字“6”的例子展示欧几里得平均也会模糊形状(幻灯片 p.12)。
[0:08:00–0:14:00] 最优传输与 Wasserstein 重心¶
- 引入 Wasserstein 距离 \(W_2\):移动一个分布到另一个的最小二次成本(1D 下等价于分位数函数的 \(L^2\) 距离)。
- 定义 Wasserstein 重心(Fréchet 均值):\(\mu = \arg\min_\lambda \sum_i W_2^2(Y_i, \lambda)\)。
- 重新计算两点质量例子:重心为 \(\delta_2\),成本 \(2\),而 \(\delta_{1.5}\) 成本更高。所以 Wasserstein 重心比欧几里得平均更“自然”(幻灯片 p.14)。
- 注意:Wasserstein 重心在1D下可以显式计算,但在高维不再有简单解析形式,且不再有分位数解释(讨论者 Hongtu Zhu 提问)。
[0:14:00–0:18:00] 定义平均因果效应¶
- 令 \(\mu_1 = E^\circ Y(1)\), \(\mu_0 = E^\circ Y(0)\)。
- 两种对比方式:
- 直接差分 CDF:\(\Delta = \mu_1 - \mu_0\)(函数差)。问题:不可解释(差不再是分布),且 \(\Delta \neq E[\Delta_i]\)(幻灯片 p.17)。
- 分位数差:\(\text{ACE}(u) = \mu_1^{-1}(u) - \mu_0^{-1}(u)\),其中 \(u\in[0,1]\) 为分位数水平。个体效应类似。定理:\(\text{ACE}(u) = \mathbb{E}[Y_i(1)^{-1}(u) - Y_i(0)^{-1}(u)]\)(幻灯片 p.18)。这使得 ACE 可以在个体水平上解释,例如 ACE(0.5) 是中位数平均处理效应。
[0:18:00–0:24:00] 估计方法:双重稳健¶
- 在分位数尺度上直接应用经典的三种估计量:outcome regression (G-computation)、IPW、双重稳健(DR)。
- 关键洞察:不要在 CDF 尺度上做 G-computation(因为 \(\mu_a(t) \neq \mathbb{E}[\mathbb{E}[Y(t)|A=a,X]]\)),而是在分位数函数 \(Q_i(u)=Y_i^{-1}(u)\) 上做。然后 \(\hat{\mu}_a^{-1}(u)\) 可以通过公式直接获得(幻灯片 p.19)。
- 报告的估计结果是“过程”收敛到高斯过程(而非仅点态)。该估计量保持双重稳健性质:只要倾向评分或结果回归中一个正确,一致且渐近正态(QA 时确认)。
[0:24:00–0:32:00] 统一框架:参考分布与最优传输映射¶
- 定义平均因果效应映射:
\[\Delta_\lambda(\cdot) = (\mu_1^{-1} - \mu_0^{-1}) \circ \lambda(\cdot),\]其中 \(\lambda\) 是任意连续参考分布。
- 特殊选择:
- \(\lambda = \text{Unif}(0,1)\) → 分位数差(如前述)。
- \(\lambda = \mu_0\) → 因果传输映射:\(\Delta_{\mu_0}(x) = \mu_1^{-1}(\mu_0(x)) - x\),即最优传输映射(从 \(\mu_0\) 到 \(\mu_1\) 的位移)。这给出处理如何将 \(\mu_0\) 中每个点搬到 \(\mu_1\) 中对应点。
- \(\lambda = Y_i(0)\) → 个体因果传输映射。
- 讲者强调:尽管两个定义侧重点不同(分位数差更直观,传输映射更基于最优传输),但统一于同一框架。注意:平均传输映射不等于个体传输映射的期望(因为参考分布不同),但通过该框架保持了平均效应与个体效应的关系(使用相同参考分布时成立)(幻灯片 p.22-23)。
[0:32:00–0:43:00] 数据应用与结果¶
- NHANES 数据:\(n=5524\)(已婚 2682 人,未婚 2842 人)。
- 标准分析:每个个体用平均强度作为结果,应用 DR 估计 → 婚姻使平均强度增加 21.7 cpm(95% CI [17.1, 26.3]),但丢失了全分布信息(幻灯片 p.26)。
- 本报告方法:估计 \(\hat{\mu}_1\) 和 \(\hat{\mu}_0\)(DR 估计),绘制分位数差曲线和传输映射(幻灯片 p.27-29)。
- 分位数差图(幻灯片 p.28a):例如中位数效应约 20 cpm;高位数(如 0.9)效应更大,约 60 cpm。这表明婚姻对高强度活动的影响更强。
- 因果传输映射(幻灯片 p.29):显示每个强度水平上的“位移”,例如 200 cpm 移动到 220 cpm, 400 到 430, 800 到 815 等。
[0:43:00–0:59:00] 讨论:量化处理效应 vs 分位数差¶
- 讲者澄清“分位数处理效应”(QTE,常用在 FDA 中,先汇总个体平均再取分位数)与“分位数差”(本文定义)的区别。
- QTE:先聚合个体内多个观测得到个体平均(或其它摘要),然后看这些个体平均的分布的分位数。这衡量的是极端个体(如受婚影响最剧烈的个体)。
- 分位数差:先保留个体内的分布,取重心,再看重心分布的分位数差。这衡量的是平均个体的分布极端值(如平均个体的高强度活动受婚变化)。
- 应用场景:气候变暖使夏天更热、冬天更冷,但年均温变化不大——分位数差能捕捉这种极端分布的变化,而均值不可见(幻灯片 p.31-32 / 讨论部分)。
QA 与讨论者(Hongtu Zhu)评论摘录([0:44:00–1:03:00])¶
- 讨论者提出四点:
- 为什么用 \(W_2\) 而不是更一般的 \(W_p\)?讲者回应:\(W_2\) 可使重心在两点样本时回归算术平均(幻灯片 p.14 的论点),\(W_p\) 则不然;但若多于两个点,只有 \(W_2\) 重心与样本均值对应这一性质成立。
- 为什么不将密度函数变换到线性空间(如 log-hazard)后再做因果推断?讲者强调:解释性不同。在原始分布尺度上定义的因果效应(如分位数差)直观,而变换后的因果效应难以直译。
- 扩展到多维分布的挑战:1D 下分位数与最优传输的简单关系在高维不成立,分位数无良好定义;最优传输映射仍然存在但无法直接解释为分位数差。
- 数据处理细节:为什么截断到 1-1000 cpm?讲者解释:0 cpm 可能因设备防水问题被取下(游泳/淋浴),数据含义模糊;1000 以上的值很少,用经验 CDF 估计尾部,未做极值理论建模,待改进。
- QA 进一步问题(主持人 Georgia 和 Jingshu 等):
- 渐近性质是点态还是过程?讲者回答:过程收敛(Donsker-type)。
- 双重稳健性需要模型在分位数层面逐个正确,还是整体正确?讲者回答:若只关心某一分位数,只需该分位数模型正确;这等同于将个体分布始终于该分位数作为标量结果再套用标准 DR。
- 是否存在半参有效界?讲者承认目前还没有推导,因为函数空间下的半参效率理论需要扩展。这是开放问题。
四、对应论文与开放问题¶
对应论文¶
- Lin, Z., Kong, D., & Wang, L. (2021+). Causal Inference on Distribution Functions. arXiv:2101.01599. [注意:在转写中讲者提及“John Holling from NUS”,但权威资料(幻灯片、论文摘要)显示合作者为 Zhenhua Lin 和 Dehan Kong。归纳推断:ASR 将 “Zhenhua” 误听为 “John”,并将 “Lin” 与 “Kong” 混淆。论文状态尚无发表期刊信息,标注为 2021+,请根据最新版本核实。]
开放问题(每条扎根于报告中的特定时间点或讨论)¶
- 半参有效界:如何在一维分布函数空间上定义半参效率界?报告没有给出,讲者表示“需要扩展整个框架到函数空间才能证明这一点”[1:02:30–1:02:40]。
- 尾部估计改进:报告采用经验 CDF 估计每个个体的分布,但在尾部表现不佳(截断到 1-1000)。如何整合极端值理论或可参数化尾部,使得分位数差的估计在极端分位数上更可靠?[0:57:00–0:58:00 讲者回应 Hongtu Zhu 的第四个问题]。
- 高维多变量结果:如何将本框架扩展到多维分布结果?1D 下均匀参考分布对应分位数差,但高维下分位数无清晰对应,且期望通过最优传输映射仍可定义,但缺乏直观解释。这成为瓶颈[0:56:00–0:57:00 讲者回应]。
- 协变量为复杂对象:本报告只处理了结果分布,但若处理变量本身也是分布值(或函数值),如何扩展?当前讨论未涉及。
- 局部缩短效应 vs 分位数差的进一步区分:报告在结尾对比了“分位数处理效应”(QTE on averages)与“平均分位数差”,但未提供将两者嵌套在统一估计框架下的理论。例如,能否同时估计两个目标并给出识别条件?[0:39:00–0:41:00]
- 群体因果传输映射的推断:当参考分布选择为 \(\mu_0\) 时,因果传输映射作为函数,其估计的不确定性量化(置信带)以及检验“是否为恒等映射”的方法尚未详细给出(仅展示了点估计和置信区间,但转写与幻灯片未显示对函数的推断细节)。
备注:所有时间点标注基于 ASR 转录,可能有几秒偏差。报告对应的完整论文 arXiv:2101.01599 应作为核查权威公式与引用的首选。
Maintained by 陈星宇 · Homepage · Source on GitHub