Causal inference on distribution functions¶

讲者: Linbo Wang
讨论人: Hongtu Zhu
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-11-16
主题: 因果推断
视频: https://youtu.be/ol6dabNA7go · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2101.01599 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

本报告属于因果推断与非欧几里得数据的交叉方向，具体关注 “结果变量为分布函数（CDF）”时的因果效应定义、识别与估计。这个子方向回答一个核心追问：当每个观测单元提供的不是标量或向量，而是一个分布（如一条时间序列的累积分布、一幅图像的强度分布、一个宏基因组序列的组成分布）时，如何有意义地定义并估计从处理到这种“分布值结果”的因果效应？

奠基与主流路线：经典因果推断（Rubin Causal Model, Robins等人）将结果限制在欧几里得空间 \(\mathbb{R}^p\)，对分布值结果的处理通常是先降维成标量（如均值、分位数），再应用标准方法。这种做法的代价是丢失全分布信息，且无法捕捉对分布尾部的异质性因果效应。
当前前沿路线之一：利用最优传输理论（Optimal Transport）与 Wasserstein 空间的几何结构来处理分布值数据。这一路线已被应用到贝叶斯推断（Bigot et al., 2018）、非参数统计（Panaretos & Zemel, 2019）、图像分析（Peyré & Cuturi, 2019）等方向，但将其与因果推断中的潜在结果框架结合，尤其是发展可识别、可估计并具有良好统计性质的因果估计量，是本工作的直接贡献。
已知相关工作（报告提及或含暗示）：Robins, Rotnitzky & Zhao (1994) 的经典双重稳健估计；Panaretos & Zemel (2019) 等对 Wasserstein 空间的统计理论；以及功能性数据分析（FDA）中通过 log-hazard 等变换将密度映射到线性空间的做法（讨论者 Hongtu Zhu 提及）。本工作区别于 FDA 路线的关键点在于因果效应的可解释性：变换到线性空间后定义的因果效应在原始尺度上难以直译，而在 Wasserstein 框架下选择参考分布 \(\lambda\) 可以得到「分位数差」或「最优传输映射」这类直观解释。

本报告在这个方向上的位置： - 它给出了分布值结果（一维 CDF）因果效应的 形式化定义（通过 Wasserstein 重心与参考分布统一），保证了平均因果效应等于个体因果效应的均值（幻灯片 Theorem）。 - 它提出 双重稳健估计方法（在分位数函数上直接应用 DR 公式），并证明估计量的渐近正态性与双重稳健性（点态的一致性与分布函数上的过程收敛性）。 - 它用一个实际应用（婚姻对体力活动分布的影响）展示了该框架相比于均值摘要分析的信息增益。 - 对应于单篇 arXiv 论文（2101.01599），合作者为 Zhenhua Lin, Dehan Kong, Linbo Wang（讲者）。注意转写中“John Holling”可能是 ASR 误识别，权威材料（幻灯片、论文摘要）均显示 Lin & Kong 为合作者。讨论者 Hongtu Zhu（UNC）在 QA 部分给出专业点评。

二、最小内核 / 一个最简例子¶

符号与模型：

处理变量 \(A \in \{0,1\}\)（二值），基线协变量 \(X\)（向量）。
结果 \(Y\) 是一个随机分布函数（即每个单元对应一条累计分布函数 CDF，取值于 \([0,1]\)，定义在某个支撑集 \([L,U]\) 上，本报告例中取 \([1,1000]\) cpm）。
潜在结果框架：\(Y(0)\) 是单元在 \(A=0\) 下的潜在分布函数，\(Y(1)\) 是 \(A=1\) 下的（均为随机 CDF）。
可观测数据：\((X_i, A_i, Y_i)\)，其中 \(Y_i\) 是观测到的 CDF（来自该单元的多期纵向测量，例如 \(10080\) 分钟的体力活动记录）。
识别假设：无未测量混淆 \((Y(0), Y(1)) \perp\!\!\!\perp A \mid X\)，共同支撑 \(\forall x, \; 0 < P(A=1|X=x) < 1\)。

目标 estimand：平均因果效应（ACE），但此时 ACE 本身是一个函数（从 \([0,1]\) 映射到 \(\mathbb{R}\)，取决于参考分布 \(\lambda\)）。

最简特例（\(d=1\)，二值处理，两个点质量分布，无协变量）：

假设只有两个单元： - 单元1：\(Y_1(1) = \delta_1\)（点质量在 1），\(Y_1(0) = \delta_1\)（无处理效应）。 - 单元2：\(Y_2(1) = \delta_3\)，\(Y_2(0) = \delta_3\)。 - 观测到 \(A_1=1, A_2=0\)，因此 \(Y_1 = \delta_1\)，\(Y_2 = \delta_3\)（无混淆，忽略协变量）。

问题：如果沿用欧几里得平均（pointwise 平均 CDF），会得到新 CDF：在 \(t=1\) 处 \(0.5\)，在 \(t=3\) 处 \(1.0\)。这对应一个在 1 和 3 各占 50% 的随机变量——并不是我们期望的“平均值”（我们希望得到 \(\delta_2\)，点质量在 2，因为两个原始值的算术平均是 2）。

Wasserstein 重心解：定义重心 \(E^\circ Y\) 为最小化 \(\sum_i W^2_2(Y_i, \lambda)\) 的分布，其中 \(W_2\) 是平方 Wasserstein 距离（在 1D 下等于 \(\int_0^1 (F^{-1}(u)-G^{-1}(u))^2 du\)）。对于上述两点质量，重心正是 \(\delta_2\)——点质量在 2。因为将 \(\delta_1\) 移动到 \(\delta_2\) 的成本是 \((2-1)^2=1\)，将 \(\delta_3\) 移动到 \(\delta_2\) 成本也是 \(1\)，总和为 \(2\)；而移动到其他分布（如 \(\delta_{1.5}\)）成本更高。

因果效应的定义： - 平均潜在结果的重心：\(\mu_1 = E^\circ Y(1)\), \(\mu_0 = E^\circ Y(0)\)。 - 对比方式：采用分位数差（差分累积分布并不直观且不满足个体平均）。定义平均因果效应函数：

\[\text{ACE}(\cdot) = \mu_1^{-1}(\cdot) - \mu_0^{-1}(\cdot), \quad \text{从 } [0,1] \to \mathbb{R}.\]

个体因果效应函数：\(\text{CE}_i(\cdot) = Y_i(1)^{-1}(\cdot) - Y_i(0)^{-1}(\cdot)\)。 - 关键性质（幻灯片 Theorem）：\(\text{ACE}(\cdot) = \mathbb{E}[\text{CE}_i(\cdot)]\)，即平均因果效应等于个体因果效应的平均（函数逐点成立）。这使得 ACE 在个体水平上有直接解释：例如 ACE(0.5) 是处理对中位数的平均效应。

估计（以双重稳健为例）：在分位数函数上直接套用标准 DR 公式（Robins 等人 1994）。对于给定的分位数水平 \(u\)，令 \(Q_i(u) = Y_i^{-1}(u)\)（即第 \(u\) 分位数的观测值）。然后：

\[\hat{\mu}_1^{-1}(u) = \frac{1}{n}\sum_{i=1}^n \left[ \frac{I(A_i=1) Q_i(u)}{\hat{P}(A=1|X_i)} - \left( \frac{I(A_i=1)}{\hat{P}(A=1|X_i)}-1 \right) \hat{\mathbb{E}}[Q(u)|A=1, X_i] \right].\]

类似可得 \(\hat{\mu}_0^{-1}(u)\)。当倾向评分模型 \(\hat{P}(A=1|X)\) 或结果回归模型 \(\hat{\mathbb{E}}[Q(u)|A,X]\) 中至少一个正确时，\(\hat{\text{ACE}}(u) = \hat{\mu}_1^{-1}(u) - \hat{\mu}_0^{-1}(u)\) 是 \(\text{ACE}(u)\) 的一致估计；而且作为 \(u\) 的随机过程，收敛到高斯过程。

三、报告主体：讲者讲了什么¶

以下按照报告的时间线（基于 ASR 转录时间戳与幻灯片页码）整理核心论点与例证。

[0:00:00–0:06:00] 引言与动机¶

讲者指出经典因果推断几乎只关注 \(\mathbb{R}^p\) 值结果，但现代数据（图像、宏基因组、可穿戴设备时间序列）最好被概括为分布函数。
以 NHANES 2005-2006 的 Actigraph 7164 数据为例展示：每个参与者佩戴设备 7 天（10080 分钟），记录每分钟体力活动强度（cpm）。不同人的昼夜节律不同，而分布函数可以抹去节律差异，聚焦于强度的整体分布（幻灯片 p.5-6）。
研究问题：婚姻对体力活动分布是否有因果效应？控制协变量年龄和性别。

[0:06:00–0:08:00] 潜在结果框架与定义挑战¶

引入潜在结果 \(Y(a)\)。定义平均因果效应需要两步：求均值、然后对比。
指出若直接点态欧几里得平均分布函数，会丢失结构：例如两点质量 \(\delta_1,\delta_3\) 的欧几里得平均是 0.5 在 1 和 0.5 在 3，而不是 \(\delta_2\)（幻灯片 p.10-12）。使用图像数字“6”的例子展示欧几里得平均也会模糊形状（幻灯片 p.12）。

[0:08:00–0:14:00] 最优传输与 Wasserstein 重心¶

引入 Wasserstein 距离 \(W_2\)：移动一个分布到另一个的最小二次成本（1D 下等价于分位数函数的 \(L^2\) 距离）。
定义 Wasserstein 重心（Fréchet 均值）：\(\mu = \arg\min_\lambda \sum_i W_2^2(Y_i, \lambda)\)。
重新计算两点质量例子：重心为 \(\delta_2\)，成本 \(2\)，而 \(\delta_{1.5}\) 成本更高。所以 Wasserstein 重心比欧几里得平均更“自然”（幻灯片 p.14）。
注意：Wasserstein 重心在1D下可以显式计算，但在高维不再有简单解析形式，且不再有分位数解释（讨论者 Hongtu Zhu 提问）。

[0:14:00–0:18:00] 定义平均因果效应¶

令 \(\mu_1 = E^\circ Y(1)\), \(\mu_0 = E^\circ Y(0)\)。
两种对比方式：
直接差分 CDF：\(\Delta = \mu_1 - \mu_0\)（函数差）。问题：不可解释（差不再是分布），且 \(\Delta \neq E[\Delta_i]\)（幻灯片 p.17）。
分位数差：\(\text{ACE}(u) = \mu_1^{-1}(u) - \mu_0^{-1}(u)\)，其中 \(u\in[0,1]\) 为分位数水平。个体效应类似。定理：\(\text{ACE}(u) = \mathbb{E}[Y_i(1)^{-1}(u) - Y_i(0)^{-1}(u)]\)（幻灯片 p.18）。这使得 ACE 可以在个体水平上解释，例如 ACE(0.5) 是中位数平均处理效应。

[0:18:00–0:24:00] 估计方法：双重稳健¶

在分位数尺度上直接应用经典的三种估计量：outcome regression (G-computation)、IPW、双重稳健（DR）。
关键洞察：不要在 CDF 尺度上做 G-computation（因为 \(\mu_a(t) \neq \mathbb{E}[\mathbb{E}[Y(t)|A=a,X]]\)），而是在分位数函数 \(Q_i(u)=Y_i^{-1}(u)\) 上做。然后 \(\hat{\mu}_a^{-1}(u)\) 可以通过公式直接获得（幻灯片 p.19）。
报告的估计结果是“过程”收敛到高斯过程（而非仅点态）。该估计量保持双重稳健性质：只要倾向评分或结果回归中一个正确，一致且渐近正态（QA 时确认）。

[0:24:00–0:32:00] 统一框架：参考分布与最优传输映射¶

定义平均因果效应映射：
\[\Delta_\lambda(\cdot) = (\mu_1^{-1} - \mu_0^{-1}) \circ \lambda(\cdot),\]
其中 \(\lambda\) 是任意连续参考分布。
特殊选择：
\(\lambda = \text{Unif}(0,1)\) → 分位数差（如前述）。
\(\lambda = \mu_0\) → 因果传输映射：\(\Delta_{\mu_0}(x) = \mu_1^{-1}(\mu_0(x)) - x\)，即最优传输映射（从 \(\mu_0\) 到 \(\mu_1\) 的位移）。这给出处理如何将 \(\mu_0\) 中每个点搬到 \(\mu_1\) 中对应点。
\(\lambda = Y_i(0)\) → 个体因果传输映射。
讲者强调：尽管两个定义侧重点不同（分位数差更直观，传输映射更基于最优传输），但统一于同一框架。注意：平均传输映射不等于个体传输映射的期望（因为参考分布不同），但通过该框架保持了平均效应与个体效应的关系（使用相同参考分布时成立）（幻灯片 p.22-23）。

[0:32:00–0:43:00] 数据应用与结果¶

NHANES 数据：\(n=5524\)（已婚 2682 人，未婚 2842 人）。
标准分析：每个个体用平均强度作为结果，应用 DR 估计 → 婚姻使平均强度增加 21.7 cpm（95% CI [17.1, 26.3]），但丢失了全分布信息（幻灯片 p.26）。
本报告方法：估计 \(\hat{\mu}_1\) 和 \(\hat{\mu}_0\)（DR 估计），绘制分位数差曲线和传输映射（幻灯片 p.27-29）。
分位数差图（幻灯片 p.28a）：例如中位数效应约 20 cpm；高位数（如 0.9）效应更大，约 60 cpm。这表明婚姻对高强度活动的影响更强。
因果传输映射（幻灯片 p.29）：显示每个强度水平上的“位移”，例如 200 cpm 移动到 220 cpm, 400 到 430, 800 到 815 等。

[0:43:00–0:59:00] 讨论：量化处理效应 vs 分位数差¶

讲者澄清“分位数处理效应”（QTE，常用在 FDA 中，先汇总个体平均再取分位数）与“分位数差”（本文定义）的区别。
QTE：先聚合个体内多个观测得到个体平均（或其它摘要），然后看这些个体平均的分布的分位数。这衡量的是极端个体（如受婚影响最剧烈的个体）。
分位数差：先保留个体内的分布，取重心，再看重心分布的分位数差。这衡量的是平均个体的分布极端值（如平均个体的高强度活动受婚变化）。
应用场景：气候变暖使夏天更热、冬天更冷，但年均温变化不大——分位数差能捕捉这种极端分布的变化，而均值不可见（幻灯片 p.31-32 / 讨论部分）。

QA 与讨论者（Hongtu Zhu）评论摘录（[0:44:00–1:03:00]）¶

讨论者提出四点：
为什么用 \(W_2\) 而不是更一般的 \(W_p\)？讲者回应：\(W_2\) 可使重心在两点样本时回归算术平均（幻灯片 p.14 的论点），\(W_p\) 则不然；但若多于两个点，只有 \(W_2\) 重心与样本均值对应这一性质成立。
为什么不将密度函数变换到线性空间（如 log-hazard）后再做因果推断？讲者强调：解释性不同。在原始分布尺度上定义的因果效应（如分位数差）直观，而变换后的因果效应难以直译。
扩展到多维分布的挑战：1D 下分位数与最优传输的简单关系在高维不成立，分位数无良好定义；最优传输映射仍然存在但无法直接解释为分位数差。
数据处理细节：为什么截断到 1-1000 cpm？讲者解释：0 cpm 可能因设备防水问题被取下（游泳/淋浴），数据含义模糊；1000 以上的值很少，用经验 CDF 估计尾部，未做极值理论建模，待改进。
QA 进一步问题（主持人 Georgia 和 Jingshu 等）：
渐近性质是点态还是过程？讲者回答：过程收敛（Donsker-type）。
双重稳健性需要模型在分位数层面逐个正确，还是整体正确？讲者回答：若只关心某一分位数，只需该分位数模型正确；这等同于将个体分布始终于该分位数作为标量结果再套用标准 DR。
是否存在半参有效界？讲者承认目前还没有推导，因为函数空间下的半参效率理论需要扩展。这是开放问题。

四、对应论文与开放问题¶

对应论文¶

Lin, Z., Kong, D., & Wang, L. (2021+). Causal Inference on Distribution Functions. arXiv:2101.01599. [注意：在转写中讲者提及“John Holling from NUS”，但权威资料（幻灯片、论文摘要）显示合作者为 Zhenhua Lin 和 Dehan Kong。归纳推断：ASR 将 “Zhenhua” 误听为 “John”，并将 “Lin” 与 “Kong” 混淆。论文状态尚无发表期刊信息，标注为 2021+，请根据最新版本核实。]

开放问题（每条扎根于报告中的特定时间点或讨论）¶

半参有效界：如何在一维分布函数空间上定义半参效率界？报告没有给出，讲者表示“需要扩展整个框架到函数空间才能证明这一点”[1:02:30–1:02:40]。
尾部估计改进：报告采用经验 CDF 估计每个个体的分布，但在尾部表现不佳（截断到 1-1000）。如何整合极端值理论或可参数化尾部，使得分位数差的估计在极端分位数上更可靠？[0:57:00–0:58:00 讲者回应 Hongtu Zhu 的第四个问题]。
高维多变量结果：如何将本框架扩展到多维分布结果？1D 下均匀参考分布对应分位数差，但高维下分位数无清晰对应，且期望通过最优传输映射仍可定义，但缺乏直观解释。这成为瓶颈[0:56:00–0:57:00 讲者回应]。
协变量为复杂对象：本报告只处理了结果分布，但若处理变量本身也是分布值（或函数值），如何扩展？当前讨论未涉及。
局部缩短效应 vs 分位数差的进一步区分：报告在结尾对比了“分位数处理效应”（QTE on averages）与“平均分位数差”，但未提供将两者嵌套在统一估计框架下的理论。例如，能否同时估计两个目标并给出识别条件？[0:39:00–0:41:00]
群体因果传输映射的推断：当参考分布选择为 \(\mu_0\) 时，因果传输映射作为函数，其估计的不确定性量化（置信带）以及检验“是否为恒等映射”的方法尚未详细给出（仅展示了点估计和置信区间，但转写与幻灯片未显示对函数的推断细节）。

备注：所有时间点标注基于 ASR 转录，可能有几秒偏差。报告对应的完整论文 arXiv:2101.01599 应作为核查权威公式与引用的首选。

Maintained by 陈星宇 · Homepage · Source on GitHub