跳转至

Hierarchical Clustering As a Novel Solution to the Notorious Multicollinearity Problem in Observational Causal Inference

作者: Yufei Wu, Zhiying Gu, Alex Deng, Jacob Zhu, Linsha Chen
主题: 因果推断
相关性: 6/10
链接: https://arxiv.org/abs/2606.30992


一、领域脉络与小综述

这个方向是什么

本文所处理的根本问题是:在观测性因果推断的回归框架下,当多个协变量高度相关(多重共线性)时,如何单独识别每个协变量对结果变量的因果效应。多重共线性本身是一个经典的统计估计问题,但本文聚焦于其对因果识别的损害——它使得回归系数估计的方差膨胀,甚至导致符号翻转,从而无法为商业决策提供可信的归因。当前该子方向的成熟度较低:虽然多重共线性的处理技术(如岭回归、主成分回归)已很成熟,但这些方法在因果推断语境下有一个根本缺陷——它们会改变变量的解释性,无法给出原始协变量的因果效应。本文试图填补的正是这个“预测优化 vs. 因果解释”之间的缺口。

发展脉络(history)

  • 奠基工作:多重共线性问题的经典处理。Daoud (2017) [1] 系统总结了多重共线性的成因、后果(标准误膨胀、系数不稳定)以及传统诊断方法(VIF)。Hoerl & Kennard (1970) [8] 提出的岭回归(ridge regression)是收缩估计的代表,通过引入L2惩罚来稳定估计,但代价是引入偏差且系数不再对应原始变量。Härdle et al. (2000) [7] 的偏线性模型(partially linear model)则通过将部分变量非参数化来缓解共线性,但同样不保留原始线性解释。
  • 主要进展:营销混合模型(MMM)中的因果归因。Jin et al. (2017) [10] 提出了带 carryover 和 shape 效应的贝叶斯 MMM,成为工业界标准框架。Ng et al. (2021) [6] 引入时变系数模型来处理参数异质性。Chen et al. (2021) [5] 提出了带符号约束的层次 MMM,以注入业务先验。这些工作都在模型结构上做文章,但都没有直接处理协变量间的多重共线性——它们假设数据已经足够好,或者依赖先验来压制不合理的系数。
  • 当前 frontier:利用数据结构的异质性来缓解共线性。本文是这一思路的代表:不是去修改估计器,而是重新组织数据——利用地理单元(DMA)之间广告支出相关模式的差异,通过层次聚类将高相关单元聚合,从而在聚合后的数据上降低共线性。这与传统方法(如主成分回归)的根本区别在于:它保留了原始变量的含义(仍然是“渠道A的曝光量”),只是改变了观测单元。
  • 本文的位置:本文将自己定位为“填补了现有方法无法保留因果解释性这一缺口”的解决方案。它声称其方法“不依赖特定的估计器,可推广至其他存在多重共线性的因果问题”。

子线索聚类

这些被引文献大致落在三条子线索上: 1. 多重共线性的统计处理(Daoud 2017, Hoerl & Kennard 1970, Härdle et al. 2000):关注估计的稳定性与预测精度,但不关心因果解释。 2. 营销混合模型(MMM)的建模与归因(Jin et al. 2017, Ng et al. 2021, Chen et al. 2021, Berman 2018, Du et al. 2019):关注如何用贝叶斯或机器学习模型来归因广告效果,但默认数据质量足够好,或依赖先验来压制共线性导致的异常系数。 3. 聚类算法在数据预处理中的应用(Murtagh & Contreras 2012, Reddy & Vinzamuri 2018):提供技术工具,但不针对因果推断中的共线性问题

这个方向在追问的核心问题

  1. 如何在不牺牲因果解释性的前提下缓解多重共线性? 现有方法(岭回归、PCR)能改善预测,但系数不再对应原始变量,无法用于归因。
  2. 如何利用数据中已有的结构异质性(如地理单元间的相关模式差异)来设计数据聚合策略? 这是本文的核心创新点。
  3. 聚合后的数据对应的 estimand 是什么? 当我们将多个地理单元聚为一类后,估计的系数是否仍然对应“每个渠道对销售的因果效应”?还是变成了某种加权平均效应?本文没有严格讨论这个问题。
  4. 聚类聚合对估计的偏差-方差权衡有何影响? 聚合降低了方差(通过减少共线性),但可能引入聚合偏差(不同单元的真实效应不同)。本文没有量化这一权衡。

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者声称“现有方法(收缩估计、主成分回归、偏线性模型)虽然能改善预测,但无法提供原始因果关系”,因此本文的层次聚类方法成为“显然的下一步”——因为它保留了变量的原始含义,只是改变了观测单元。
  • 哪些竞争路线被他淡化或回避了
    • 工具变量法(IV):如果存在有效的工具变量,可以解决由共线性(本质上是内生性的一种表现)导致的识别问题。作者完全没有提及 IV 作为替代方案。
    • 双重机器学习(DML):DML 通过 Neyman 正交性和交叉拟合,可以在高维协变量下实现因果效应的半参数有效估计,对共线性有一定鲁棒性。作者没有讨论 DML 是否适用于此场景。
    • 贝叶斯先验:作者自己使用了贝叶斯 MMM,但声称“即使使用无信息先验”也能得到合理结果。他没有讨论信息先验(如 sign constraints, Chen et al. 2021)是否足以单独解决共线性问题,从而不需要数据聚合。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?
    • 关于“聚合偏差”的文献:当将不同单元聚合时,估计的效应是各单元效应的加权平均,其权重取决于聚合方式。这与“ecological inference”或“aggregation bias”文献(如 Robinson 1950 的生态学谬误)直接相关。本文完全没有引用或讨论这一风险。
    • 关于“面板数据中利用截面异质性进行识别”的文献:例如,利用“差中差”(difference-in-differences)或“事件研究”(event study)设计,通过比较不同单元的时间序列差异来识别因果效应。这些方法也利用了地理单元的异质性,但本文没有与之对比。
    • 关于“聚类对估计效率的影响”的文献:聚类会改变有效样本量(从 G 个 DMA 变为 C 个 cluster),这会影响标准误的估计。本文没有讨论聚类后的标准误是否需要调整(如 cluster-robust standard errors)。

张力

未见明显对立引用。所有被引工作基本是互补的:有的处理共线性但不保留解释性,有的做 MMM 但不处理共线性,有的提供聚类工具但不针对因果问题。本文是第一个试图将这些线索缝合起来的尝试。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \( g = 1, \dots, G \):地理单元(DMA)的索引。\( G \) 是总 DMA 数。
    • \( t = 1, \dots, T \):时间(周)的索引。\( T \) 是总周数。
    • \( k = 1, \dots, K \):营销渠道的索引。\( K \) 是总渠道数。
    • \( y_{g,t} \)可观测的结果变量,如第 \( g \) 个 DMA 在第 \( t \) 周的销售额(或对数销售额)。
    • \( x_{k,g,t} \)可观测的协变量,第 \( k \) 个渠道在第 \( g \) 个 DMA 第 \( t \) 周的曝光量(impressions)。
    • \( Z_{g,t} \)可观测的额外协变量(如 Google 搜索量指数),用于控制混杂因素。
    • \( \beta_k \)待估参数,第 \( k \) 个渠道对销售的因果效应(本文的核心 estimand)。
    • \( \mu_t, \text{seasonality}_t, \alpha \)待估的趋势、季节性和其他协变量的参数。
    • \( \text{AdStock}(x_{k,g,t}) \)变换后的协变量,通过一个参数化函数(包含 carryover rate \( \tau_k \)、lag peak \( \theta_k \)、diminishing return \( \rho_k \))将原始曝光量转换为“有效广告存量”。
    • \( \epsilon_{g,t} \)不可观测的误差项。
    • \( C \):聚类后的簇(cluster)数。\( c = 1, \dots, C \) 是簇的索引。
    • \( \text{Distance}_{ij} \):DMA \( i \)\( j \) 之间的距离,用于层次聚类。
  • 模型:本文使用的模型是一个贝叶斯结构时间序列模型(Bayesian structural time series model),具体形式为:

    \[y_{g,t} = \mu_t + \text{seasonality}_t + \alpha Z_{g,t} + \sum_{k=1}^K \beta_k \text{AdStock}(x_{k,g,t}) + \epsilon_{g,t}\]
    其中 \( \text{AdStock} \) 函数是一个参数化的非线性变换,用于捕捉广告效果的滞后、衰减和饱和效应。模型假设:在控制了趋势、季节性和混杂因素 \( Z \) 后,\( \beta_k \) 反映了渠道 \( k \) 对销售的因果效应(即,如果 \( x_k \) 增加一个单位,\( y \) 的期望变化)。

  • 可观测数据:研究者实际能观测到的是一个面板数据集\( \{y_{g,t}, x_{1,g,t}, \dots, x_{K,g,t}, Z_{g,t}\}_{g=1,\dots,G, t=1,\dots,T} \)。这是一个 \( G \times T \) 的观测矩阵,每个单元有 \( K+2 \) 个变量(结果 + K 个渠道 + 1 个混杂控制)。

  • 想要但观测不到的量
    • 潜在结果:对于每个 DMA 和时间点,我们只能观测到在实际广告投放水平下的结果,无法观测到如果改变某个渠道的投放水平(反事实)会发生什么。
    • 真实的因果效应\( \beta_k \) 是模型参数,其因果解释依赖于无未观测混杂正确模型设定等强假设。本文没有讨论这些识别假设是否成立。
    • AdStock 函数的真实参数\( \tau_k, \theta_k, \rho_k \) 是模型参数,其估计依赖于贝叶斯先验和似然。

第二步:讲最小内核

本文的核心思路可以提炼为一个最简特例:假设我们只有两个营销渠道\( K=2 \))和两个地理单元\( G=2 \)),且忽略 AdStock 变换、趋势和季节性的影响。那么模型退化为一个简单的线性回归:

\[y_{g,t} = \beta_1 x_{1,g,t} + \beta_2 x_{2,g,t} + \epsilon_{g,t}\]
其中 \( g=1,2 \)\( t=1,\dots,T \)

问题:如果两个渠道的曝光量在所有时间点上都高度相关(例如,\( \text{Corr}(x_{1,g,\cdot}, x_{2,g,\cdot}) \approx 0.9 \)),那么从单个 DMA 的数据中,我们几乎无法区分 \( \beta_1 \)\( \beta_2 \)——OLS 估计的方差会非常大,甚至出现符号翻转。

本文的关键想法:虽然两个渠道在每个 DMA 内部都高度相关,但不同 DMA 之间的相关模式可能不同。例如: - 在 DMA 1 中,\( x_1 \)\( x_2 \) 的相关系数为 0.9。 - 在 DMA 2 中,\( x_1 \)\( x_2 \) 的相关系数为 0.3。

最小内核操作:本文的层次聚类方法,在这个特例下,就是将 DMA 1 和 DMA 2 聚为一类(因为它们的相关模式相似?不,这里的关键是:将相关模式相似的 DMA 聚在一起,使得聚类后的数据中,两个渠道的相关性降低)。更准确地说,本文的距离度量 \( \text{Distance}_{12} = \sqrt{ (1 - \text{Corr}(x_{1,1,\cdot}, x_{1,2,\cdot}))^2 + (1 - \text{Corr}(x_{2,1,\cdot}, x_{2,2,\cdot}))^2 } \) 衡量的是两个 DMA 在每个渠道上的时间序列相关性。如果 DMA 1 和 DMA 2 在渠道 1 上的时间序列高度相关(\( \text{Corr} \approx 0.9 \)),但在渠道 2 上不相关(\( \text{Corr} \approx 0 \)),那么它们的距离会较小,从而被聚为一类。

为什么这能缓解共线性? 聚类后,我们不再有 \( G=2 \) 个观测单元,而是有 \( C=1 \) 个簇。簇级数据是 DMA 1 和 DMA 2 数据的聚合(例如,取平均)。关键在于:聚合后的数据中,两个渠道的相关性可能低于它们在单个 DMA 内部的相关性。这是因为聚合引入了跨单元的变异:如果 DMA 1 的 \( x_1 \) 高而 \( x_2 \) 低,DMA 2 的 \( x_1 \) 低而 \( x_2 \) 高,那么聚合后,\( x_1 \)\( x_2 \) 的时间序列可能呈现负相关或低相关,从而打破了原有的共线性结构。

这个特例揭示的核心数学困难:如何设计一个距离度量,使得聚类后的数据中,协变量之间的相关性系统性降低,同时保留足够的变异来识别每个协变量的独立效应?本文给出的答案是:基于跨渠道、跨单元的相关模式来定义距离,而不是基于协变量本身的取值。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在观测性因果推断中,当多个协变量高度相关(多重共线性)时,如何在不牺牲变量解释性的前提下,通过数据聚合来缓解共线性,从而分离每个协变量的因果效应。
  2. 核心工具/方法:提出一种基于层次聚类的数据聚合方法,其关键在于定义了一个基于跨渠道相关模式的距离度量,将具有相似相关模式的地理单元聚为一类,从而在聚合后的数据上降低协变量间的相关性。
  3. 主要结论:通过描述性证据(相关性降低 8%-43%)和回归分析(系数符号翻转问题消失,得到直观结果),证明该方法能有效缓解共线性,并有助于在贝叶斯营销混合模型中分离不同广告渠道的因果效应。

关键设定与假设

  • 设定:面板数据,\( G \) 个地理单元(DMA),\( T \) 个时间点(周),\( K \) 个营销渠道。结果变量为销售额 \( y_{g,t} \),协变量为各渠道曝光量 \( x_{k,g,t} \)
  • 模型:贝叶斯结构时间序列模型(公式见第二节),包含趋势、季节性、混杂控制 \( Z_{g,t} \)、以及带 carryover 和 shape 效应的 AdStock 变换。
  • 核心假设(未明确陈述,但隐含在方法中)
    1. 无未观测混杂:在控制了趋势、季节性和 \( Z_{g,t} \) 后,\( x_{k,g,t} \)\( \epsilon_{g,t} \) 不相关。这是所有回归类因果推断方法的共同假设。
    2. 效应同质性:不同 DMA 中,同一渠道的因果效应 \( \beta_k \) 是相同的。这是本文方法能够“聚合”数据的前提——如果效应在不同 DMA 中不同,聚合后的估计将是一个有偏的加权平均。
    3. 相关模式异质性:不同 DMA 之间,各渠道曝光量的跨渠道相关模式存在差异。这是本文方法有效的前提——如果所有 DMA 的相关模式都相同,聚类将无法降低共线性。
    4. AdStock 函数形式正确:模型假设 carryover 和 shape 效应遵循一个特定的参数化形式(高斯型衰减 + 幂函数饱和)。如果真实机制不同,模型可能设定错误。
  • 相比已有文献的强化/放宽
    • 强化:相比岭回归或 PCR,本文保留了变量的原始含义(仍然是“渠道A的曝光量”),这是对因果解释性的强化。
    • 放宽:相比传统的“所有单元独立同分布”假设,本文允许不同单元之间存在相关性,并利用这种相关性来设计聚合策略。这是对数据结构的更灵活处理。

主要结果

  • 描述性证据(Section 5.2, Figure 5):聚类后,各渠道之间的交叉相关性普遍降低,降低幅度在 8% 到 43% 之间。同时,聚类保留了变异:簇内时间序列变异和簇间截面变异都得以保持(Figure 6)。
  • 面板线性回归结果(Section 5.3, Table 1):
    • DMA 级数据:当所有渠道同时纳入回归时,大部分系数为负(如 channel_b: -0.055, channel_e: -0.011),这与业务直觉(广告应促进销售)相悖,是共线性的典型表现。
    • 簇级数据:系数符号翻转,变得直观。四个低漏斗渠道(lower-funnel)的系数均为正,且三个在 0.001 水平显著(channel_a: 5.041, channel_b: 0.128, channel_c: 0.043*)。高漏斗渠道(channel_e)的系数仍为负(-0.023),但作者解释为“高漏斗渠道对低漏斗转化的影响极难检测”。
    • 加权回归:按簇的基线规模加权后,结果稳健(Table 1, Column 3)。
  • 贝叶斯模型结果(Section 5.4, Figure 7):使用簇级数据,即使采用无信息先验,贝叶斯 MMM 也产生了直观的后验分布:渠道 A 和 B 的效应参数 \( \beta \) 明显高于其他渠道;carryover 参数 \( \tau \) 的估计也与业务知识一致(如渠道 A 和 B 无 carryover,渠道 C、D、E 有 carryover)。

证明路线与技术技巧

本文是应用/方法型论文,没有严格的数学证明。其“证明”路线是实证验证: 1. 问题诊断:通过相关性热图(Figure 1)和分 ventile 的相关性对比(Figure 2),展示 DMA 级数据中存在严重的跨渠道共线性,且不同 DMA 的相关模式不同。 2. 方法设计:定义基于相关性的距离度量,采用 complete-linkage 层次聚类,选择 cutoff distance = 1.5(对应平均相关系数 ≥ 0.33),得到 42 个簇。 3. 验证步骤 1:描述性证据:展示聚类后交叉相关性降低(Figure 5),并展示变异被保留(Figure 6)。 4. 验证步骤 2:回归分析:用面板线性回归(DMA 级 vs. 簇级)对比系数符号和显著性,证明聚类解决了符号翻转问题。 5. 验证步骤 3:贝叶斯模型:在簇级数据上运行完整的贝叶斯 MMM,展示后验分布与业务直觉一致。

技术技巧点名: - 层次聚类(complete-linkage):用于将 DMA 分组,使得组内 DMA 的跨渠道相关模式相似。 - 基于相关性的距离度量:核心创新点。距离定义为 \( \sqrt{\sum_k (1 - \text{Corr}(X_{ik}, X_{jk}))^2} \),其中 \( X_{ik} \) 是去趋势、去季节化后的残差。这个距离直接针对“共线性”问题设计。 - 数据预处理(标准化 + 去趋势):在计算距离前,先对数据进行标准化(消除规模差异)和去趋势(消除共同的时间趋势),使得距离只反映“相关模式”的差异,而不是规模或趋势的差异。 - 贝叶斯结构时间序列模型:用于最终的因果效应估计,包含 AdStock 变换、趋势、季节性和混杂控制。

真实例子与应用

  • 数据:Airbnb 的营销数据,包含多个 DMA(地理单元)在多个周内的销售额和五个匿名渠道(A、B、C、D、E)的广告曝光量。数据经过匿名化和索引化处理。
  • 如何应用
    1. 对每个 DMA 的每个渠道的曝光量进行标准化和去趋势(消除共同趋势和季节性)。
    2. 计算每对 DMA 之间的“跨渠道相关模式距离”。
    3. 使用 complete-linkage 层次聚类,以 cutoff distance = 1.5 将 DMA 聚为 42 个簇。
    4. 将簇级数据(每个簇的聚合值)用于面板线性回归和贝叶斯 MMM。
  • 结果:见“主要结果”部分。核心发现是:聚类后,系数符号从“大部分为负”变为“大部分为正且直观”,贝叶斯模型的后验分布也与业务知识一致。
  • 这个例子想说明什么:验证本文方法在真实工业数据上的有效性,证明它能够解决实际业务中因共线性导致的“系数符号翻转”问题,从而为营销归因提供可信的因果估计。

🔎 结论是否比证明窄

  • 是的,结论比证明窄。作者在摘要和结论中声称该方法“可推广至其他存在多重共线性的因果问题”,但论文中只在一个特定的营销场景(Airbnb MMM)上进行了验证。该场景具有以下特殊性质:
    • 数据是面板数据,有明确的地理单元(DMA)和时间维度。
    • 共线性来源于跨渠道的相关性,且不同地理单元的相关模式存在异质性
    • 存在一个自然的聚合维度(地理单元)。 作者在 Section 6 中讨论了其他应用(如客户服务中的交互指标),但没有提供任何实证证据。因此,该方法的通用性(generalizability)是被声称但未被证明的。例如,如果数据没有地理维度(如只有时间序列),或者所有单元的共线性模式都相同,该方法可能完全无效。
  • 另一个窄化点:作者声称聚类“保留了变量的原始含义”,但没有讨论聚合后的 estimand 是什么。当将多个 DMA 聚为一类后,估计的 \( \beta_k \) 是否仍然对应“每个 DMA 中渠道 k 对销售的因果效应”?还是变成了“簇内各 DMA 效应的加权平均”?如果是后者,权重是什么?这涉及到聚合偏差(aggregation bias)的问题,本文完全没有讨论。

四、开放问题

  1. 聚合后的 estimand 是什么? 本文没有严格定义聚类后估计的 \( \beta_k \) 的因果解释。它是否对应一个定义良好的因果参数(如 ATE),还是某种加权平均效应?这个问题扎根于本文 Section 5.3 和 5.4 的回归结果——作者直接比较了 DMA 级和簇级回归的系数,但未讨论它们是否对应同一个 estimand。要确认这是否是真 gap,可以去读关于“ecological inference”和“aggregation bias”的文献(如 Robinson 1950, King 1997),看看是否有现成的框架可以分析这个问题。

  2. 如何量化聚类聚合带来的偏差-方差权衡? 聚类降低了方差(通过减少共线性),但可能引入聚合偏差(如果不同 DMA 的真实效应不同)。本文只展示了方差降低的证据(系数更稳定),但没有量化偏差。这个问题扎根于本文 Section 5.2 和 5.3——作者展示了相关性降低和系数符号翻转的消失,但未讨论估计量的 MSE 或偏差。要确认这是否是真 gap,可以设计一个模拟实验:在已知真实 \( \beta_k \) 的情况下,比较 DMA 级估计和簇级估计的偏差和方差。

  3. 如何选择最优的聚类粒度(cutoff distance)? 本文使用 cutoff distance = 1.5,但只做了简单的敏感性分析(未展示结果)。是否存在一个数据驱动的准则来平衡“降低共线性”和“保留变异”?这个问题扎根于本文 Section 4——作者提到“this algorithm offers a lot of flexibility in how aggressively we want to cluster”,但没有给出选择准则。要确认这是否是真 gap,可以查阅关于“聚类数选择”的文献(如 gap statistic, silhouette score),并思考如何将其与因果估计的 MSE 联系起来。

  4. 该方法在缺乏“自然聚合维度”(如地理单元)时是否仍然有效? 本文的方法依赖于存在一个维度(如地理单元),其不同“切片”具有不同的共线性模式。如果数据只有时间序列(一个单元),或者所有单元的共线性模式都相同,该方法将失效。这个问题扎根于本文 Section 6 的讨论——作者提到了其他应用场景,但未讨论方法的前提条件。要确认这是否是真 gap,可以思考:如果数据是单个时间序列,是否可以通过“时间窗口”的划分来创造类似的异质性?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论