Hierarchical Clustering As a Novel Solution to the Notorious Multicollinearity Problem in Observational Causal Inference¶

作者: Yufei Wu, Zhiying Gu, Alex Deng, Jacob Zhu, Linsha Chen
主题: 因果推断
相关性: 6/10
链接: https://arxiv.org/abs/2606.30992

一、领域脉络与小综述¶

这个方向是什么¶

本文所处理的根本问题是：在观测性因果推断的回归框架下，当多个协变量高度相关（多重共线性）时，如何单独识别每个协变量对结果变量的因果效应。多重共线性本身是一个经典的统计估计问题，但本文聚焦于其对因果识别的损害——它使得回归系数估计的方差膨胀，甚至导致符号翻转，从而无法为商业决策提供可信的归因。当前该子方向的成熟度较低：虽然多重共线性的处理技术（如岭回归、主成分回归）已很成熟，但这些方法在因果推断语境下有一个根本缺陷——它们会改变变量的解释性，无法给出原始协变量的因果效应。本文试图填补的正是这个“预测优化 vs. 因果解释”之间的缺口。

发展脉络（history）¶

奠基工作：多重共线性问题的经典处理。Daoud (2017) [1] 系统总结了多重共线性的成因、后果（标准误膨胀、系数不稳定）以及传统诊断方法（VIF）。Hoerl & Kennard (1970) [8] 提出的岭回归（ridge regression）是收缩估计的代表，通过引入L2惩罚来稳定估计，但代价是引入偏差且系数不再对应原始变量。Härdle et al. (2000) [7] 的偏线性模型（partially linear model）则通过将部分变量非参数化来缓解共线性，但同样不保留原始线性解释。
主要进展：营销混合模型（MMM）中的因果归因。Jin et al. (2017) [10] 提出了带 carryover 和 shape 效应的贝叶斯 MMM，成为工业界标准框架。Ng et al. (2021) [6] 引入时变系数模型来处理参数异质性。Chen et al. (2021) [5] 提出了带符号约束的层次 MMM，以注入业务先验。这些工作都在模型结构上做文章，但都没有直接处理协变量间的多重共线性——它们假设数据已经足够好，或者依赖先验来压制不合理的系数。
当前 frontier：利用数据结构的异质性来缓解共线性。本文是这一思路的代表：不是去修改估计器，而是重新组织数据——利用地理单元（DMA）之间广告支出相关模式的差异，通过层次聚类将高相关单元聚合，从而在聚合后的数据上降低共线性。这与传统方法（如主成分回归）的根本区别在于：它保留了原始变量的含义（仍然是“渠道A的曝光量”），只是改变了观测单元。
本文的位置：本文将自己定位为“填补了现有方法无法保留因果解释性这一缺口”的解决方案。它声称其方法“不依赖特定的估计器，可推广至其他存在多重共线性的因果问题”。

子线索聚类¶

这些被引文献大致落在三条子线索上： 1. 多重共线性的统计处理（Daoud 2017, Hoerl & Kennard 1970, Härdle et al. 2000）：关注估计的稳定性与预测精度，但不关心因果解释。 2. 营销混合模型（MMM）的建模与归因（Jin et al. 2017, Ng et al. 2021, Chen et al. 2021, Berman 2018, Du et al. 2019）：关注如何用贝叶斯或机器学习模型来归因广告效果，但默认数据质量足够好，或依赖先验来压制共线性导致的异常系数。 3. 聚类算法在数据预处理中的应用（Murtagh & Contreras 2012, Reddy & Vinzamuri 2018）：提供技术工具，但不针对因果推断中的共线性问题。

这个方向在追问的核心问题¶

如何在不牺牲因果解释性的前提下缓解多重共线性？ 现有方法（岭回归、PCR）能改善预测，但系数不再对应原始变量，无法用于归因。
如何利用数据中已有的结构异质性（如地理单元间的相关模式差异）来设计数据聚合策略？ 这是本文的核心创新点。
聚合后的数据对应的 estimand 是什么？ 当我们将多个地理单元聚为一类后，估计的系数是否仍然对应“每个渠道对销售的因果效应”？还是变成了某种加权平均效应？本文没有严格讨论这个问题。
聚类聚合对估计的偏差-方差权衡有何影响？ 聚合降低了方差（通过减少共线性），但可能引入聚合偏差（不同单元的真实效应不同）。本文没有量化这一权衡。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者声称“现有方法（收缩估计、主成分回归、偏线性模型）虽然能改善预测，但无法提供原始因果关系”，因此本文的层次聚类方法成为“显然的下一步”——因为它保留了变量的原始含义，只是改变了观测单元。
哪些竞争路线被他淡化或回避了：
- 工具变量法（IV）：如果存在有效的工具变量，可以解决由共线性（本质上是内生性的一种表现）导致的识别问题。作者完全没有提及 IV 作为替代方案。
- 双重机器学习（DML）：DML 通过 Neyman 正交性和交叉拟合，可以在高维协变量下实现因果效应的半参数有效估计，对共线性有一定鲁棒性。作者没有讨论 DML 是否适用于此场景。
- 贝叶斯先验：作者自己使用了贝叶斯 MMM，但声称“即使使用无信息先验”也能得到合理结果。他没有讨论信息先验（如 sign constraints, Chen et al. 2021）是否足以单独解决共线性问题，从而不需要数据聚合。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 关于“聚合偏差”的文献：当将不同单元聚合时，估计的效应是各单元效应的加权平均，其权重取决于聚合方式。这与“ecological inference”或“aggregation bias”文献（如 Robinson 1950 的生态学谬误）直接相关。本文完全没有引用或讨论这一风险。
- 关于“面板数据中利用截面异质性进行识别”的文献：例如，利用“差中差”（difference-in-differences）或“事件研究”（event study）设计，通过比较不同单元的时间序列差异来识别因果效应。这些方法也利用了地理单元的异质性，但本文没有与之对比。
- 关于“聚类对估计效率的影响”的文献：聚类会改变有效样本量（从 G 个 DMA 变为 C 个 cluster），这会影响标准误的估计。本文没有讨论聚类后的标准误是否需要调整（如 cluster-robust standard errors）。

张力¶

未见明显对立引用。所有被引工作基本是互补的：有的处理共线性但不保留解释性，有的做 MMM 但不处理共线性，有的提供聚类工具但不针对因果问题。本文是第一个试图将这些线索缝合起来的尝试。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( g = 1, \dots, G \)：地理单元（DMA）的索引。\( G \) 是总 DMA 数。
- \( t = 1, \dots, T \)：时间（周）的索引。\( T \) 是总周数。
- \( k = 1, \dots, K \)：营销渠道的索引。\( K \) 是总渠道数。
- \( y_{g,t} \)：可观测的结果变量，如第 \( g \) 个 DMA 在第 \( t \) 周的销售额（或对数销售额）。
- \( x_{k,g,t} \)：可观测的协变量，第 \( k \) 个渠道在第 \( g \) 个 DMA 第 \( t \) 周的曝光量（impressions）。
- \( Z_{g,t} \)：可观测的额外协变量（如 Google 搜索量指数），用于控制混杂因素。
- \( \beta_k \)：待估参数，第 \( k \) 个渠道对销售的因果效应（本文的核心 estimand）。
- \( \mu_t, \text{seasonality}_t, \alpha \)：待估的趋势、季节性和其他协变量的参数。
- \( \text{AdStock}(x_{k,g,t}) \)：变换后的协变量，通过一个参数化函数（包含 carryover rate \( \tau_k \)、lag peak \( \theta_k \)、diminishing return \( \rho_k \)）将原始曝光量转换为“有效广告存量”。
- \( \epsilon_{g,t} \)：不可观测的误差项。
- \( C \)：聚类后的簇（cluster）数。\( c = 1, \dots, C \) 是簇的索引。
- \( \text{Distance}_{ij} \)：DMA \( i \) 和 \( j \) 之间的距离，用于层次聚类。
模型：本文使用的模型是一个贝叶斯结构时间序列模型（Bayesian structural time series model），具体形式为：
\[y_{g,t} = \mu_t + \text{seasonality}_t + \alpha Z_{g,t} + \sum_{k=1}^K \beta_k \text{AdStock}(x_{k,g,t}) + \epsilon_{g,t}\]
其中 \( \text{AdStock} \) 函数是一个参数化的非线性变换，用于捕捉广告效果的滞后、衰减和饱和效应。模型假设：在控制了趋势、季节性和混杂因素 \( Z \) 后，\( \beta_k \) 反映了渠道 \( k \) 对销售的因果效应（即，如果 \( x_k \) 增加一个单位，\( y \) 的期望变化）。
可观测数据：研究者实际能观测到的是一个面板数据集：\( \{y_{g,t}, x_{1,g,t}, \dots, x_{K,g,t}, Z_{g,t}\}_{g=1,\dots,G, t=1,\dots,T} \)。这是一个 \( G \times T \) 的观测矩阵，每个单元有 \( K+2 \) 个变量（结果 + K 个渠道 + 1 个混杂控制）。
想要但观测不到的量：
- 潜在结果：对于每个 DMA 和时间点，我们只能观测到在实际广告投放水平下的结果，无法观测到如果改变某个渠道的投放水平（反事实）会发生什么。
- 真实的因果效应：\( \beta_k \) 是模型参数，其因果解释依赖于无未观测混杂和正确模型设定等强假设。本文没有讨论这些识别假设是否成立。
- AdStock 函数的真实参数：\( \tau_k, \theta_k, \rho_k \) 是模型参数，其估计依赖于贝叶斯先验和似然。

第二步：讲最小内核¶

本文的核心思路可以提炼为一个最简特例：假设我们只有两个营销渠道（\( K=2 \)）和两个地理单元（\( G=2 \)），且忽略 AdStock 变换、趋势和季节性的影响。那么模型退化为一个简单的线性回归：

\[y_{g,t} = \beta_1 x_{1,g,t} + \beta_2 x_{2,g,t} + \epsilon_{g,t}\]

其中 \( g=1,2 \)，\( t=1,\dots,T \)。

问题：如果两个渠道的曝光量在所有时间点上都高度相关（例如，\( \text{Corr}(x_{1,g,\cdot}, x_{2,g,\cdot}) \approx 0.9 \)），那么从单个 DMA 的数据中，我们几乎无法区分 \( \beta_1 \) 和 \( \beta_2 \)——OLS 估计的方差会非常大，甚至出现符号翻转。

本文的关键想法：虽然两个渠道在每个 DMA 内部都高度相关，但不同 DMA 之间的相关模式可能不同。例如： - 在 DMA 1 中，\( x_1 \) 和 \( x_2 \) 的相关系数为 0.9。 - 在 DMA 2 中，\( x_1 \) 和 \( x_2 \) 的相关系数为 0.3。

最小内核操作：本文的层次聚类方法，在这个特例下，就是将 DMA 1 和 DMA 2 聚为一类（因为它们的相关模式相似？不，这里的关键是：将相关模式相似的 DMA 聚在一起，使得聚类后的数据中，两个渠道的相关性降低）。更准确地说，本文的距离度量 \( \text{Distance}_{12} = \sqrt{ (1 - \text{Corr}(x_{1,1,\cdot}, x_{1,2,\cdot}))^2 + (1 - \text{Corr}(x_{2,1,\cdot}, x_{2,2,\cdot}))^2 } \) 衡量的是两个 DMA 在每个渠道上的时间序列相关性。如果 DMA 1 和 DMA 2 在渠道 1 上的时间序列高度相关（\( \text{Corr} \approx 0.9 \)），但在渠道 2 上不相关（\( \text{Corr} \approx 0 \)），那么它们的距离会较小，从而被聚为一类。

为什么这能缓解共线性？ 聚类后，我们不再有 \( G=2 \) 个观测单元，而是有 \( C=1 \) 个簇。簇级数据是 DMA 1 和 DMA 2 数据的聚合（例如，取平均）。关键在于：聚合后的数据中，两个渠道的相关性可能低于它们在单个 DMA 内部的相关性。这是因为聚合引入了跨单元的变异：如果 DMA 1 的 \( x_1 \) 高而 \( x_2 \) 低，DMA 2 的 \( x_1 \) 低而 \( x_2 \) 高，那么聚合后，\( x_1 \) 和 \( x_2 \) 的时间序列可能呈现负相关或低相关，从而打破了原有的共线性结构。

这个特例揭示的核心数学困难：如何设计一个距离度量，使得聚类后的数据中，协变量之间的相关性系统性降低，同时保留足够的变异来识别每个协变量的独立效应？本文给出的答案是：基于跨渠道、跨单元的相关模式来定义距离，而不是基于协变量本身的取值。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在观测性因果推断中，当多个协变量高度相关（多重共线性）时，如何在不牺牲变量解释性的前提下，通过数据聚合来缓解共线性，从而分离每个协变量的因果效应。
核心工具/方法：提出一种基于层次聚类的数据聚合方法，其关键在于定义了一个基于跨渠道相关模式的距离度量，将具有相似相关模式的地理单元聚为一类，从而在聚合后的数据上降低协变量间的相关性。
主要结论：通过描述性证据（相关性降低 8%-43%）和回归分析（系数符号翻转问题消失，得到直观结果），证明该方法能有效缓解共线性，并有助于在贝叶斯营销混合模型中分离不同广告渠道的因果效应。

关键设定与假设¶

设定：面板数据，\( G \) 个地理单元（DMA），\( T \) 个时间点（周），\( K \) 个营销渠道。结果变量为销售额 \( y_{g,t} \)，协变量为各渠道曝光量 \( x_{k,g,t} \)。
模型：贝叶斯结构时间序列模型（公式见第二节），包含趋势、季节性、混杂控制 \( Z_{g,t} \)、以及带 carryover 和 shape 效应的 AdStock 变换。
核心假设（未明确陈述，但隐含在方法中）：
1. 无未观测混杂：在控制了趋势、季节性和 \( Z_{g,t} \) 后，\( x_{k,g,t} \) 与 \( \epsilon_{g,t} \) 不相关。这是所有回归类因果推断方法的共同假设。
2. 效应同质性：不同 DMA 中，同一渠道的因果效应 \( \beta_k \) 是相同的。这是本文方法能够“聚合”数据的前提——如果效应在不同 DMA 中不同，聚合后的估计将是一个有偏的加权平均。
3. 相关模式异质性：不同 DMA 之间，各渠道曝光量的跨渠道相关模式存在差异。这是本文方法有效的前提——如果所有 DMA 的相关模式都相同，聚类将无法降低共线性。
4. AdStock 函数形式正确：模型假设 carryover 和 shape 效应遵循一个特定的参数化形式（高斯型衰减 + 幂函数饱和）。如果真实机制不同，模型可能设定错误。
相比已有文献的强化/放宽：
- 强化：相比岭回归或 PCR，本文保留了变量的原始含义（仍然是“渠道A的曝光量”），这是对因果解释性的强化。
- 放宽：相比传统的“所有单元独立同分布”假设，本文允许不同单元之间存在相关性，并利用这种相关性来设计聚合策略。这是对数据结构的更灵活处理。

主要结果¶

描述性证据（Section 5.2, Figure 5）：聚类后，各渠道之间的交叉相关性普遍降低，降低幅度在 8% 到 43% 之间。同时，聚类保留了变异：簇内时间序列变异和簇间截面变异都得以保持（Figure 6）。
面板线性回归结果（Section 5.3, Table 1）：
- DMA 级数据：当所有渠道同时纳入回归时，大部分系数为负（如 channel_b: -0.055, channel_e: -0.011），这与业务直觉（广告应促进销售）相悖，是共线性的典型表现。
- 簇级数据：系数符号翻转，变得直观。四个低漏斗渠道（lower-funnel）的系数均为正，且三个在 0.001 水平显著（channel_a: 5.041, channel_b: 0.128, channel_c: 0.043*）。高漏斗渠道（channel_e）的系数仍为负（-0.023），但作者解释为“高漏斗渠道对低漏斗转化的影响极难检测”。
- 加权回归：按簇的基线规模加权后，结果稳健（Table 1, Column 3）。
贝叶斯模型结果（Section 5.4, Figure 7）：使用簇级数据，即使采用无信息先验，贝叶斯 MMM 也产生了直观的后验分布：渠道 A 和 B 的效应参数 \( \beta \) 明显高于其他渠道；carryover 参数 \( \tau \) 的估计也与业务知识一致（如渠道 A 和 B 无 carryover，渠道 C、D、E 有 carryover）。

证明路线与技术技巧¶

本文是应用/方法型论文，没有严格的数学证明。其“证明”路线是实证验证： 1. 问题诊断：通过相关性热图（Figure 1）和分 ventile 的相关性对比（Figure 2），展示 DMA 级数据中存在严重的跨渠道共线性，且不同 DMA 的相关模式不同。 2. 方法设计：定义基于相关性的距离度量，采用 complete-linkage 层次聚类，选择 cutoff distance = 1.5（对应平均相关系数 ≥ 0.33），得到 42 个簇。 3. 验证步骤 1：描述性证据：展示聚类后交叉相关性降低（Figure 5），并展示变异被保留（Figure 6）。 4. 验证步骤 2：回归分析：用面板线性回归（DMA 级 vs. 簇级）对比系数符号和显著性，证明聚类解决了符号翻转问题。 5. 验证步骤 3：贝叶斯模型：在簇级数据上运行完整的贝叶斯 MMM，展示后验分布与业务直觉一致。

技术技巧点名： - 层次聚类（complete-linkage）：用于将 DMA 分组，使得组内 DMA 的跨渠道相关模式相似。 - 基于相关性的距离度量：核心创新点。距离定义为 \( \sqrt{\sum_k (1 - \text{Corr}(X_{ik}, X_{jk}))^2} \)，其中 \( X_{ik} \) 是去趋势、去季节化后的残差。这个距离直接针对“共线性”问题设计。 - 数据预处理（标准化 + 去趋势）：在计算距离前，先对数据进行标准化（消除规模差异）和去趋势（消除共同的时间趋势），使得距离只反映“相关模式”的差异，而不是规模或趋势的差异。 - 贝叶斯结构时间序列模型：用于最终的因果效应估计，包含 AdStock 变换、趋势、季节性和混杂控制。

真实例子与应用¶

数据：Airbnb 的营销数据，包含多个 DMA（地理单元）在多个周内的销售额和五个匿名渠道（A、B、C、D、E）的广告曝光量。数据经过匿名化和索引化处理。
如何应用：
1. 对每个 DMA 的每个渠道的曝光量进行标准化和去趋势（消除共同趋势和季节性）。
2. 计算每对 DMA 之间的“跨渠道相关模式距离”。
3. 使用 complete-linkage 层次聚类，以 cutoff distance = 1.5 将 DMA 聚为 42 个簇。
4. 将簇级数据（每个簇的聚合值）用于面板线性回归和贝叶斯 MMM。
结果：见“主要结果”部分。核心发现是：聚类后，系数符号从“大部分为负”变为“大部分为正且直观”，贝叶斯模型的后验分布也与业务知识一致。
这个例子想说明什么：验证本文方法在真实工业数据上的有效性，证明它能够解决实际业务中因共线性导致的“系数符号翻转”问题，从而为营销归因提供可信的因果估计。

🔎 结论是否比证明窄¶

是的，结论比证明窄。作者在摘要和结论中声称该方法“可推广至其他存在多重共线性的因果问题”，但论文中只在一个特定的营销场景（Airbnb MMM）上进行了验证。该场景具有以下特殊性质：
- 数据是面板数据，有明确的地理单元（DMA）和时间维度。
- 共线性来源于跨渠道的相关性，且不同地理单元的相关模式存在异质性。
- 存在一个自然的聚合维度（地理单元）。作者在 Section 6 中讨论了其他应用（如客户服务中的交互指标），但没有提供任何实证证据。因此，该方法的通用性（generalizability）是被声称但未被证明的。例如，如果数据没有地理维度（如只有时间序列），或者所有单元的共线性模式都相同，该方法可能完全无效。
另一个窄化点：作者声称聚类“保留了变量的原始含义”，但没有讨论聚合后的 estimand 是什么。当将多个 DMA 聚为一类后，估计的 \( \beta_k \) 是否仍然对应“每个 DMA 中渠道 k 对销售的因果效应”？还是变成了“簇内各 DMA 效应的加权平均”？如果是后者，权重是什么？这涉及到聚合偏差（aggregation bias）的问题，本文完全没有讨论。

四、开放问题¶

聚合后的 estimand 是什么？ 本文没有严格定义聚类后估计的 \( \beta_k \) 的因果解释。它是否对应一个定义良好的因果参数（如 ATE），还是某种加权平均效应？这个问题扎根于本文 Section 5.3 和 5.4 的回归结果——作者直接比较了 DMA 级和簇级回归的系数，但未讨论它们是否对应同一个 estimand。要确认这是否是真 gap，可以去读关于“ecological inference”和“aggregation bias”的文献（如 Robinson 1950, King 1997），看看是否有现成的框架可以分析这个问题。
如何量化聚类聚合带来的偏差-方差权衡？ 聚类降低了方差（通过减少共线性），但可能引入聚合偏差（如果不同 DMA 的真实效应不同）。本文只展示了方差降低的证据（系数更稳定），但没有量化偏差。这个问题扎根于本文 Section 5.2 和 5.3——作者展示了相关性降低和系数符号翻转的消失，但未讨论估计量的 MSE 或偏差。要确认这是否是真 gap，可以设计一个模拟实验：在已知真实 \( \beta_k \) 的情况下，比较 DMA 级估计和簇级估计的偏差和方差。
如何选择最优的聚类粒度（cutoff distance）？ 本文使用 cutoff distance = 1.5，但只做了简单的敏感性分析（未展示结果）。是否存在一个数据驱动的准则来平衡“降低共线性”和“保留变异”？这个问题扎根于本文 Section 4——作者提到“this algorithm offers a lot of flexibility in how aggressively we want to cluster”，但没有给出选择准则。要确认这是否是真 gap，可以查阅关于“聚类数选择”的文献（如 gap statistic, silhouette score），并思考如何将其与因果估计的 MSE 联系起来。
该方法在缺乏“自然聚合维度”（如地理单元）时是否仍然有效？ 本文的方法依赖于存在一个维度（如地理单元），其不同“切片”具有不同的共线性模式。如果数据只有时间序列（一个单元），或者所有单元的共线性模式都相同，该方法将失效。这个问题扎根于本文 Section 6 的讨论——作者提到了其他应用场景，但未讨论方法的前提条件。要确认这是否是真 gap，可以思考：如果数据是单个时间序列，是否可以通过“时间窗口”的划分来创造类似的异质性？

Maintained by 陈星宇 · Homepage · Source on GitHub