Social network dependence, unmeasured confounding, and the replication crisis¶

讲者: Elizabeth Ogburn
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-04-21
主题: 因果推断
视频: https://www.youtube.com/watch?v=uFSVZTDl0aM · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

1908.00520 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告（Lee & Ogburn, 2019/2020）站在这条线的起点：当样本来自同一个社交网络（而非独立同分布抽样）时，基于独立同分布假设的标准统计推断（点估计、方差估计、假设检验）会如何失效，以及这种失效与“未测量混杂”问题的关系。

方向在追问什么：绝大多数健康/社会科学经验研究依赖“便利样本”（如一座城市、一所学校、一家医院的全部受试者），这些受试者之间存在社交联系。标准方法假定它们是独立同分布的。这个假定被违反时，推断会在几个层面出问题：（1）方差估计偏小（标准误偏小）；(2) 即使 X 和 Y 在因果与统计上都独立，如果它们各自具有相似的结构性依赖（如都在网络中沿着相同路径聚集），估计出的关联性也会系统性地偏离零——即“虚假关联”。这不同于经典的因果混杂：虚假关联会在多次抽样中对称地分布在真实值两侧，而混杂产生的是定向偏差。
奠基与主流路线：
- 时间序列中的虚假回归：Phillips (1986) 等经典工作早已指出，两个独立的随机游走之间的回归会产生显著但虚假的关系（t 统计量发散）。讲者明确承认这是最成熟的系统处理 [0:12:06]。
- 空间自相关：Moran’s I 检验是检验空间依赖的经典方法 [0:13:54 - 幻灯片 13]。
- 基因组学/生物信息学中的“混杂”：由群体结构（population structure）或批次效应（batch effects）导致的虚假关联，处理方法如 EIGENSTRAT、RUV、LEAPP 等 [0:20:30 - 幻灯片 20]。
- 因果推断中的干扰（interference）：这是社交网络因果推断的主流框架，通常假设有多个独立同分布的“网络块”（如多个村庄），每个块内的个体有干扰 [0:54:00 - 讨论者 Ilya Shpitser]。但这与“只有一个大网络、一次观测”的场景不同。
这场报告站在哪：它站在将“虚假关联”作为一个独立于“方差低估”和“经典混杂”的、系统的统计推断问题，引入社交网络数据分析的始点。讲者所做的原创贡献是：
1. 验证：通过在 Framingham Heart Study（一个典型的、依赖的网络便利样本）的已发表论文中检测网络依赖性，提供了第一个（尽管是间接的）经验证据，证明该问题在实际中是普遍存在的 [0:24:44 - 0:26:37]。
2. 工具：将空间统计中的 Moran’s I 检验改编为针对网络数据（用邻接矩阵替代空间距离权重矩阵）的检验，并为分类变量开发了一个新统计量 \( \Phi \) [0:13:54 - 幻灯片 13, 0:14:10 - 幻灯片 35]。
3. 概念澄清：明确指出 “虚假关联”和“未测量混杂”在唯象上是不同的（前者对称，后者定向），但提出了一个关键洞见：从一次观测（一个网络）出发，两者在 非参数上是不可区分的，因为缺乏关于潜在依赖结构（如协方差矩阵的分布）的信息。两组分布编码了不同的“抽样框架”，但都与观测数据一致 [0:33:00 - 0:34:10]。

二、最小内核 / 一个最简例子¶

符号与模型：令 \( N \) 个体形成一个社交网络。对每个个体 \( i \)，观察到 \( (X_i, Y_i) \)。我们关心“X 对 Y 的关联”，参数为 \( \psi \)（如相关系数、回归系数）。

经典独立同分布假设要求 \( (X_i, Y_i) \) 是相互独立的。这里，这个假设不再成立：X-向量和 Y-向量各自具有由网络（如邻接矩阵 \( A \)）诱导的依赖结构。

我们考虑目标参数是整个然分布 \( f_{\mathbf{X}, \mathbf{Y}} \) 的泛函，但只有一次 \( n \) 维向量 \( (\mathbf{X}, \mathbf{Y}) \) 的抽样。

最简例子（讲者的玩具例子，[0:13:35]）：设 \( n \) 次观测，索引为 \( i=1,\dots,n \)。假设 \( X_i \) 和 \( Y_i \) 因果与统计上均独立（即联合分布为 \( f_X f_Y \)）。

引入依赖：令标志变量 \( C \)（取 0 或 1，概率各 0.5）决定 \( \mathbf{X} \) 的趋势：若 \( C=1 \)，则 \( X_i = i + \epsilon_i^X \)（递增）；若 \( C=0 \)，则 \( X_i = -i + \epsilon_i^X \)（递减）。误差 \( \epsilon_i^X \) 是独立同分布的。
同理，独立于 \( C \) 的标志变量 \( C' \) 决定 \( \mathbf{Y} \) 的趋势：若 \( C'=1 \)，则 \( Y_i = i + \epsilon_i^Y \); 若 \( C'=0 \)，则 \( Y_i = -i + \epsilon_i^Y \)。

核心思想：在一次抽样中，我们观察到 一个实现 的 \( (\mathbf{X}, \mathbf{Y}) \)。若 \( C \) 和 \( C' \) 的取值相同（概率 0.5），则 \( X_i \) 和 \( Y_i \) 将呈现出很强的正相关；若相反，则呈现很强的负相关。我们永远不会观察到真实值 0。

为何失效：因为 \( C \) 和 \( C' \) 只被采样一次。我们只有一次关于“X和Y趋势是否一致”的信息。参数 \( \psi \) 应该是 \( E_{C,C'} [\text{corr}(X,Y|C,C')] = 0 \)，但我们从一次样本中估计的 \( \hat{\psi} \) 无论 \( n \) 多大，都不会收敛到 0——它是 \( \pm 1 \)。从一次抽样的“条件分布” \( (\mathbf{X}|\mathbf{C}) \) 中，我们无法识别关于 \( C, C' \) 分布的参数 \( \psi \)。

讲者的关键论点（[0:32:00]）：如果我们把 \( (C, C') \) 视为潜在的“因子结构”，在只知道一次 \( (\mathbf{X}, \mathbf{Y}) \) 的条件下，我们无法区分 \( C \) 与 \( C' \) 是独立（虚假关联情形）还是相关（真实混杂情形，其中 \( C \) 共同影响 X 和 Y）。二者都与观测数据一致。这是非参数不可识别性！

三、报告主体：讲者讲了什么¶

[0:02:00 - 0:04:30] 开场与动机 * [H:MM] 讲者（Betsy Ogburn）介绍合作者 Youjin Lee（现任宾大因果推断中心博士后）。 * [H:MM] 抛出核心论点：分享依赖结构（shared dependence structure）是导致“虚假关联”和“复现危机”的一个被忽视的、系统的原因。它不同于未测量混杂，尽管关系密切。

[0:04:30 - 0:13:00] 背景：推断框架与问题定义 * [0:04:30] 推断框架：把网络视为从目标总体分布 \( f_{\mathbf{Y}, \mathbf{X}, \mathbf{C}} \) 中的一次抽样。我们想推广到“其他类似网络”。 * [0:10:00] 核心现象定义：当 \( \mathbf{X} \) 和 \( \mathbf{Y} \) 各自具有由同一底层结构（网络）诱导的依赖性时，即使 X 和 Y 因果与统计独立，估计出的关联也会集中在非零值上（不一定是零附近）。这会发生在：无混杂、仅关心预测、代表性样本中。 * [0:12:06] 文献回顾：时间序列是已知的（Phillips 1986等）。指出“方差欠估计”讨论通常不是关于这个现象的。

[0:13:35 - 0:19:36] 深入直觉：玩具例子与真实模拟 * 玩具例子（见第二部分）：展示了在非参数意义下，一次抽样无法提供足够信息来平均掉趋势的影响。 * [0:16:55 - 0:22:00] 网络模拟：模拟一个有网络结构的数据，通过不同的协方差结构（与网络距离相关）生成依赖。展示随着依赖程度增加，相关系数的分布如何从一个紧致的钟形（零均值），变成一个扁平、双峰的形状，最终集中在极端值（±1）附近，而不是仅仅方差变大。

[0:22:15 - 0:28:30] 应用：Framingham Heart Study (FHS) 案例 * [0:22:15] FHS 描述：1948年启动的著名队列研究，但样本是一个小镇的社交网络（非独立）。 * [0:24:44] 研究方法：改编 Moran's I（用邻接矩阵替换空间权重矩阵），并开发了一个针对分类变量的检验统计量 \( \Phi \)（幻灯片 35）。在 FHS 的已发表论著中，检验了三个东西： 1. 回归残差：检测方差是否被低估。 2. 暴露变量（X）
3. 结局变量（Y） * [H:MM] 他们检验了5篇心血管文献和1篇 Christakis & Fowler 的网络/肥胖/ peer effects 文献。 * [0:26:20] 结果非常显著：几乎所有论文的残差、X和Y都表现出强依赖性（p值 < 0.01）。对 Christakis & Fowler 的肥胖传染论文，结果同样强。 * [0:27:30] Caveats：这只是“间接证据”（circumstantial），无法直接联系检验统计量的大小与假阳性率。检验是保守的，应宽松解释。

[0:28:30 - 0:34:10] 虚假关联 vs 未测量混杂（讲者的“大胆主张”） * [0:30:34] 核心论点：虚假关联在唯象上不同于因果混杂（对称分布 vs 定向偏倚）。 * [0:31:36] 不可区分性论据：以玩具为例，\( C, C' \) 标志变量可视为“潜在因子”。在一次抽样中，我们无法知道 \( C \) 和 \( C' \) 是独立（虚假关联情形）还是相关（未测量混杂情形）。两者都与观测数据一致。因此，从一次样本推断“关联”时，你必须用额外假设（如站略性）来强行选择一个“抽样框架”。 * [0:33:00] 讲者的“大胆主张”： 1. 大量处理“未测量混杂”的文献（GWAS群体结构、批次效应、聚类指示变量）实际上是在处理共享依赖结构。 2. 这些方法（如 EIGENSTRAT、RUV、LEAPP）能成功，正是因为它们是在解决虚假关联，而不是真正的因果混杂。 3. 例外：工具变量、隐含变量图模型的非参数识别。

[0:34:10 - 0:41:00] 通往识别之路：参数化与非参数化方案 * [0:34:10] 讲者提出，我们可以借用基因组学中成功的参数化方法（如估计协方差矩阵 \( \Sigma \) 并校正）来解决社交网络中的虚假关联。 * [H:MM] 他们尝试使用了控制“隐蔽亲缘关系”（cryptic relatedness）的方法（如基因组学中的EIGENSTRAT变种）。 * 结果：“如果知道真实的方差-协方差矩阵（即知道真实的网络依赖结构），这些方法完美恢复真实的关联。” 但这极难实现。 * 现实失败：即使控制了 FHS 的邻接矩阵，仍检测到强依赖性（证明真实的依赖结构远复杂于简单的邻接关系）。 * [0:35:30 - 0:41:00] 对非参数识别的看法：讲者认为，在虚假关联情景下，可能需要另一个不可检验的假设——例如平稳性（stationarity）。这与忠实性、马克趁子条件或忽略性类似，都是一个关于性质的不可检验假设。

[0:41:00 - 0:44:15] 开放式问题与总结 1. 如何将网络依赖性检验的证据与实际虚假阳性率紧密联系起来。 2. 如何从数据中学习网络依赖结构（以控制它）。 3. 核心理论问题：在存在依赖（X内有，Y内有）的情况下，何时关联/因果效应是非参数可识别的？ 即“正值与负值的虚假关联是否会在 \( n\to\infty \) 时相互抵消”？这取决于（部分不可检验的）平稳性。讲者个人认为这是未来最开敞、重要的理论难题之一。

四、对应论文与开放问题¶

对应论文： * Primary paper (转写中提及 "to appear in JASA")： * 讲者 [0:04:03] 指出 Youjin Lee 是本文第一作者，即将在 JASA发表。 * 转写稿中未给出准确标题。但可根据幻灯片内容确认，即 Lee Y, Ogburn EL (2019/2020). "Network Dependence Can Lead to Spurious Associations and Invalid Inference"（对应arXiv 1908.00520，用户提供）。该论文的核心内容是：建构论点、定义问题、改编Moran's I检验、进行FHS数据分析。 * 相关的理论基础（影响函数、CLT）： * 讲者在[0:41:30 - 0:44:15]提到的“包含邻居独立性子网络”进行因果推断的理论，映射到她与合作者关于观测网络数据的因果推断方法的更多工作。论文标题/arXiv未在本次转写中提供。

开放问题（由讲者明确或强烈暗示，扎根于转写中的具体位置）： 1. 因果联系问题 [0:27:30, 0:34:45]：如何将Moran's I检验（或类似检验）得出的依赖性强度（例如，z-分数大小），定量地转化为因果估计中的虚假发现率或实际偏差大小？讲者说“我们还没有将这个联系具体化”。

学习依赖结构 [0:34:45, 0:41:40]：如何在没有地理或谱系先验知识的社交网络数据中，估计驱动虚假关联的“共享依赖结构”（即协方差矩阵）？基因组学（通过SNP）能做到，社交网络则不然。
非参数可识别性边界 [0:35:30, 0:41:07]：在什么条件下，关联/因果效应在存在全局网络依赖（非多次独立子网络）时，能被非参数地识别？讲者提出平稳性是充分的，但不必是必要的。找到一个必要条件，或一个可检验的平稳性子集，是重要的理论目标。
有限样本中心极限定理的边界 [0:43:00]：社交网络大小 \( n \) 多大才能使得“依赖数据中心极限定理”有效（即在给定网络拓扑和依赖度下，渐近近似何时开始），这是一个“完全开放的问题”。

Maintained by 陈星宇 · Homepage · Source on GitHub