跳转至

Social network dependence, unmeasured confounding, and the replication crisis

讲者: Elizabeth Ogburn
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-04-21
主题: 因果推断
视频: https://www.youtube.com/watch?v=uFSVZTDl0aM · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 1908.00520 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这场报告(Lee & Ogburn, 2019/2020)站在这条线的起点:当样本来自同一个社交网络(而非独立同分布抽样)时,基于独立同分布假设的标准统计推断(点估计、方差估计、假设检验)会如何失效,以及这种失效与“未测量混杂”问题的关系

  • 方向在追问什么:绝大多数健康/社会科学经验研究依赖“便利样本”(如一座城市、一所学校、一家医院的全部受试者),这些受试者之间存在社交联系。标准方法假定它们是独立同分布的。这个假定被违反时,推断会在几个层面出问题:(1)方差估计偏小(标准误偏小);(2) 即使 X 和 Y 在因果与统计上都独立,如果它们各自具有相似的结构性依赖(如都在网络中沿着相同路径聚集),估计出的关联性也会系统性地偏离零——即“虚假关联”。这不同于经典的因果混杂:虚假关联会在多次抽样中对称地分布在真实值两侧,而混杂产生的是定向偏差。
  • 奠基与主流路线
    • 时间序列中的虚假回归:Phillips (1986) 等经典工作早已指出,两个独立的随机游走之间的回归会产生显著但虚假的关系(t 统计量发散)。讲者明确承认这是最成熟的系统处理 [0:12:06]。
    • 空间自相关:Moran’s I 检验是检验空间依赖的经典方法 [0:13:54 - 幻灯片 13]。
    • 基因组学/生物信息学中的“混杂”:由群体结构(population structure)或批次效应(batch effects)导致的虚假关联,处理方法如 EIGENSTRAT、RUV、LEAPP 等 [0:20:30 - 幻灯片 20]。
    • 因果推断中的干扰(interference):这是社交网络因果推断的主流框架,通常假设有多个独立同分布的“网络块”(如多个村庄),每个块内的个体有干扰 [0:54:00 - 讨论者 Ilya Shpitser]。但这与“只有一个大网络、一次观测”的场景不同。
  • 这场报告站在哪:它站在将“虚假关联”作为一个独立于“方差低估”和“经典混杂”的、系统的统计推断问题,引入社交网络数据分析的始点。讲者所做的原创贡献是:
    1. 验证:通过在 Framingham Heart Study(一个典型的、依赖的网络便利样本)的已发表论文中检测网络依赖性,提供了第一个(尽管是间接的)经验证据,证明该问题在实际中是普遍存在的 [0:24:44 - 0:26:37]。
    2. 工具:将空间统计中的 Moran’s I 检验改编为针对网络数据(用邻接矩阵替代空间距离权重矩阵)的检验,并为分类变量开发了一个新统计量 \( \Phi \) [0:13:54 - 幻灯片 13, 0:14:10 - 幻灯片 35]。
    3. 概念澄清:明确指出 “虚假关联”和“未测量混杂”在唯象上是不同的(前者对称,后者定向),但提出了一个关键洞见:从一次观测(一个网络)出发,两者在 非参数上是不可区分的,因为缺乏关于潜在依赖结构(如协方差矩阵的分布)的信息。两组分布编码了不同的“抽样框架”,但都与观测数据一致 [0:33:00 - 0:34:10]。

二、最小内核 / 一个最简例子

符号与模型: 令 \( N \) 个体形成一个社交网络。对每个个体 \( i \),观察到 \( (X_i, Y_i) \)。我们关心“X 对 Y 的关联”,参数为 \( \psi \)(如相关系数、回归系数)。

经典独立同分布假设要求 \( (X_i, Y_i) \) 是相互独立的。这里,这个假设不再成立:X-向量和 Y-向量各自具有由网络(如邻接矩阵 \( A \))诱导的依赖结构。

我们考虑目标参数是整个然分布 \( f_{\mathbf{X}, \mathbf{Y}} \) 的泛函,但只有一次 \( n \) 维向量 \( (\mathbf{X}, \mathbf{Y}) \) 的抽样。

最简例子(讲者的玩具例子,[0:13:35]): 设 \( n \) 次观测,索引为 \( i=1,\dots,n \)。假设 \( X_i \)\( Y_i \) 因果与统计上均独立(即联合分布为 \( f_X f_Y \))。

  • 引入依赖:令标志变量 \( C \)(取 0 或 1,概率各 0.5)决定 \( \mathbf{X} \)趋势:若 \( C=1 \),则 \( X_i = i + \epsilon_i^X \)(递增);若 \( C=0 \),则 \( X_i = -i + \epsilon_i^X \)(递减)。误差 \( \epsilon_i^X \) 是独立同分布的。
  • 同理,独立于 \( C \) 的标志变量 \( C' \) 决定 \( \mathbf{Y} \)趋势:若 \( C'=1 \),则 \( Y_i = i + \epsilon_i^Y \); 若 \( C'=0 \),则 \( Y_i = -i + \epsilon_i^Y \)

核心思想:在一次抽样中,我们观察到 一个实现\( (\mathbf{X}, \mathbf{Y}) \)。若 \( C \)\( C' \) 的取值相同(概率 0.5),则 \( X_i \)\( Y_i \) 将呈现出很强的正相关;若相反,则呈现很强的负相关。我们永远不会观察到真实值 0。

为何失效:因为 \( C \)\( C' \) 只被采样一次。我们只有一次关于“X和Y趋势是否一致”的信息。参数 \( \psi \) 应该是 \( E_{C,C'} [\text{corr}(X,Y|C,C')] = 0 \),但我们从一次样本中估计的 \( \hat{\psi} \) 无论 \( n \) 多大,都不会收敛到 0——它是 \( \pm 1 \)。从一次抽样的“条件分布” \( (\mathbf{X}|\mathbf{C}) \) 中,我们无法识别关于 \( C, C' \) 分布的参数 \( \psi \)

讲者的关键论点([0:32:00]):如果我们把 \( (C, C') \) 视为潜在的“因子结构”,在只知道一次 \( (\mathbf{X}, \mathbf{Y}) \) 的条件下,我们无法区分 \( C \)\( C' \) 是独立(虚假关联情形)还是相关(真实混杂情形,其中 \( C \) 共同影响 X 和 Y)。二者都与观测数据一致。这是非参数不可识别性!

三、报告主体:讲者讲了什么

[0:02:00 - 0:04:30] 开场与动机 * [H:MM] 讲者(Betsy Ogburn)介绍合作者 Youjin Lee(现任宾大因果推断中心博士后)。 * [H:MM] 抛出核心论点:分享依赖结构(shared dependence structure)是导致“虚假关联”和“复现危机”的一个被忽视的、系统的原因。它不同于未测量混杂,尽管关系密切。

[0:04:30 - 0:13:00] 背景:推断框架与问题定义 * [0:04:30] 推断框架:把网络视为从目标总体分布 \( f_{\mathbf{Y}, \mathbf{X}, \mathbf{C}} \) 中的一次抽样。我们想推广到“其他类似网络”。 * [0:10:00] 核心现象定义:当 \( \mathbf{X} \)\( \mathbf{Y} \) 各自具有由同一底层结构(网络)诱导的依赖性时,即使 X 和 Y 因果与统计独立,估计出的关联也会集中在非零值上(不一定是零附近)。这会发生在:无混杂、仅关心预测、代表性样本中。 * [0:12:06] 文献回顾:时间序列是已知的(Phillips 1986等)。指出“方差欠估计”讨论通常不是关于这个现象的。

[0:13:35 - 0:19:36] 深入直觉:玩具例子与真实模拟 * 玩具例子(见第二部分):展示了在非参数意义下,一次抽样无法提供足够信息来平均掉趋势的影响。 * [0:16:55 - 0:22:00] 网络模拟:模拟一个有网络结构的数据,通过不同的协方差结构(与网络距离相关)生成依赖。展示随着依赖程度增加,相关系数的分布如何从一个紧致的钟形(零均值),变成一个扁平、双峰的形状,最终集中在极端值(±1)附近,而不是仅仅方差变大。

[0:22:15 - 0:28:30] 应用:Framingham Heart Study (FHS) 案例 * [0:22:15] FHS 描述:1948年启动的著名队列研究,但样本是一个小镇的社交网络(非独立)。 * [0:24:44] 研究方法:改编 Moran's I(用邻接矩阵替换空间权重矩阵),并开发了一个针对分类变量的检验统计量 \( \Phi \)(幻灯片 35)。在 FHS 的已发表论著中,检验了三个东西: 1. 回归残差:检测方差是否被低估。 2. 暴露变量(X)
3. 结局变量(Y) * [H:MM] 他们检验了5篇心血管文献和1篇 Christakis & Fowler 的网络/肥胖/ peer effects 文献。 * [0:26:20] 结果非常显著:几乎所有论文的残差、X和Y都表现出强依赖性(p值 < 0.01)。对 Christakis & Fowler 的肥胖传染论文,结果同样强。 * [0:27:30] Caveats:这只是“间接证据”(circumstantial),无法直接联系检验统计量的大小与假阳性率。检验是保守的,应宽松解释。

[0:28:30 - 0:34:10] 虚假关联 vs 未测量混杂(讲者的“大胆主张”) * [0:30:34] 核心论点:虚假关联在唯象上不同于因果混杂(对称分布 vs 定向偏倚)。 * [0:31:36] 不可区分性论据:以玩具为例,\( C, C' \) 标志变量可视为“潜在因子”。在一次抽样中,我们无法知道 \( C \)\( C' \) 是独立(虚假关联情形)还是相关(未测量混杂情形)。两者都与观测数据一致。因此,从一次样本推断“关联”时,你必须用额外假设(如站略性)来强行选择一个“抽样框架”。 * [0:33:00] 讲者的“大胆主张”: 1. 大量处理“未测量混杂”的文献(GWAS群体结构、批次效应、聚类指示变量)实际上是在处理共享依赖结构。 2. 这些方法(如 EIGENSTRAT、RUV、LEAPP)能成功,正是因为它们是在解决虚假关联,而不是真正的因果混杂。 3. 例外:工具变量、隐含变量图模型的非参数识别。

[0:34:10 - 0:41:00] 通往识别之路:参数化与非参数化方案 * [0:34:10] 讲者提出,我们可以借用基因组学中成功的参数化方法(如估计协方差矩阵 \( \Sigma \) 并校正)来解决社交网络中的虚假关联。 * [H:MM] 他们尝试使用了控制“隐蔽亲缘关系”(cryptic relatedness)的方法(如基因组学中的EIGENSTRAT变种)。 * 结果:“如果知道真实的方差-协方差矩阵(即知道真实的网络依赖结构),这些方法完美恢复真实的关联。” 但这极难实现。 * 现实失败:即使控制了 FHS 的邻接矩阵,仍检测到强依赖性(证明真实的依赖结构远复杂于简单的邻接关系)。 * [0:35:30 - 0:41:00] 对非参数识别的看法:讲者认为,在虚假关联情景下,可能需要另一个不可检验的假设——例如平稳性(stationarity)。这与忠实性、马克趁子条件或忽略性类似,都是一个关于性质的不可检验假设。

[0:41:00 - 0:44:15] 开放式问题与总结 1. 如何将网络依赖性检验的证据与实际虚假阳性率紧密联系起来。 2. 如何从数据中学习网络依赖结构(以控制它)。 3. 核心理论问题:在存在依赖(X内有,Y内有)的情况下,何时关联/因果效应是非参数可识别的? 即“正值与负值的虚假关联是否会在 \( n\to\infty \) 时相互抵消”?这取决于(部分不可检验的)平稳性。讲者个人认为这是未来最开敞、重要的理论难题之一。

四、对应论文与开放问题

对应论文: * Primary paper (转写中提及 "to appear in JASA"): * 讲者 [0:04:03] 指出 Youjin Lee 是本文第一作者,即将在 JASA发表。 * 转写稿中未给出准确标题。但可根据幻灯片内容确认,即 Lee Y, Ogburn EL (2019/2020). "Network Dependence Can Lead to Spurious Associations and Invalid Inference"(对应arXiv 1908.00520,用户提供)。该论文的核心内容是:建构论点、定义问题、改编Moran's I检验、进行FHS数据分析。 * 相关的理论基础(影响函数、CLT): * 讲者在[0:41:30 - 0:44:15]提到的“包含邻居独立性子网络”进行因果推断的理论,映射到她与合作者关于观测网络数据的因果推断方法的更多工作。论文标题/arXiv未在本次转写中提供。

开放问题(由讲者明确或强烈暗示,扎根于转写中的具体位置): 1. 因果联系问题 [0:27:30, 0:34:45]:如何将Moran's I检验(或类似检验)得出的依赖性强度(例如,z-分数大小),定量地转化为因果估计中的虚假发现率或实际偏差大小?讲者说“我们还没有将这个联系具体化”。

  1. 学习依赖结构 [0:34:45, 0:41:40]:如何在没有地理或谱系先验知识的社交网络数据中,估计驱动虚假关联的“共享依赖结构”(即协方差矩阵)?基因组学(通过SNP)能做到,社交网络则不然。

  2. 非参数可识别性边界 [0:35:30, 0:41:07]:在什么条件下,关联/因果效应在存在全局网络依赖(非多次独立子网络)时,能被非参数地识别?讲者提出平稳性是充分的,但不必是必要的。找到一个必要条件,或一个可检验的平稳性子集,是重要的理论目标。

  3. 有限样本中心极限定理的边界 [0:43:00]:社交网络大小 \( n \) 多大才能使得“依赖数据中心极限定理”有效(即在给定网络拓扑和依赖度下,渐近近似何时开始),这是一个“完全开放的问题”。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论