Causal Inference and Measure Construction: Towards a New Model of Measurement¶
讲者: Tyler VanderWeele
讨论人: Fredrik Sävje
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-05-03
主题: 因果推断
视频: https://youtu.be/UA2WvYlT2RE · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告站在 测量理论(psychometrics) 与 因果推断(causal inference) 的交叉点上,核心批评对象是社会科学(尤其是心理学和流行病学)中广泛采用的一个隐含推理链:
- 研究者提出一组指示变量(indicator items,例如量表中的五道题)。
- 通过因子分析(factor analysis),发现这些变量的协方差结构可以被一个单一潜变量(latent factor)很好地拟合(“单维性”证据)。
- 研究者不自觉地(或者未经论证地)从“统计因子模型”(statistical factor model)跨到“结构因子模型”(structural factor model)——即假设这个单一的潜变量是真实存在的、具有因果效能的(causally efficacious),并且是指示变量和所有其他变量之间关联的唯一渠道。
- 基于此,将指示变量简单求和(或取平均)得到一个“量表总分”,并用这个总分做后续的因果(或关联)分析,将其解读为“该潜变量”对结果的影响。
这条工作线追问的问题是:上述推理链中的第3步(统计→结构的跳跃)是否合理?如果潜变量结构事实上是多维的,或者存在因子间的因果关系,单波截面因子分析的结果会如何误导我们?当研究者不得不使用构造测量(constructed measure,如总分)时,我们能给出什么样的因果解释?
当前的fundament与主流路线: - 经典与主流路线(psychometrics):以 Bollen (1989) 的《Structural Equations with Latent Variables》为代表,强调“反射模型”(reflective model,潜变量引起指标)与“形成模型”(formative model,指标构成潜变量)的区别,并通过验证性因子分析(CFA)检验预设的因子结构。 - 对传统的早期批评:已有学者指出“形成模型”对因子的解释不同(Diamantopoulos & Winklhofer, 2001),以及“潜变量”的概念模糊性(Borsboom, Mellenbergh, & van Heerden, 2003,提出“潜变量是真实存在的属性”这一形而上学承诺是强的)。 - 因果推断视角下的先前工作:VanderWeele 本人和 Hernán (2013) 此前发展了“多重版本处理”(Multiple Versions of Treatment, MVT)理论,为“一个总体处理包含多种不同亚型”时的因果解释提供框架。
这场报告的站位:它既不是一篇纯方法的创新论文(没有提出新的半参数估计量或计算算法),也不是元分析,而是 一个方法论批评+一个替代性解释框架: 1. 批评部分:它不批判因子分析作为“数据降维或描述协方差结构”的工具,而是批评“从统计因子模型自动滑向结构因子模型”的未经审视的预设。 2. 技术贡献:它开发了一个可操作的统计检验(卡方检验),拒绝“结构因子模型”(即潜变量是唯一致因)。 3. 补充结果:它用一个动力学模型证明,即使真实存在两个多维因子,如果它们之间存在因果影响,在单波截面因子分析下也会“坍缩”为一个因子——这动摇了许多心理学量表“单维性证明”的证据。 4. 替代框架:基于 MVT 理论,为“构造测量”的因果解释提供了一条路径:比较两组(如高分 vs 低分)相当于随机抽选两种“处理版本分布”进行比较,而不是比较一个“真正的”潜变量。
关键参考文献(报告幻灯片与转写均提及,部分名称听不准需确认): - VanderWeele, T.J. (2022). Constructed measures and causal inference: towards a new model of measurement for psychosocial constructs. Epidemiology, 33:141-151. - VanderWeele, T.J. and Vansteelandt, S. (2022). A statistical test to reject the structural interpretation of a latent factor model. Technical Report. - VanderWeele, T.J. and Batty, C.J.K. (2022). On the dimensional indeterminacy of one-wave factor analysis under causal effects. Technical Report. —以上三篇是这场报告的理论支柱,标志着这条批评+替代路径的开端。
二、最小内核 / 一个最简例子¶
1. 符号与基本设置(最简版本)
- 可观测数据: \(X_1, X_2, Y, Z\)。
- \(X_1, X_2\):两个指示变量(items),例如量表中的两道题,假设已标准化(均值为0,方差为1)。
- \(Y\):一个结果变量,如“四年后是否死亡”(二值)。
- \(Z\):一个外部变量(可以是任何与factor和Y相关的变量,如年龄、一个随机化处理、或Y本身)。这里最简化为二值(如 \(Z \in \{0,1\}\))。
- 模型假设(古典统计因子模型):
\[X_1 = \lambda_1 \eta + \epsilon_1, \quad X_2 = \lambda_2 \eta + \epsilon_2,\]其中 \(\eta\) 是潜变量,不可观测;\(\epsilon_1, \epsilon_2\) 是零均值、独立于 \(\eta\) 且互不相关的误差;\(\lambda_1, \lambda_2\) 是因子载荷(factor loadings)。这就是一个统计因子模型——只描述了 \(X_1, X_2\) 的协方差结构可以用一个公共因子解释。
- 潜变量(不可观测):\(\eta\),referred to as 潜在因果效能变量(如果模型是结构性的)。
- 感兴趣的对象(estimand):本工作中不是估计某个具体的因果效应参数,而是检验一个假设(结构因子模型是否成立),以及“即使模型不成立,总分A= \(X_1+X_2\) 对Y的回归的因果解释是什么”。
2. 核心区分:统计 vs 结构因子模型
- 统计因子模型(同时满足):
- 上面的线性因子方程成立。
- \(\epsilon_1, \epsilon_2\) 与 \(\eta\) 独立,且互不相关。 但,不对 \(\eta, X_1, X_2\) 与其他任何变量的关系做任何因果结构假设。
- 结构因子模型(更严格):
除了上述统计条件,还必须满足(因果图论表述):对于所有与construct相关的变量 \(Z\)(包括结果 \(Y\)),有
\[Z \perp\!\!\!\perp (X_1, X_2) \mid \eta.\]即:一旦知道了 \(\eta\),指示变量 \(X_1, X_2\) 对 \(Z\) 就没有任何直接因果或非因果的“遗漏”信息。所有 \(X_1, X_2\) 与 \(Y\)、与 \(Z\) 的关联全部通过 \(\eta\) 传递。
3. 最简例子:检验结构因子模型
场景:研究者说“我构造了‘和谐性生活满意度’量表,包括两道题——(Q1)‘我的各方面生活条件都很棒’,(Q2)‘如果人生重来,我会改很少’。我用 IRT 分析证明它们在一个因子上有高载荷,所以它们测的是同一个‘生活满意度’潜变量。我用总分做 Cox 回归,发现高满意度的人死亡风险低26%。”
VanderWeele 的检验设想:如果真的是一个结构因子模型(即存在一个单一“生活满意度”\(\eta\),它完全解释了 \(X_1, X_2\) 与死亡风险 \(Y\) 的关联),那么应该满足:
这是因为两个指示变量只能通过 \(\eta\) 与 \(Y\) 关联。将这一相等性作为零假设构造检验,若拒绝,则结构因子模型不成立。例子中,实际数据强烈拒绝(卡方=57.25, df=4, p≈10⁻¹¹),因为 Q2 的关联几乎为零,而 Q1 的关联很强,说明这两个指示变量并非都由同一个 \(\eta\) 驱动其对死亡风险的效应。
对这个例子批评的提前回应:讨论人 Fredrik Sävje 和观众(如 Qinguan)都指出检验的强假设(线性因子模型是精确的、且其他非线性/交互效应不存在)。VanderWeele承认这是该方法的局限,但强调:“即使你不接受这个线性检验,你也不能自动假设统计因子等价于结构因子。证据的责任在主张结构模型的一方。”
三、报告主体:讲者讲了什么¶
结构:报告分为四部分(PPT幻灯片结构与转写一致),每条标注大致时间点。
[H:MM] 说明与关键内容
[0:01:22-0:05:30] 第一部分:动机与基本区分 - 主讲人介绍测量在物理属性 vs 心理/社会构念(psycho-social constructs)上的根本区别:后者定义模糊、测量间接,需要依赖一套指示变量。 - 引入经典反射模型(latent gives rise to indicators)和形成模型(indicators constitute latent),并指出二者都暗含一个单维潜变量 \(\eta\) 是因果效能的假设。 - 核心区分:统计因子模型(statistical factor model)vs 结构因子模型(structural factor model)。 - 统计:仅仅说 \(X_i = \lambda_i \eta + \epsilon_i\)(加上误差独立同分布、均值零等标准假设)。 - 结构:要求对所有 \(Z\),有 \(Z \perp (X_1,\dots,X_d) \mid \eta\)。在因果图中,除 \(\eta\) 外没有任何箭头进出 \(X_i\)。 - 区分这些的关键:同一个协方差矩阵可以由各种不同的因果结构产生(例如每个指示变量有自己的直接因果路径)。
[0:05:40-0:13:50] 第二部分:技术结果(1) —— 检验结构因子模型 - 主结果(转写 [0:11:57-0:12:10] 附近):在标准统计因子模型 + 结构性假设(\(Z \perp\!\!\!\perp X_i \mid \eta\))下,对于任意两个指标 \(i,j\) 和任意两层\(Z\),
[0:13:50-0:20:30] 实证案例:生活满意度量表 - 展示 Diener et al. (1985) 的“Satisfaction With Life Scale”(SWLS;>33,000引用),5个指标。传统心理测量指标(Cronbach's alpha / 单因子解释大部分方差)很好。 - 但与四年前总死亡率的关联分析(HRS, N≈13,000)显示:总分的HR=0.74(0.64,0.87);但分解到各指标,关联极不均匀(如第五题“if could live over...”几乎无关联)。 - 应用上述检验,卡方=57.25, df=(5-1)(2-1)=4, p≈1.1×10⁻¹¹ → 强烈拒绝单一结构因子模型。 - 结论:这意味着即使因子分析显示“单维性”,仍可能是每个指标都有自己的因果效应;这并不否定 SWLS 作为有用的总分(如作为结果变量),但否定了将它作为单一因果效能“生活满意度”潜变量代理变量用于因果推断。
[0:21:30-0:27:00] 讨论与Q&A - Vanessa 提问:这个检验是否像IV检验——只能拒绝、不能证明?讲者回答:是的,可以通过多个Z、多个结果累积证据,但不能严格证明结构模型。 - Qinguan 提问:如果测量模型是非线性的、或指示变量间有依存关系怎么办?讲者承认这是该方法的核心局限,并指出需要拓展到非线性。 - 另一个提问:这与“微分项目功能”(differential item functioning)有何关系?讲者回答:可以在有协变量的情况下分层检验。
[0:28:30-0:34:40] 第三部分:技术结果(2) —— 因子间因果关系导致维度坍缩 - 核心难题:即使我们放下对单因子的怀疑,如果我们有两个真正的不同因子(例如抑郁症因子\(\eta_1\)、焦虑症因子\(\eta_2\)),但它们之间存在因果关系(\(\eta_1 \rightarrow \eta_2\) 或双向),那么在一波横截面数据上做因子分析会得到什么? - 设定(幻灯片第23-24页与转写[0:30:0]附近): - 每个时间点指标只载入自己的因子(无跨负载)。 - 因子动力方程:\(\eta_t = B\,\eta_{t-1} + w_t\)(\(w_t\) 独立正态)。 - 主要定理:若过程收敛到平稳分布,只有 \(B = I\)(即因子间无因果效应)时平稳分布才能保持两个因子;否则,平稳分布的因子秩(rank)为1。 - 模拟:即使真实有两个因子且无跨负载,在合理参数下经过3-6个时间步,即使样本量1000-3000,统计检验也无法区分单因子 vs 双因子模型。 - 核心含义:单波截面的“单因子”证据极其脆弱,因为它完全不能区分“真的只有一个因子”与“有两个因子但二者有因果关系”这两种根本上不同的情境。
[0:36:00-0:38:00] 测量谬误 vs 因果谬误 - 讲者指出一个不对称:在流行病学/经济学中,我们警惕“因果谬误”(相关不等同于因果);但心理学测量界在犯相反的错误:“测量谬误”——认为相关从来不意味着因果,相关永远反映概念关系。 - 讲者讽刺指出:焦虑-抑郁的例子中,文献认为是单因子“general distress”,但讲者认为这是因果效应导致的混淆——焦虑引起抑郁、抑郁引起焦虑,因此因子分析错误地合并了它们。他强烈反对“焦虑和抑郁是同一个东西”的结论。
[0:39:00-0:45:30] 第四部分:替代方法——多重版本处理(MVT)解释 - 前置思想:放弃寻找“潜变量”。我们面对的是(可能是多维的)不可直接观测的“处理版本” \(K = \eta\)(即不可观测的潜变量向量)。 - 假设: 1. \(Y(k)\) 是潜在结果(\(K\) 为多个版本的集合)。 2. 无混淆:\(Y(k) \perp\!\!\!\perp K \mid L\)(其中 \(L\) 是观测协变量)。 3. 一致性:\(K=k \Rightarrow Y=Y(k)\)。 4. \(Y \perp\!\!\!\perp A \mid (K, L)\)(给定 \(K\) 和 \(L\),构造测量 \(A\) 不再提供关于 \(Y\) 的信息)。 - 定理(转写[0:41:10-0:42:0]):由 MVT(VanderWeele & Hernán, 2013)推广得到:
[0:45:30-0:48:00] 新测量模型与结论 - 讲者勾勒了一个更满意(但更模糊、更哲学化)的模型: - 底层现实 \(\mathcal{R}\) 非常复杂多维(\(\eta\) 是多维的)。 - 在此现实的基础上,人们建立概念(concepts)与更精确的构念(constructs)。 - 指示变量是这些复杂现实的部分表现。 - 问题:当前实践把“概念定义”这个工作扔给了因子分析这种经验方法,是错误的。我们必须结合分析哲学(analytic philosophy)来更清晰地定义构念、以及构念与指示变量之间的关系(必要/充分/举例说明)。 - 七个结论(幻灯片第35页,转写[0:48:00]): 1. 结构单维因子假设极强,可能经常不成立;可检验但通常未被检验。 2. 大多心理社会构念是多维的。 3. 因果效应扭曲了因子“发现”。 4. 因子分析能识别相关的指示变量组,但为什么相关需要概念与因果解释。 5. 总分作为一个汇总统计仍然可以用(尤其是作为结果变量)。 6. MVT提供了一个因果解释,但会掩盖效果,甚至可能方向错误。 7. 可以时,按指标分析更优。
四、对应论文与开放问题¶
(a)对应论文(此报告是以下三篇工作的口头呈现)
| 顺序 | 标题 / 核心内容 | 合作者 | 时间 & 出处 | 备注(不确定性) |
|---|---|---|---|---|
| 1 | “Constructed measures and causal inference: towards a new model of measurement for psychosocial constructs” | 独立作者 | Epidemiology 2022, 33(2):141-151. | 幻灯片明确显示;这是公众宣传/实证与概念性论文 |
| 2 | “A statistical test to reject the structural interpretation of a latent factor model” | Stijn Vansteelandt | Technical Report, 2022. 审稿重投中。arXiv可查。 | 幻灯片标题;转写中"Vansteelandt" 可能听成" Vans(?)"; 需要核实 |
| 3 | “On the dimensional indeterminacy of one-wave factor analysis under causal effects” | C.J.K. Batty | Technical Report, 2022. 审稿重投中。arXiv可查。 | 幻灯片标题;报告技术结果(2)的核心来源 |
(注:报告中多次提到的“multiple versions of treatment (MVT)”基础理论源自 VanderWeele & Hernán, 2013, Int J Epidemiol。)
(b)开放问题(每条扎根在转写的时间戳与语句)
- 非线性 / 相依误差的拓展([0:26:00-0:27:00] Q&A:Qinguan的问题):当前的结构性检验严格依赖于线性因子模型与独立误差。如果真实模型是非线性的、或者误差间有残差相关(如局部相依),拒绝可能源于模型误设而非真实的多维因果结构。开放问题:能否发展不依赖于线性假设的检验,或者对偏离具有稳健性的检验(好比“拉姆齐RESET检验”在线性模型中的角色)?
- “结构性”定义的免于循环的界定([0:54:20-0:55:20] 讨论人Sävje的批评):讲者用DAG(排除所有从指标出发的箭头)定义结构性,但这依赖于预设的DAG结构以及选定的指标集合。如果定义本身包含了指标,就无法独立评估这些指标是否合适。开放问题:能否给出一个不依赖于任何特定指示变量集合、但可在经验上(基于因果准则)锚定的“结构因子”定义(如,通过多个干预实验、或者跨情境的可交换性假设)?
- 识别多维“形成模型”中的因果结构(贯穿全线,尤其[0:25:00]附近提及“形成模型”):当前工作只讨论了反射模型。形成模型中(指示变量“构成”潜变量,如SES),情况不同。开放问题:在形成模型中,检验“单维结构”的类似工具是什么?当指示变量是构念的原因时,每个指标的因果效应是否仍然应当被分开解释?
- MVT解释与验证之间的张力([1:00:00-1:00:25] 讨论人Sävje的问题):讲者提出了MVT解释(任何构造测量都可以用分布比较解读),那检验结构因子模型还有什么意义?如果所有测量都可以用MVT解释,“错误”模型的惩罚是什么?开放问题:MVT解释是否实际上使得“检验”问题变得无关紧要?又或者,检验的目标应该转向“哪些指示子集对不同处理版本分布的区分最好”,而不是“因子模型是否正确”?
- 从MVT到可实施的干预([0:43:00-0:44:15] 讲者对该问题的承认):MVT解释提供的“干预”是对不可观测的K的分布进行随机化,这无法在实际中实施。开放问题:能否用指示变量本身构造可实施的随机化策略(比如对“是否参加宗教聚会”而非“社会整合指数”进行随机化),并使得MVT的比较结果能转化为可实施的政策建议?这本质上是在问:是否存在一种从不可观测版本分布比较 到 可观测工具变量(IV)/直接干预的可解释映射?
Maintained by 陈星宇 · Homepage · Source on GitHub