Causal Inference and Measure Construction: Towards a New Model of Measurement¶

讲者: Tyler VanderWeele
讨论人: Fredrik Sävje
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-05-03
主题: 因果推断
视频: https://youtu.be/UA2WvYlT2RE · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告站在 测量理论（psychometrics） 与 因果推断（causal inference） 的交叉点上，核心批评对象是社会科学（尤其是心理学和流行病学）中广泛采用的一个隐含推理链：

研究者提出一组指示变量（indicator items，例如量表中的五道题）。
通过因子分析（factor analysis），发现这些变量的协方差结构可以被一个单一潜变量（latent factor）很好地拟合（“单维性”证据）。
研究者不自觉地（或者未经论证地）从“统计因子模型”（statistical factor model）跨到“结构因子模型”（structural factor model）——即假设这个单一的潜变量是真实存在的、具有因果效能的（causally efficacious），并且是指示变量和所有其他变量之间关联的唯一渠道。
基于此，将指示变量简单求和（或取平均）得到一个“量表总分”，并用这个总分做后续的因果（或关联）分析，将其解读为“该潜变量”对结果的影响。

这条工作线追问的问题是：上述推理链中的第3步（统计→结构的跳跃）是否合理？如果潜变量结构事实上是多维的，或者存在因子间的因果关系，单波截面因子分析的结果会如何误导我们？当研究者不得不使用构造测量（constructed measure，如总分）时，我们能给出什么样的因果解释？

当前的fundament与主流路线： - 经典与主流路线（psychometrics）：以 Bollen (1989) 的《Structural Equations with Latent Variables》为代表，强调“反射模型”（reflective model，潜变量引起指标）与“形成模型”（formative model，指标构成潜变量）的区别，并通过验证性因子分析（CFA）检验预设的因子结构。 - 对传统的早期批评：已有学者指出“形成模型”对因子的解释不同（Diamantopoulos & Winklhofer, 2001），以及“潜变量”的概念模糊性（Borsboom, Mellenbergh, & van Heerden, 2003，提出“潜变量是真实存在的属性”这一形而上学承诺是强的）。 - 因果推断视角下的先前工作：VanderWeele 本人和 Hernán (2013) 此前发展了“多重版本处理”（Multiple Versions of Treatment, MVT）理论，为“一个总体处理包含多种不同亚型”时的因果解释提供框架。

这场报告的站位：它既不是一篇纯方法的创新论文（没有提出新的半参数估计量或计算算法），也不是元分析，而是 一个方法论批评+一个替代性解释框架： 1. 批评部分：它不批判因子分析作为“数据降维或描述协方差结构”的工具，而是批评“从统计因子模型自动滑向结构因子模型”的未经审视的预设。 2. 技术贡献：它开发了一个可操作的统计检验（卡方检验），拒绝“结构因子模型”（即潜变量是唯一致因）。 3. 补充结果：它用一个动力学模型证明，即使真实存在两个多维因子，如果它们之间存在因果影响，在单波截面因子分析下也会“坍缩”为一个因子——这动摇了许多心理学量表“单维性证明”的证据。 4. 替代框架：基于 MVT 理论，为“构造测量”的因果解释提供了一条路径：比较两组（如高分 vs 低分）相当于随机抽选两种“处理版本分布”进行比较，而不是比较一个“真正的”潜变量。

关键参考文献（报告幻灯片与转写均提及，部分名称听不准需确认）： - VanderWeele, T.J. (2022). Constructed measures and causal inference: towards a new model of measurement for psychosocial constructs. Epidemiology, 33:141-151. - VanderWeele, T.J. and Vansteelandt, S. (2022). A statistical test to reject the structural interpretation of a latent factor model. Technical Report. - VanderWeele, T.J. and Batty, C.J.K. (2022). On the dimensional indeterminacy of one-wave factor analysis under causal effects. Technical Report. —以上三篇是这场报告的理论支柱，标志着这条批评+替代路径的开端。

二、最小内核 / 一个最简例子¶

1. 符号与基本设置（最简版本）

可观测数据： \(X_1, X_2, Y, Z\)。
- \(X_1, X_2\)：两个指示变量（items），例如量表中的两道题，假设已标准化（均值为0，方差为1）。
- \(Y\)：一个结果变量，如“四年后是否死亡”（二值）。
- \(Z\)：一个外部变量（可以是任何与factor和Y相关的变量，如年龄、一个随机化处理、或Y本身）。这里最简化为二值（如 \(Z \in \{0,1\}\)）。
模型假设（古典统计因子模型）：
\[X_1 = \lambda_1 \eta + \epsilon_1, \quad X_2 = \lambda_2 \eta + \epsilon_2,\]
其中 \(\eta\) 是潜变量，不可观测；\(\epsilon_1, \epsilon_2\) 是零均值、独立于 \(\eta\) 且互不相关的误差；\(\lambda_1, \lambda_2\) 是因子载荷（factor loadings）。这就是一个统计因子模型——只描述了 \(X_1, X_2\) 的协方差结构可以用一个公共因子解释。
潜变量（不可观测）：\(\eta\)，referred to as 潜在因果效能变量（如果模型是结构性的）。
感兴趣的对象（estimand）：本工作中不是估计某个具体的因果效应参数，而是检验一个假设（结构因子模型是否成立），以及“即使模型不成立，总分A= \(X_1+X_2\) 对Y的回归的因果解释是什么”。

2. 核心区分：统计 vs 结构因子模型

统计因子模型（同时满足）：
1. 上面的线性因子方程成立。
2. \(\epsilon_1, \epsilon_2\) 与 \(\eta\) 独立，且互不相关。但，不对 \(\eta, X_1, X_2\) 与其他任何变量的关系做任何因果结构假设。
结构因子模型（更严格）：除了上述统计条件，还必须满足（因果图论表述）：对于所有与construct相关的变量 \(Z\)（包括结果 \(Y\)），有
\[Z \perp\!\!\!\perp (X_1, X_2) \mid \eta.\]
即：一旦知道了 \(\eta\)，指示变量 \(X_1, X_2\) 对 \(Z\) 就没有任何直接因果或非因果的“遗漏”信息。所有 \(X_1, X_2\) 与 \(Y\)、与 \(Z\) 的关联全部通过 \(\eta\) 传递。

3. 最简例子：检验结构因子模型

场景：研究者说“我构造了‘和谐性生活满意度’量表，包括两道题——(Q1)‘我的各方面生活条件都很棒’，(Q2)‘如果人生重来，我会改很少’。我用 IRT 分析证明它们在一个因子上有高载荷，所以它们测的是同一个‘生活满意度’潜变量。我用总分做 Cox 回归，发现高满意度的人死亡风险低26%。”

VanderWeele 的检验设想：如果真的是一个结构因子模型（即存在一个单一“生活满意度”\(\eta\)，它完全解释了 \(X_1, X_2\) 与死亡风险 \(Y\) 的关联），那么应该满足：

\[\frac{E[X_1 \mid Y=1] - E[X_1 \mid Y=0]}{\lambda_1} = \frac{E[X_2 \mid Y=1] - E[X_2 \mid Y=0]}{\lambda_2}.\]

这是因为两个指示变量只能通过 \(\eta\) 与 \(Y\) 关联。将这一相等性作为零假设构造检验，若拒绝，则结构因子模型不成立。例子中，实际数据强烈拒绝（卡方=57.25, df=4, p≈10⁻¹¹），因为 Q2 的关联几乎为零，而 Q1 的关联很强，说明这两个指示变量并非都由同一个 \(\eta\) 驱动其对死亡风险的效应。

对这个例子批评的提前回应：讨论人 Fredrik Sävje 和观众（如 Qinguan）都指出检验的强假设（线性因子模型是精确的、且其他非线性/交互效应不存在）。VanderWeele承认这是该方法的局限，但强调：“即使你不接受这个线性检验，你也不能自动假设统计因子等价于结构因子。证据的责任在主张结构模型的一方。”

三、报告主体：讲者讲了什么¶

结构：报告分为四部分（PPT幻灯片结构与转写一致），每条标注大致时间点。

[H:MM] 说明与关键内容

[0:01:22-0:05:30] 第一部分：动机与基本区分 - 主讲人介绍测量在物理属性 vs 心理/社会构念（psycho-social constructs）上的根本区别：后者定义模糊、测量间接，需要依赖一套指示变量。 - 引入经典反射模型（latent gives rise to indicators）和形成模型（indicators constitute latent），并指出二者都暗含一个单维潜变量 \(\eta\) 是因果效能的假设。 - 核心区分：统计因子模型（statistical factor model）vs 结构因子模型（structural factor model）。 - 统计：仅仅说 \(X_i = \lambda_i \eta + \epsilon_i\)（加上误差独立同分布、均值零等标准假设）。 - 结构：要求对所有 \(Z\)，有 \(Z \perp (X_1,\dots,X_d) \mid \eta\)。在因果图中，除 \(\eta\) 外没有任何箭头进出 \(X_i\)。 - 区分这些的关键：同一个协方差矩阵可以由各种不同的因果结构产生（例如每个指示变量有自己的直接因果路径）。

[0:05:40-0:13:50] 第二部分：技术结果(1) —— 检验结构因子模型 - 主结果（转写 [0:11:57-0:12:10] 附近）：在标准统计因子模型 + 结构性假设（\(Z \perp\!\!\!\perp X_i \mid \eta\)）下，对于任意两个指标 \(i,j\) 和任意两层\(Z\)，

\[\frac{E[X_i \mid Z=z] - E[X_i \mid Z=z']}{\lambda_i} = \frac{E[X_j \mid Z=z] - E[X_j \mid Z=z']}{\lambda_j}.\]

- 这个条件可以通过广义矩估计（GMM）转化为一个可检验的零假设。构造矩条件：

\[U_k = (X_k - \gamma_k - \beta W \cdot \lambda_k),\]

其中 \(W\) 是 \(Z\) 的某种编码（如二值指示），\(\gamma_k\) 是截距。最小化

\[Q(\theta) = U^\top \Sigma^{-1} U\]

得到的 \(Q\) 在零假设下服从 \(\chi^2_{(d-1)(p-1)}\)，其中\(d\)是指标数，\(p\)是\(Z\)的层数。 - 如果\(\lambda_i\)需要预先估计（通常如此），需要调整自由度或使用修正的协方差矩阵。 - 替代/更弱假设的检验：如果 \(Z\) 有超过两层，可以用不依赖估计\(\lambda_i\)的检验。

[0:13:50-0:20:30] 实证案例：生活满意度量表 - 展示 Diener et al. (1985) 的“Satisfaction With Life Scale”（SWLS；>33,000引用），5个指标。传统心理测量指标（Cronbach's alpha / 单因子解释大部分方差）很好。 - 但与四年前总死亡率的关联分析（HRS, N≈13,000）显示：总分的HR=0.74(0.64,0.87)；但分解到各指标，关联极不均匀（如第五题“if could live over...”几乎无关联）。 - 应用上述检验，卡方=57.25, df=(5-1)(2-1)=4, p≈1.1×10⁻¹¹ → 强烈拒绝单一结构因子模型。 - 结论：这意味着即使因子分析显示“单维性”，仍可能是每个指标都有自己的因果效应；这并不否定 SWLS 作为有用的总分（如作为结果变量），但否定了将它作为单一因果效能“生活满意度”潜变量代理变量用于因果推断。

[0:21:30-0:27:00] 讨论与Q&A - Vanessa 提问：这个检验是否像IV检验——只能拒绝、不能证明？讲者回答：是的，可以通过多个Z、多个结果累积证据，但不能严格证明结构模型。 - Qinguan 提问：如果测量模型是非线性的、或指示变量间有依存关系怎么办？讲者承认这是该方法的核心局限，并指出需要拓展到非线性。 - 另一个提问：这与“微分项目功能”（differential item functioning）有何关系？讲者回答：可以在有协变量的情况下分层检验。

[0:28:30-0:34:40] 第三部分：技术结果(2) —— 因子间因果关系导致维度坍缩 - 核心难题：即使我们放下对单因子的怀疑，如果我们有两个真正的不同因子（例如抑郁症因子\(\eta_1\)、焦虑症因子\(\eta_2\)），但它们之间存在因果关系（\(\eta_1 \rightarrow \eta_2\) 或双向），那么在一波横截面数据上做因子分析会得到什么？ - 设定（幻灯片第23-24页与转写[0:30:0]附近）： - 每个时间点指标只载入自己的因子（无跨负载）。 - 因子动力方程：\(\eta_t = B\,\eta_{t-1} + w_t\)（\(w_t\) 独立正态）。 - 主要定理：若过程收敛到平稳分布，只有 \(B = I\)（即因子间无因果效应）时平稳分布才能保持两个因子；否则，平稳分布的因子秩（rank）为1。 - 模拟：即使真实有两个因子且无跨负载，在合理参数下经过3-6个时间步，即使样本量1000-3000，统计检验也无法区分单因子 vs 双因子模型。 - 核心含义：单波截面的“单因子”证据极其脆弱，因为它完全不能区分“真的只有一个因子”与“有两个因子但二者有因果关系”这两种根本上不同的情境。

[0:36:00-0:38:00] 测量谬误 vs 因果谬误 - 讲者指出一个不对称：在流行病学/经济学中，我们警惕“因果谬误”（相关不等同于因果）；但心理学测量界在犯相反的错误：“测量谬误”——认为相关从来不意味着因果，相关永远反映概念关系。 - 讲者讽刺指出：焦虑-抑郁的例子中，文献认为是单因子“general distress”，但讲者认为这是因果效应导致的混淆——焦虑引起抑郁、抑郁引起焦虑，因此因子分析错误地合并了它们。他强烈反对“焦虑和抑郁是同一个东西”的结论。

[0:39:00-0:45:30] 第四部分：替代方法——多重版本处理（MVT）解释 - 前置思想：放弃寻找“潜变量”。我们面对的是（可能是多维的）不可直接观测的“处理版本” \(K = \eta\)（即不可观测的潜变量向量）。 - 假设： 1. \(Y(k)\) 是潜在结果（\(K\) 为多个版本的集合）。 2. 无混淆：\(Y(k) \perp\!\!\!\perp K \mid L\)（其中 \(L\) 是观测协变量）。 3. 一致性：\(K=k \Rightarrow Y=Y(k)\)。 4. \(Y \perp\!\!\!\perp A \mid (K, L)\)（给定 \(K\) 和 \(L\)，构造测量 \(A\) 不再提供关于 \(Y\) 的信息）。 - 定理（转写[0:41:10-0:42:0]）：由 MVT（VanderWeele & Hernán, 2013）推广得到：

\[E\{E[Y \mid A=a, L]\} = \int E[Y(k)] \; dF_{K \mid A=a, L}(k),\]

即比较两个A水平的效果，可以解释为比较两组群体中K的经验分布，类似于从各自的K分布中采取一个随机版本进行处理。 - 解释21：不能回答“干预方案是提升一个单位的潜变量η”，而是回答“如果将一个人群中A=a的K分布随机分配给A=a的人群，会看到什么效果？”——这很模糊，但提供了在缺乏潜变量理论时对回归系数的形式化解释。 - 讲者承认：这个解释很激进（radical freedom: 用什么 constructed measure 都行），但把实质性解释的负担重新放回在具体指示变量和研究背景下。它也承认不能指导干预*（因为K是未观测的）。

[0:45:30-0:48:00] 新测量模型与结论 - 讲者勾勒了一个更满意（但更模糊、更哲学化）的模型： - 底层现实 \(\mathcal{R}\) 非常复杂多维（\(\eta\) 是多维的）。 - 在此现实的基础上，人们建立概念（concepts）与更精确的构念（constructs）。 - 指示变量是这些复杂现实的部分表现。 - 问题：当前实践把“概念定义”这个工作扔给了因子分析这种经验方法，是错误的。我们必须结合分析哲学（analytic philosophy）来更清晰地定义构念、以及构念与指示变量之间的关系（必要/充分/举例说明）。 - 七个结论（幻灯片第35页，转写[0:48:00]）： 1. 结构单维因子假设极强，可能经常不成立；可检验但通常未被检验。 2. 大多心理社会构念是多维的。 3. 因果效应扭曲了因子“发现”。 4. 因子分析能识别相关的指示变量组，但为什么相关需要概念与因果解释。 5. 总分作为一个汇总统计仍然可以用（尤其是作为结果变量）。 6. MVT提供了一个因果解释，但会掩盖效果，甚至可能方向错误。 7. 可以时，按指标分析更优。

四、对应论文与开放问题¶

（a）对应论文（此报告是以下三篇工作的口头呈现）

顺序	标题 / 核心内容	合作者	时间 & 出处	备注（不确定性）
1	“Constructed measures and causal inference: towards a new model of measurement for psychosocial constructs”	独立作者	Epidemiology 2022, 33(2):141-151.	幻灯片明确显示；这是公众宣传/实证与概念性论文
2	“A statistical test to reject the structural interpretation of a latent factor model”	Stijn Vansteelandt	Technical Report, 2022. 审稿重投中。arXiv可查。	幻灯片标题；转写中"Vansteelandt" 可能听成" Vans(?)"; 需要核实
3	“On the dimensional indeterminacy of one-wave factor analysis under causal effects”	C.J.K. Batty	Technical Report, 2022. 审稿重投中。arXiv可查。	幻灯片标题；报告技术结果(2)的核心来源

（注：报告中多次提到的“multiple versions of treatment (MVT)”基础理论源自 VanderWeele & Hernán, 2013, Int J Epidemiol。）

（b）开放问题（每条扎根在转写的时间戳与语句）

非线性 / 相依误差的拓展（[0:26:00-0:27:00] Q&A：Qinguan的问题）：当前的结构性检验严格依赖于线性因子模型与独立误差。如果真实模型是非线性的、或者误差间有残差相关（如局部相依），拒绝可能源于模型误设而非真实的多维因果结构。开放问题：能否发展不依赖于线性假设的检验，或者对偏离具有稳健性的检验（好比“拉姆齐RESET检验”在线性模型中的角色）？
“结构性”定义的免于循环的界定（[0:54:20-0:55:20] 讨论人Sävje的批评）：讲者用DAG（排除所有从指标出发的箭头）定义结构性，但这依赖于预设的DAG结构以及选定的指标集合。如果定义本身包含了指标，就无法独立评估这些指标是否合适。开放问题：能否给出一个不依赖于任何特定指示变量集合、但可在经验上（基于因果准则）锚定的“结构因子”定义（如，通过多个干预实验、或者跨情境的可交换性假设）？
识别多维“形成模型”中的因果结构（贯穿全线，尤其[0:25:00]附近提及“形成模型”）：当前工作只讨论了反射模型。形成模型中（指示变量“构成”潜变量，如SES），情况不同。开放问题：在形成模型中，检验“单维结构”的类似工具是什么？当指示变量是构念的原因时，每个指标的因果效应是否仍然应当被分开解释？
MVT解释与验证之间的张力（[1:00:00-1:00:25] 讨论人Sävje的问题）：讲者提出了MVT解释（任何构造测量都可以用分布比较解读），那检验结构因子模型还有什么意义？如果所有测量都可以用MVT解释，“错误”模型的惩罚是什么？开放问题：MVT解释是否实际上使得“检验”问题变得无关紧要？又或者，检验的目标应该转向“哪些指示子集对不同处理版本分布的区分最好”，而不是“因子模型是否正确”？
从MVT到可实施的干预（[0:43:00-0:44:15] 讲者对该问题的承认）：MVT解释提供的“干预”是对不可观测的K的分布进行随机化，这无法在实际中实施。开放问题：能否用指示变量本身构造可实施的随机化策略（比如对“是否参加宗教聚会”而非“社会整合指数”进行随机化），并使得MVT的比较结果能转化为可实施的政策建议？这本质上是在问：是否存在一种从不可观测版本分布比较 到 可观测工具变量（IV）/直接干预的可解释映射？

Maintained by 陈星宇 · Homepage · Source on GitHub

Causal Inference and Measure Construction: Towards a New Model of Measurement¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论