A Latent Trait-based Measure as a Data Harmonization and Missing Data Solution Applied to the Environmental Influences on Child Health Outcomes Cohort¶

作者: Emily A. Knapp, Amii M. Kress, Ronel Ghidey, Tyler J. Gorham, Brendan Galdo et al.
来源: Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001832

一、领域脉络与小综述¶

这个方向是什么：多队列协作联盟（consortia）中，来自不同队列的参与者数据在测量工具、问题措辞、变量定义和数据完整度上经常不一致。其统计核心问题是：如何在只有部分重叠的观测指标中，为同一潜在构念（latent construct）生成一个可跨队列比较的标准化测量，同时最大限度保留因间不匹配或缺失而损失的样本量。当前成熟度上，该问题在流行病学中愈发迫切（尤其是大规模儿科/产科协作研究），标准方法包括：筛选共同指标（commonly collected indicator approach）、多重插补（multiple imputation，MI）、和潜变量模型。
发展脉络（history）：
奠基工作：潜变量模型（如因子分析、IRT）本身是经典方法，但早期应用往往假设所有队列测量同一套完整指标，未处理“测量不重叠”问题。关键转折是Curran et al. (2008) 等提出“measurement harmonization”概念，呼吁为多队列设置共享度量。
主要进展：Bauer & Hussong (2009) 提出基于因子分析的“anchor-based”对齐策略，利用锚定项目（anchor items）对共同的潜在维度做对齐，但锚定项目的选择和不变性假设仍是瓶颈。Hussong et al. (2018) 等推广了广义结构方程框架来跨队列匹配测量。更近的进展是ROSETTA方法（原始提出者同本文多位作者，如Bartlett & Lau, 2020），它直接建模每个队列的测量子集与潜在因子间的映射关系，允许各队列观测指标集完全不重叠，并处理有序/连续/二值指标混用。ROSETTA在本文中被系统应用到SES场景。
当前frontier：ROSETTA方法本身已被提出，本文是其在海量真实数据（53队列、39,372人、52指标）上的大规模应用，目标是验证该方法在“数据一致化”和“缺失数据减少”两个维度上的实用性。研究者本人的兴趣中（因果推断、高维统计），该应用对应的是测量误差与代理变量问题。
本文的位置：本文不在证明新的理论，而是在说明“一个现有潜变量方法可以如何作为真实数据融合的解决方案，极大提升可用样本量，且效率优于简单筛选，次于MI但更可解释”。
子线索聚类：被引文献虽然来自众多作者，但可大致分为三条子线索：
数据一致化（Data Harmonization）：如Fortier et al. (2017) 的Maelstrom框架，关注元数据匹配和变量映射。ROSETTA与此关系最紧密。
缺失数据处理：经典的MI（多个被引，如van Buuren, 2018）与完整病例分析（CCA）。ROSETTA被作者与它们做比较，以证明“减少缺失程度”的优势。
潜变量测量模型：因子分析与IRT的传统（Muthén, 1984 等），ROSETTA延续这一传统但放宽了“完全重叠”要求。
这个方向在追问的核心问题
如何为不一致的多中心数据定义一个“通用”测量（common scale）？
这个通用测量在多大程度上能保留原始指标的变异解释能力（内容效度）？
与MI相比，潜变量方法在缺失数据恢复上的效率差距本质是什么（模型vs.插补、可解释性vs.样本利用率）？
使用潜变量因子分数（predicted factor score）作为下游回归的协变量时，如何校准标准误（这是本文未深入、而被自己提及limitation的问题）。
⚠️ 作者的 framing：作者将ROSETTA框架描述为“用于数据一致化和缺失数据解决方案的工具”，强调其在“测量不重叠不可避免”场景中的简洁与可解释性，而将MI定位为“计算成本更高、对缺失机制假设更敏感”的替代方案。实际被淡化的问题：本文在比较时仅给出缺失数据减少的数值（13个缺失指标的平均缺失率ROSETTA: 0.34，MI: 0.24，CCA: 0.67），但未比较回归系数估计的均方误差（MSE）——这是因果推断中更关核心的问题；作者也未给出因子分数不确定性如何传播到下游分析的标准评估。什么明显该存在却没出现：文献中缺少讨论因子分数的测量误差如何影响与协变量的关联的专门节，也未提及当因子模型误指定（如非线性、交互效应）时方法稳健性的报道或引用。
张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设一共有 \(K\) 个队列（cohort），每个队列 \(k\) 观测到一组指标（indicators）\(\mathbf{X}^{(k)} = (X_1^{(k)}, \ldots, X_{p_k}^{(k)})\)。这些指标是对同一个潜在多维构念 \(\boldsymbol{\eta}\) 的测量。在本文中，\(\boldsymbol{\eta}\) 是社会经济地位（SES），被假设为三维：\(\eta_1\) = 收入与教育、\(\eta_2\) = 保险与贫困、\(\eta_3\) = 失业。

关键的统计模型是线性因子模型（对连续指标）或线性因子模型 + 链接函数（对有序/二值指标）： - 对于连续指标 \(X_j^{(k)}\)（如连续的家庭收入，假设已经过适当变换），有：

\[X_j^{(k)} = \mu_j^{(k)} + \boldsymbol{\lambda}_j^{(k)\mathsf{T}} \boldsymbol{\eta} + \varepsilon_j^{(k)}, \quad \varepsilon_j^{(k)} \sim N(0, \sigma_j^{2})\]

- \(\mu_j^{(k)}\) 是指标 \(j\) 在队列 \(k\) 中的截距（允许各队列有均值的偏移）。 - \(\boldsymbol{\lambda}_j^{(k)}\) 是 \(3 \times 1\) 的因子载荷向量（表示指标 \(j\) 对 \(\eta_1, \eta_2, \eta_3\) 的敏感度）。 - \(\varepsilon_j^{(k)}\) 是残差（代表测量误差或独特变异），设为独立同分布高斯噪声。 - 对于二值（0/1）或有序指标（如是否购买商业保险），模型是对潜变量 \(Y_j^{(k)*}\) 做阈值切分：

\[Y_j^{(k)*} = \mu_j^{(k)} + \boldsymbol{\lambda}_j^{(k)\mathsf{T}} \boldsymbol{\eta} + \varepsilon_j^{(k)}, \quad \text{观测到} \quad X_j^{(k)} = t \iff \tau_{t-1}^{(k)} < Y_j^{(k)*} \le \tau_t^{(k)}.\]

对有序指标，阈值 \(\tau_t\) 需要估计。对二值，仅需一个阈值（通常固定为0）。

可观测数据：研究者实际能观测到的是： - 每个队列 \(k\) 里 \(n_k\) 个参与者的指标值 \(X_{1,i}^{(k)}, \ldots, X_{p_k,i}^{(k)}\)，\(i = 1,\ldots, n_k\)。 - 但是不同队列测量的指标集有差异，甚至完全不重叠。例如队列A可能测量了自己报告的“家庭收入中位数”和“母亲教育年限”，而队列B只测量了“是否领取贫困补助”和“医疗保险类型”。所以可观测的数据是一个极度稀疏且不匹配的矩阵，每行代表一个参与者，列代表全部52个可能的SES指标，但每个参与者的列上只有他所在队列测量的那些指标有值，其余为缺失。

想要但观测不到的是： - 每个参与者的潜在 SES 分数 \(\boldsymbol{\eta}_i = (\eta_{1,i}, \eta_{2,i}, \eta_{3,i})\)。 - 各队列特有的截距 \(\mu_j^{(k)}\) 和载荷 \(\boldsymbol{\lambda}_j^{(k)}\)（需要识别性假设来解开尺度混淆）。

识别条件：典型的识别策略是固定某个指标的载荷（如1）或固定潜在因子的均值为0、方差为1。本文采用因子旋转与前因子的标准正交化来获得具有内容效度的因子。

第二步：讲最小内核¶

最简特例：假设只有两个队列（K=2），每个队列只测两个指标，目标测量单一潜在变量 SES（\(d=1\)）。队列1测量收入（\(X_1\)）和教育（\(X_2\)）；队列2测量职业声望（\(X_3\)）和贫困状态（\(X_4\)，二值）。所以没有一对指标在两个队列中都出现。

可观测数据：队列1的 \(n_1\) 人：他们有 \(X_1, X_2\)，没有 \(X_3, X_4\)（缺失）；队列2的 \(n_2\) 人：他们有 \(X_3, X_4\)，没有 \(X_1, X_2\)（缺失）。
因子模型：
\[X_1 = \mu_1 + \lambda_1 \eta + \varepsilon_1, \quad X_2 = \mu_2 + \lambda_2 \eta + \varepsilon_2, \quad X_3 = \mu_3 + \lambda_3 \eta + \varepsilon_3, \quad X_4^* = \mu_4 + \lambda_4 \eta + \varepsilon_4, \quad \text{观测到} \quad X_4 = 1 \text{ if } X_4^* > 0, \text{ else } 0.\]
其中 \(\varepsilon_j \sim N(0, \sigma_j^2)\)，且 \(\eta \sim N(0,1)\)（识别性固定）。

核心思路：即使两个队列的指标完全不重叠，我们仍然可以通过假设所有指标都由同一个潜在变量 \(\eta\) 生成，来用整个数据（两个队列的全部信息）估计模型参数（\(\mu_j, \lambda_j, \sigma_j, \tau\)）。估计完成后，就能为每个参与者（无论来自哪个队列）生成一个可比较的潜在 SES 分数（因子分数）\(\hat{\eta}_i\)。

例子退化成什么：在这个二队列例子中，估计策略与传统的多组CFA不同，因为传统的CFA要求至少有一个测量在两个队列中共同出现（cross-loading），而这里没有。ROSETTA通过使用全部指标对公共因子的联合分布（利用每个参与者只提供部分信息，但在给定因子下的条件独立假设）来间接完成对齐。具体实现依赖于结构方程模型框架下多元正态分布的边际化和加权最小平方估计（对有序/二值指标）。本质上，等效于我们用一个完整数据似然（每个参与者贡献其队列观测指标的对数似然，该似然在对所有缺失指标边际化后得到）来拟合模型。

为什么可行：假设在队列1中，\(X_1\) 和 \(X_2\) 的协方差只由 \(\lambda_1 \lambda_2\)（共同依赖 \(\eta\)）贡献；在队列2中，\(X_3\) 和 \(X_4\) 的协方差只由 \(\lambda_3 \lambda_4\) 贡献。如果模型正确，这些协方差信息就可以被用于估计因子载荷的相对大小，而截距通过均值信息估计，但最大的关键跳跃点在于：队列间截距 \(\mu_j^{(k)}\) 的尺度（scale）会完全混淆因子均值。因为仅使用队列内部协方差，我们无法识别队列1和队列2的参与者是否平均有相同的SES。ROSETTA通过两种方式处理：(1) 固定某队列的因子均值（如队1均值为0），(2) 假设不同队列中同质指标（但这里没有同质指标！）——所以实际情况中要依赖通过“人口学锚定变量”或“队列效应在载荷中的可交换性假设”。本文对此演说较含糊，实际使用了许多人口学协变量作为锚。

三、这篇论文做了什么¶

三句话：① 本研究在 ECHO 多队列协作联盟中将 ROSETTA 潜变量方法应用于大规模真实数据，目标是构建一个可跨队列比较的社会经济地位（SES）通用测量指标，同时解决因队列间测量不一致导致的缺失数据问题。② 核心方法是因子分析（对连续/有序/二值指标混合的 CFA），通过假设所有观测指标由少数共同潜在因子生成，利用因子模型中部分缺失信息的似然进行标准化与对齐。③ 主要结论是：ROSETTA成功提取了3个内容效度较好的SES因子（收入与教育、保险与贫困、失业），使至少一个因子分数对34,528名参与者可用（占全样本87.7%），两因子可用的样本量超过任何单一指标；因子分数与产前吸烟概率的关联（OR=0.42）方向可预期；在缺失数据处理上，ROSETTA优于多数简单方法，仅略逊于多重插补。
关键设定与假设
六项核心假设（作者明确列出或隐含）：
1. 条件独立：给定潜在因子 \(\boldsymbol{\eta}\)，所有观测指标相互独立。
2. 测量不变性近似：尽管各队列测量指标不同，但同一指标在出现多个队列时，其载荷和截距被认为可跨队列比较（或作为可估计的参数）。
3. 正态性：潜在因子服从多元正态分布；连续指标的条件分布为正态。
4. 缺失机制：数据缺失与指标是否被测量直接相关（即取决于队列设计），而非完全依赖于潜在因子（MCAR？MAR？作者未明确但文中用了FIML，默认MAR）。
5. 因子维度：SES被充分简化为3个因子已足够（通过模型比较、指标对因子的内容归属验证确定）。
6. 识别性：每个因子至少有3个有效载荷（含交叉载荷）辅助识别；利用人口学协变量（如出生年份、母亲年龄）作为“锚定变量”帮助对齐因子均值与尺度。
相比已有文献：ROSETTA不要求队列之间有完全重叠的测量，这是最关键的放宽。传统CFA需要组间有至少一个共同测量的锚定项目，而ROSETTA通过同时为不同队列观测多个不同的指标集的联合分布建模来实现对齐，本质上使用了更多数据来克服匹配需求。
主要结果
因子结构与内容效度：3因子模型具有合理拟合（CFI = 0.94, TLI = 0.93, RMSEA = 0.07）。因子1（收入与教育）载荷最高的指标是“家庭收入/贫困线比例”（载荷=0.99）和“母亲教育水平”（载荷=0.78）；因子2（保险与贫困）主要载荷于“保险类型”（公共/私人/无）相关指标；因子3（失业）载荷于“是否失业”相关指标。因子之间相关：因子1与因子2 r=0.33，因子1与因子3 r=0.06，因子2与因子3 r=0.07。
样本保留能力：单一最佳SES指标“家庭收入/贫困线比例”仅对17，354名参与者可用。而ROSETTA的因子1分数对34，726人可用，因子2对34，228人可用，因子3对18，154人可用（因子3样本少是因为其基于的指标较少队列收集）。两因子同时可用的样本量（34,228）超过了任何单一指标——这就是核心实际优势。
与替代测量的相关性：因子1分数与备选SES指标（如“家庭收入/贫困线比例”）的相关性为0.40-0.89（数值取决于备选指标），提供了准则关联效度的证据。
下游分析：因子分数越高（SES越高），产前吸烟的几率越低（OR = 0.42，95% CI: 0.38，0.45）。方向符合预期，数值合理。该分析未调整因子分数的不确定性。
缺失数据结果：与CCA（完整病例分析）、均值替代、回归替代相比，ROSETTA的因子分数降低了显著更多的缺失。MI的缺失率（0.24）低于ROSETA（0.34）但差距在可以接受的范围内；作者认为ROSETTA的可解释性与因子效度优势可补偿这一样本损失。
证明路线与技术技巧（本文为应用论文，无严格数学证明）
整体路线实质上是数据清洗→模型指定→估计→因子分数生成→验证的流水线。
1. 指标选择与预处理：从ECHO仓库提取52个预定义的产前SES指标，分类（二值/有序/连续）并做定性（内容层面）归类。
2. 模型指定：使用结构方程模型软件（Mplus, 用WLSMV估计器处理混合类型指标），设定3因子CFA模型。每个指标由最多两个因子加载（交叉载荷允许但限制数量以保证识别），各队列截距差异被建模为μ_j^(k)参数。
3. 估计：使用完整信息最大似然（FIML，在缺失数据下）或加权最小平方估计（WLSMV，适用于有序/二值指标）。FIML假设缺失机制为MAR，并利用库所有可用数据进行参数估计。
4. 因子分数生成：基于估计的模型参数，用回归法或经验贝叶斯（regression method）为每个参与者预测各因子分数。
5. 效度验证：对比因子分数与备选SES测量的相关性；用因子分数作为解释变量做逻辑回归（产前吸烟）；比较缺失数据比例。均采用bootstrap或稳健标准误处理因子分数不确定？
技术技巧点名：使用了WLSMV（Weighted Least Squares Mean- and Variance-adjusted）估计器——这是处理有序/二值指标的标准工具，通过生成多项式相关矩阵（polychoric correlation）并对其做最小二乘拟合，来避免对数似然的直接计算。没有U统计量、经验过程或半参数高效推断技巧。
真实例子（论文本身就是应用，其全部数据结果即为真实例子）
数据：ECHO队列，53个队列，39，372名参与者。产前SES指标52个。
怎么用：运行CFA→提取因子1-3分数→在产前吸烟的逻辑回归中用因子1作为单协变量。
得到结果：如前所述，因子1分数可解释度与内容效度好，OR=0.42。因子结构合理，改善样本量。
例子想说明：验证ROSETTA在现实大联盟数据的可行性，说明其比“只取共同指标”的方法保留更多样本，因而能给出更精确（但可能偏倚，取决于因子模型正确性）的下游关联估计。
🔎 结论是否比证明窄：是的，本文结论中最关键的一个是“因子分数比任何单一指标保留了更多样本且提供了可比较的SES度量”，这在本文中被严格证明（通过给出样本量数字和缺失数据的直接比较）了。但结论隐含的延伸——因子分数作为SES的完全充分统计量——并未被证明。测试中，因子分数与备选测量的相关性有高有低（r=0.40-0.89），与其高度相关的指标才与因子共享变异；那些与因子相关性低的测量（如是否拥有汽车、居住面积等）可能代表了SES的不同维度，不能简单认为因子分数已捕捉了全部SES变异。另外，因子分数与产前吸烟的关联分析未校正因子分数作为多元回归中的生成协变量（error-in-variables）带来的估计偏倚与标准误低估，作者在limitations部分明确指出：“Factor scores are not observed without error... using them as observed variables in regression analyses may produce attenuated or biased associations and underestimated standard errors.”作者仅在部分分析中做了Bootstrap标准误，未做更严格的校准（如用plausible values或Bayesian提出full error propagation）。所以，本文的核心claim（因子分数有用）很强，但下游推断的统计正确性被弱化或简化为“仅为范例”，而非严谨的效率比较。

四、开放问题（点到为止，扎根具体语句）¶

因子分数的测量误差如何系统影响下游关联模型的估计？ 作者自己提出limitation：“Factor scores are not observed without error... using them as observed variables in regression analyses may produce attenuated or biased associations and underestimated standard errors.”（Discussion末）。研究点：能否提出一种将对因子分数不确定性的校准（如通过plausible values或Bayesian后验平均）整合到下游回归中，并证明其渐近效率？这直接贴合研究者熟悉的因果推断与半参理论。
ROSETTA的模型假设（条件独立、因子结构不变）在真实数据中是否成立？ 本文仅通过拟合指标（CFI=0.94）做了浅层评估，但并未验证条件独立假设（例如，收入与教育在给定SES后是否条件独立，或存在不通过SES的局部依赖）。研究点：如何设计一个可操作的对潜变量模型条件独立结构的检验统计量或敏感性分析？考察类似于残差相关矩阵的极限分布。如果研究者熟悉的高维U统计量能用于度量指标间的残差关联强度，这就是一个交叉机会。
如果需要处理高维潜在结构（d > 3）或非线性测量关系时，ROSETTA框架如何扩展？ 本文使用线性因子模型处理SES，但SES可能具有交互效应（如教育×收入交互影响健康未通过单一维度→非线性因子？）。本文在limitation中未明确提到。是否可引入更灵活的变分自动编码器或Latent variable model with interactions？但这对工具性要求高；一个更统计学的问题是：在非参数潜变量模型下，当各队列测量不重叠时，潜在因子是否能被非参数识别？这与作者在因果推断中接触的proximal causal inference有直接联系（非参数识别工具）。
多重插补与ROSETTA的互补性：本文将它们作为对比，但可能的协同是被忽略的：如先用ROSETTA因子模型对缺失指标做条件分布类的插补（式（1）中的条件正态分布可以自然产生插补值），再对插补后的数据做完整的因子分析？能否结合二者优势以减少MI对缺失机制假设的敏感性同时保留ROSETTA的解释性？这没有出现在本文结论或未来工作里，但显然是相邻且可操作的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub