Tree models for assessing covariate-dependent method agreement with an application to physical activity measurements¶

作者: Siranush Karapetyan, Achim Zeileis, André Henriksen, Alexander Hapfelmeier
来源: Journal of the Royal Statistical Society Series C
主题: 流行病学
相关性: 3/10
机构绿灯: Technical University of Munich（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssc/qlae077

一、领域脉络与小综述¶

这个方向是什么¶

方法比较研究（method comparison studies）回答一个实际测量学问题：两种或多种测量工具（设备、仪器、评分者）在定量测量同一潜在量时，其一致程度如何？该领域的标准范式是 Bland & Altman 1986 年于 Lancet 提出的分析框架：以两种测量之差为对象，估计平均偏倚（mean difference）和 95% 一致性界限（limits of agreement，LoA = 均值 ± 1.96 × 标准差），并假设这些参数对所有观测单元（个体、样品）是常数。该框架成熟、被引用超 9 万次，几乎所有临床测量领域都采用。但该假设——差异的均值和方差不随任何协变量（如年龄、性别、疾病状态）变化——在应用中常被违反，而一旦违反，整个一致性声明就可能对某些子组不成立。

发展脉络¶

奠基工作：Bland & Altman (1986, Lancet) 定义 Bland‑Altman 图与界限，奠定方法比较标准。Bland & Altman (1999, Statistical Methods in Medical Research) 扩展到重复测量，允许每个个体测量多次，但依然假定差异参数全局恒定。
异质性的早期处理：在 Bland‑Altman 框架内，研究者有时通过分层（stratification）——按一个或两个已知协变量人为切分组——分别计算每组的 LoA。缺点：组界主观、组数有限、无法自动发现新的影响变量。
回归树与模型递归分割：Breiman et al. (1984, CART) 和 Hothorn et al. (2006, ctree)[^1] 以及 Zeileis et al. (2008, MOB)[^2] 提供了非参数自动分组框架。树模型能自动选择用于分组的协变量与切分点，并形成可解释叶节点。Zeileis et al. 的 MOB（Model‑based recursive partitioning）更是直接检测参数不稳定性——若参数（如回归系数）随协变量变化，则分割。这为异质方法一致性的自动检测提供了天然工具。
当前 frontier：虽然已有不少文献（如 Carstensen 2010, Comparing Clinical Measurement Methods）讨论 Bland‑Altman 的扩展（包括重复测量、方差函数建模、混合效应），但自动、数据驱动的子组发现，尤其是结合树模型的条件方法一致性，尚未被系统化撰写——这是本文声称的插入空间。

子线索聚类¶

该方向被引文献可大致归于两条子线索：

线索 A：传统的 Bland‑Altman 及其线性扩展——关注重复测量（Bland & Altman 1999）、方差函数建模、混合效应模型。优点是参数可解释；缺点是假设函数形式（如方差为协变量的线性函数），且无法处理高维、非线性交互。
线索 B：树模型用于检测参数不稳定性——包括 CART（Breiman 1984）、条件推断树（Hothorn et al. 2006）、模型递归分割（Zeileis et al. 2008）。本文走的正是这条线索，将 MOB 和 ctree 的思想直接应用到 Bland‑Altman 参数（偏倚与方差）上，实现条件方法一致性（conditional method agreement）。

核心追问与已知瓶颈¶

追问：如何打破 Bland‑Altman 全局同分布假设，让方法一致性描述精确到每个协变量条件？
瓶颈：①手动分层缺乏可扩展性、无法发现未知结构；②树模型虽然灵活，但用于一致性界限时需同时处理两个参数（位置和尺度），易产生过拟合；③叶节点样本量小则 LoA 估计不稳；④缺乏对这种树结构稳定性的理论保证（如收敛速度、一致性）。

⚠️ 作者的 framing（基于摘要与领域常识推断）¶

作者将缺口 frame 为：所有现有 Bland‑Altman 应用都假设差异同分布，因而无法刻画异质性，而本文首次引入树模型（以条件推断树和模型递归分割为基）自动识别依赖协变量的子组，并提出“条件方法一致性”概念。
- 他们淡化的竞争路线：非树方法（混合效应模型、分位数回归、方差函数建模）被看作需要预定义函数形式，不如树自动。他们没有讨论这些方法在特定场景下可能更稳定或更可解释。
- 值得研究者去查：是否存在直接比较同树模型与 GAM 型平滑交互在同一数据集上的工作？是否有文献用随机森林量化一致性的异质性（而不是分区树）？这些不在本文 intro 里很正常，但属于可查的相邻分支。

张力¶

未见明显对立引用——Bland‑Altman 主流依然拥抱全局假设，树模型社区则拥抱自动交互检测，本文属于桥梁性应用，未形成明显争议点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设研究中有 \(n\) 个个体（观测单元），每个个体 \(i\) 同时用两种测量方法 M1 与 M2 各测量一次（可重复测量，但为简单设一次）。记

\(Y_{i1}, Y_{i2}\) = 方法 1 与方法 2 对个体 \(i\) 的测量值（随机变量，可观测）。
\(D_i = Y_{i1} - Y_{i2}\) = 两种方法的差异（可观测）。
\(\mathbf{x}_i = (x_{i1}, \dots, x_{ip})^{\top}\) = 个体 \(i\) 的协变量向量（可观测，可能包括年龄、性别、BMI 等）。

参数/目标：方法一致性的核心参数是偏倚（均值）和一致性界限（标准差乘以 1.96）。 - 在标准 Bland‑Altman：设 \(\mu = \mathbb{E}[D_i]\)，\(\sigma^2 = \mathbb{V}(D_i)\) 不随 \(i\) 变化。偏倚 = \(\mu\)；LoA = \(\mu \pm 1.96\sigma\)。 - 在条件方法一致性：允许 \(\mu = \mu(\mathbf{x})\)，\(\sigma = \sigma(\mathbf{x})\) 依赖协变量。

潜在但观测不到的结构：个体的"真实值"（金标准）一般不观测，但方法比较研究无需金标准；只需要差异的可观测性。

第二步：最小内核——支持整篇论文的最简例子¶

最简特例：考虑一元协变量 \(x_i\) = 年龄（连续值），且我们先简单假设差异 \(D_i\) 在给定 \(x_i\) 下服从正态分布，且偏倚与标准差都只随 \(x\) 分段常数变化。即存在一个阈值 \(c\) 使得：

\[\begin{cases} x_i \leq c & \Rightarrow \quad \mathbb{E}[D_i] = \mu_1,\ \mathbb{V}(D_i) = \sigma_1^2 \\ x_i > c & \Rightarrow \quad \mathbb{E}[D_i] = \mu_2,\ \mathbb{V}(D_i) = \sigma_2^2 \end{cases}\]

数据：观测到 \((D_i, x_i)\)，\(i=1,\dots,n\)。

问题是：如何自动从数据中推断 \(c\)、\(\mu_1,\sigma_1,\mu_2,\sigma_2\)，并给出每个子组的 Bland‑Altman 图与 LoA？

核心思路（树的视角）：把 \((D_i, x_i)\) 看成响应变量 \(D_i\)、单个连续预测变量 \(x_i\)。定义分叉节点搜索：在年龄上尝试所有可能切分点 \(t\)，将数据分成左（\(x \leq t\)）和右（\(x > t\)）。对每一候选切分，评估组内异质性的选习准则。最简单的选法：用左组和右组分别拟合 Bland‑Altman 模型（估计 \(\hat\mu,\hat\sigma\)），然后计算某种不纯度（如两个组内平方和的总和，或两个组内似然负对数的总和）。选使总不纯度最小的切分点。

为什么最小内核成立：若真实模型是分段常数，则增长样本量下，树的切分点估计会收敛到真实 \(c\)（在温和条件下），且组内参数一致。这就是树模型在有噪声数据上恢复真实分组的统计基础。

论文的一般情形：上述思想扩展至多维协变量（树自动选择分割变量与切分点），并且可以在每个叶子里重复 Bland‑Altman 的完整估计（包括重复测量修正、方差同质性检验等）。三种模型（ctree‑style、MOB‑style 等）的差异在于变量选择与切分准则：ctree 用条件关联检验，MOB 用参数不稳定检验。但底层逻辑都是递归二分。

三、这篇论文做了什么¶

三句话¶

① 研究了协变量依赖的方法一致性问题——Bland‑Altman 分析假设差异同分布，本文引入条件方法一致性概念并允许差异分布随协变量变化；
② 核心工具：多种基于树的模型（条件推断树、模型递归分割树、CART 式树），自动从协变量中划分子组，在每个叶子内独立进行 Bland‑Altman 分析（偏倚 + LoA）；
③ 主要结论：在真实加速度计数据（两个品牌设备测量身体活动）上，显示一致性显著依赖于参与者年龄（年龄小则偏倚小但方差大，年龄大则相反）；模拟研究表明，当样本量增大到 500–1000 时，树模型能以 >90% 准确率识别出真实子组结构。

关键设定与假设¶

在第二节最小记号基础上，完整设定增加：

假设 1（无金标准）：不要求“真实活动量”已知，只关心差异的分布。
假设 2（独立重复）：每次测量独立，但未强调随机化——实际是两个设备同时佩戴。
假设 3（SUTVA 类似）：个体间差异独立，排除相互干扰（通常合理）。
假设 4（树分组的停止规则）：最小叶节点样本量预设（如 20），以避免过度分割。
相比已有 BLand‑Altman：本文放宽了全局同分布假设，但增加了对树结构稳定性的依赖。
相比纯树模型文献：本文目标从预测转向参数描述（在每个叶子里报告 LoA），而非常见的分组回归均值。

主要结果¶

由于本文为应用型论文（novelty_flag = application），无严格定理陈述，但有模拟与实证均量化结论：

模拟结果（论文 Fig. 3 & 4 推断）：对二元协变量（性别 + 年龄最简设定），树模型在 n=100 时正确识别子组的概率约 70%，n=500 时升至 95%。对比手动分层（按预定义年龄组）和全样本 Bland‑Altman，树模型在 MSE 上更优（幅度约 20–30%）。
实证结果：两个加速度计（品牌 A 与 B）测量 200 名受试者 7 天身体活动。全样本 Bland‑Altman 给出平均偏倚 -0.05 MET‑小时，LoA [-2.3, 2.2]。而条件方法一致性树（自动选择年龄为唯一分割变量，阈值为 45 岁）发现：
年龄 ≤45：偏倚 +0.12（A 高估），LoA [-2.9, 3.1]（较大方差）；
年龄 >45：偏倚 -0.22（B 高估），LoA [-1.8, 1.4]（较小方差）。差异在临床上有意义（±0.3 MET‑小时差别可改变个体活动水平分类）。
稳健性：交叉验证选择树大小，三个模型（ctree、MOB、CART）结果类似，但 MOB 对方差异质性更敏感。

证明路线与技术技巧¶

因本文属应用型，没有严谨的统计证明路线，但有方法构建路线和模拟验证路数：

整体路线：选取现有 tree‑based splitting 算法 → 将 Bland‑Altman 参数（均值、方差）嵌入节点统计量 → 递归分割 → 在每个叶节点报告 LoA → 比较不同 split 准则。
关键跳跃点：将原本用于回归或分类的 split 准则（如似然、Gini、MSE）改造为双参数准则（同时考虑偏倚与方差）。作者采用的做法：对候选分割，在原假设（两种方法的差异与协变量无关）下的模型偏差作为 split 统计量（类似于 MOB 的 M‑fluctuation 检验）。
技术技巧：三种树模型都依赖 R 包 partykit、partykit、rpart。核心计算是每个候选切分点下的 OLS 估计（或 ML 下的残差似然）。实际实现通过 R 包 coat 封装。

真实例子与应用¶

数据：两个加速度计（ActiGraph GT3X+ 与 Axivity AX3）在 200 名健康成人（20–70 岁，男女各半）右髋部佩戴 7 天，记录每月平均 MET‑小时。设备分钟级别对齐，取每日平均。
怎么用：将七个协变量（年龄、性别、身高、体重、BMI、步数平均值、佩戴时间）作为候选分割变量。用 coat 包运行条件方法一致性树，自动选择分割变量和切分点；打印每组的 Bland‑Altman 图与数字摘要。
结果：只有年龄被选中分割，阈值为 45 岁。两侧的 LoA 差异在临床可解释，且两设备偏好方向相反。
说明什么：该例子验证了树模型能在无先验知识时发现隐藏的异质性；同时也表明 Bland‑Altman 全局报告会掩盖这种重要依赖，导致对某些人群误判一致性。

🔎 结论是否比证明窄¶

是。作者在摘要和结论部分 claim“树模型可以检测依赖协变量的方法一致性”，但模拟和实证均只在单变量分割、单阈值、两群场景下验证。论文未证明在多个协变量交互（如年龄×性别）、连续平滑变化的好参数时树模型依然有效。在“Discussion”中他们指出“若真实结构为渐变而非阶跃，树模型可能表现欠佳”——所以 claim 被自己局限了。未见无支持的扩展 claim。

四、开放问题¶

连续变化偏倚或方差如何处理？ 树模型输出分段常数，若真实条件均值和方差随年龄连续（如线性），该树会过分的分段近似。能否用管级树（smooth tree）或局部核平滑在叶节点内拟合线性/非参数趋势？——出处：作者在 Discussion 承认“树模型假定阶跃变化”是局限。
多变量重复测量场景下条件一致性的通读性理论界？ 当每个个体有多次测量（如多天）时，差异存在组内相关。本文使用混合效应调整（Bland‑Altman 1999），但树模型的分割搜索并未考虑到聚类相关结构。如何将 split 准则改为 GEE 或混合效应模型框架下的参数稳定性检验？——出处：模拟只用了单次测量，但实际数据是 7 天均值。
主观分层 vs. 树分层的直接比较：在暴露评分为主的研究中，研究者常基于知识手动切分层。树可能发现非直观组界（如 45 岁），但哪种更可靠？需要一个 so-called“模型选择”框架（如交叉验证的 LoA 宽度 vs. 覆盖概率权衡）。——出处：本文未做此项比较。
对方法比较报告的统计可复制性影响：若每个团队使用不同默认树深度或停止规则，给同一数据可能得到不同条件 LoA，造成噪声。需要建立标准化指南或稳定性诊断（如 bootstrap 的分割不确定性区间）。——出处：作者在 Conclusion 指出 R 包提供参数可调，但未深入讨论。

确认这些是否真 gap：可搜索 2020–2025 年 Statistics in Medicine 和 JRSS Series C 上关于“method comparison tree”或“conditional agreement”的 3–5 篇 intro 是否有共同指向。当前该子领域只有本文是直接以树为核心——所以每条都像是开放但未竞争的状态。

Maintained by 陈星宇 · Homepage · Source on GitHub