Predicting first onset of suicide attempt among children with suicidal ideation or non-suicidal self-injury using machine learning: a prospective population-based cohort study¶

作者: Chuncheng Huang, Yinan Zhou, Yanling Yue, Yanwen Yu, Zimao Wang et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 4/10
机构绿灯: Tsinghua University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf242

一、领域脉络与小综述¶

本论文属于儿童自杀企图（suicide attempt）的纵向预测子领域，核心问题是：在已有自杀意念（SI）或非自杀性自伤（NSSI）的儿童中，如何利用基线可观测的风险因素预测未来首次自杀企图的发生。这一方向本质上是疾病风险预测，不涉及因果识别或反事实估计，统计方法以生存分析（特别是离散时间 survival 模型）结合机器学习为主。

由于本文未提供详细引言与参考文献列表，以下综述基于摘要中的关键信息及本领域的常见研究脉络，读者需注意其概括性。

当前成熟度：预测模型已较多用于青少年自杀行为，但多数研究基于横断面数据或小样本临床队列，且预测变量多限于临床量表，缺乏大样本纵向儿童队列和广泛的社会环境/行为变量的联合建模。本文使用 ABCD（Adolescent Brain and Cognitive Development）队列——一项美国大型纵向研究——填补了这一缺口，是典型的应用驱动型工作，而非方法论创新。
发展脉络（基于常见文献）：
奠基工作：传统研究多采用逻辑回归或 Cox 比例风险模型，识别单个风险因素（如抑郁、家庭冲突）。缺点是难以处理高维交互、非线性效应，且仅报告风险比，不提供个体预测概率。
机器学习引入：约 2015 年后，随机森林、梯度提升等集成方法被用于自杀预测，可自动捕捉交互，但通常用于简单二分类（是否发生），忽略时间到事件信息。
离散时间生存模型：将连续时间离散化为检查点（如每 6 个月），用逻辑回归或机器学习预测每个时间点上的条件风险，适用于定期随访的队列数据。本文使用的 Discrete-Time Random Survival Forest (DT-RSF) 是这一分支的扩展。
本文位置：在“利用大型纵向队列+多种类型预测变量+离散时间生存机器学习预测儿童自杀企图”这一具体设定上，本文是目前较全面的应用，但方法学上只是标准 DT-RSF 的常规应用。
子线索聚类（常见研究方向）：
临床量表预测：使用 PHQ-9、自杀意念量表等，模型简单，易推广。
多源数据集成：结合电子健康记录、社交媒体、环境数据。
因果识别路线：旨在鉴别导致自杀企图的因果因素，使用工具变量、倾向性评分等（本文不涉及）。
模型可解释性与公平性：关注哪些因素最重要、是否存在人群异质性。
核心追问问题：
哪些风险因素在儿童群体中具有最高的预测能力？
对于已有 SI 和已有 NSSI 的亚组，预测因子是否不同？
如何评估预测模型在真实纵向数据中的泛化性能（区分度、校准度）？
模型能否为分层预防策略提供决策支持？
⚠️ 作者的 framing（基于摘要推断）：作者将缺口定位为“缺乏基于大样本纵向儿童队列、同时考虑 SI 和 NSSI 两个高风险亚组的预测模型”，并将本文定位为“开发面向不同亚组的预测工具，为精准预防提供依据”。他们未提及因果推断方法或竞争预测算法（如深度学习生存模型），也未讨论模型在临床落地前的验证和要求。值得研究者去查的问题：本文为何没有使用更复杂的生存模型（如 DeepSurv、Cox-ENSEMBLE）？是否因为样本量/事件数限制？
张力：未见明显对立引用，但注意：儿童自杀领域存在“预测因子 vs. 因果因子”的混淆，读者应区分“与自杀相关”和“导致自杀”的变量。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

基于本文设定，定义以下记号（均从论文摘要推断，部分为一般离散时间生存模型标准符号）：

个体：\(i = 1, \dots, N\)，N=344（SI 组）或 N=261（NSSI 组）。
时间离散化：将 4 年随访分为 \(K\) 个相等区间（检查点），\(t = 1, \dots, K\)（通常每 6 个月一个区间，故 K=8）。
事件指示：\(Y_i(t) = 1\) 如果个体 i 在第 t 个区间内第一次发生自杀企图，否则为 0。一旦发生，后续区间不再观测（吸收状态）。
删失：\(C_i\) 为删失时间（失访或研究结束未发生），假设为非信息删失。
风险概率：\(\lambda_i(t) = P(Y_i(t)=1 \mid \text{individual i has survived up to } t-1, \mathbf{X}_i)\)，即条件危险函数。
预测变量：\(\mathbf{X}_i\) 为一维向量，包含基线时收集的人口学、临床、环境变量（如目睹家庭暴力、社交屏幕使用、父母监督等）。具体变量见表？论文未提供全文，但摘要列出部分。
可观测数据：对每个个体 i，观测到 \((\tilde{T}_i, \delta_i, \mathbf{X}_i)\)，其中 \(\tilde{T}_i\) 为事件或删失发生的时间区间编号，\(\delta_i = 1\) 表示事件（自杀企图），0 表示删失。注意：我们无法观测潜在的反事实风险，只能观测到实际发生的事件时间。
模型目标：估计 \(\hat{\lambda}_i(t) = f(t, \mathbf{X}_i; \Theta)\)，其中 \(f\) 由随机森林学习，用于预测新个体的条件风险及累积风险。
潜在量：本文为纯预测研究，不涉及潜在结果或反事实框架。

第二步：最小内核¶

剥去所有复杂假设，支撑本文预测流程的最小内核是一个逻辑回归的离散时间风险模型，即最简单的参数化版本：

\[\text{logit}[\lambda_i(t)] = \alpha_t + \boldsymbol{\beta}^\top \mathbf{X}_i\]

其中 \(\alpha_t\) 是时间特定截距（baseline hazard），\(\boldsymbol{\beta}\) 为共享系数。该模型假设比例优势：不同协变量的效应在各个时间点相同（除了截距）。本文用随机森林代替了线性logit，但核心思想相同：将每个个体-时间点视为一个“观测”，构造数据集 \((t, \mathbf{X}_i, 1\{Y_i(t)=1\})\)，然后训练分类模型。

最简特例：若只有二值协变量 \(X\)（如是否目睹家庭暴力），且仅用 2 个时间区间（K=2），则模型简化为：

对每个个体，有两条记录：区间 1（生存状态 \(y_{i1}\)）和区间 2（若未删失且存活到区间 2，状态 \(y_{i2}\)）。
使用逻辑回归估计 \(\text{logit}[P(y_{it}=1)] = \alpha_t + \beta x_i\)。
预测时，对给定 \(x\)，计算 \( \hat{P}(T=1) = \text{expit}(\hat{\alpha}_1 + \hat{\beta}x)\)，\(\hat{P}(T=2 \mid T>1) = \text{expit}(\hat{\alpha}_2 + \hat{\beta}x)\)，从而得到累积风险。

为什么这样仿效：整个 DT-RSF 只是在这个逻辑回归最小内核的基础上，用随机森林的非参数回归代替了线性 logit，允许交互和非线性，并通过集成多棵树得到预测。本文的核心数学想法并不复杂，就是将生存数据转化为面板数据+分类器。真正的挑战在于：变量维度高、样本少、事件率低（~12%），需要合适的特征选择和模型调参来避免过拟合。

三、这篇论文做了什么¶

三句话¶

研究问题：在有自杀意念（SI）或非自杀性自伤（NSSI）的学龄儿童中，利用 ABCD 队列纵向数据，识别并预测首次自杀企图的风险因素。
核心方法：采用双变量特征筛选（每个变量与结局作单变量检验，保留 p<0.05 的变量）后，针对两个亚组分别构建 Discrete-Time Random Survival Forest（DT-RSF）预测模型。
主要结论：SI 组中 11.6%、NSSI 组中 12.3% 的儿童在 4 年内发生首次自杀企图；预测因子在两亚组有重叠（目睹家庭暴力、照顾者报告的 NSSI、女性）也有差异（SI 组：自杀念头严重程度、屏幕使用、父母监督；NSSI 组：焦虑障碍、破坏性行为障碍）。

关键设定与假设¶

数据来源：ABCD 研究（22 个中心，美国青少年样本），遵循健康保险流通与责任法案（HIPAA）保护，得到机构审查委员会批准。
纳入标准：基线时 9–10 岁，且报告过去或当前有自杀意念（SI 组）或过去或当前有 NSSI（NSSI 组）。注意两个亚组有重叠（部分儿童既有 SI 也有 NSSI），但本研究将其分为两个独立队列分别建模。
结局定义：“首次自杀企图”通过儿童或照顾者报告，在后续每年一次的随访中采集。定义为“尝试自杀”自报或他报。
预测变量：基线测量的广泛变量，包括人口学（性别、年龄、种族/民族）、临床（自杀念头严重程度、抑郁、焦虑、药物滥用、冲动控制障碍）、家庭环境（监护类型、父母监督、目睹家庭暴力、照顾者心理健康）、同伴关系（孤独、朋友自杀行为）、屏幕使用（社交网络、游戏）等。变量具体数目未在摘要给出。
缺失数据处理：未明说，但常见做法是多变量链式方程插补或完整案例分析。
特征选择：双变量筛选（bivariate feature selection）——对每个候选变量与结局做单变量 DT-RSF 或逻辑回归（对每个时间点？），保留 p<0.05 的变量进入多变量模型。这种方法简单但容易忽略交互。
模型：Discrete-Time Random Survival Forest（DT-RSF）——将生存数据转化为 person-period 格式（每个个体在每个观测区间有一条记录），用随机森林预测每个区间的事件概率，累积形成生存曲线。关键超参数（树的数量、深度、特征抽样比例）通常通过交叉验证优化。
模型评估：使用 AUC（时间依赖？）、校准曲线、Brier 得分等。由于事件率低，AUC 可能偏高但校准差。
假设：
删失非信息（与事件机制独立）。
所有风险因素在基线时间固定（未纳入时变协变量）。
每个区间上的条件事件概率独立于过去（无记忆性，通过时间指标捕捉趋势）。

相比已有文献：本文未采用复杂集成（如超学习、堆栈模型）或因果推断方法。技术简化明显：双变量筛选是传统方法，未使用 LASSO/随机森林内置的变量重要性选择。

主要结果¶

SI 组：40/344（11.6%）发生首次自杀企图。显著预测变量（按重要性排序？）：
照顾者报告的 NSSI（caregiver-reported NSSI）
目睹家庭暴力（witnessing domestic violence）
自杀念头严重程度（suicidal thoughts severity）
女性（being female）
在线社交屏幕使用（online social screen use，如社交媒体时长）
较少父母监督（less parental supervision）
NSSI 组：32/261（12.3%）发生首次自杀企图。显著预测变量：
目睹家庭暴力
焦虑障碍（anxiety disorders）
照顾者报告的 NSSI
女性
破坏性、冲动控制和品行障碍（disruptive, impulse control, and conduct disorders）
模型区分度：未在摘要中报告具体 AUC 或 C-index，但通常这类研究 AUC 在 0.70–0.85 之间。文中应提供。
校准：未提及校准性能。

证明路线与技术技巧（理论型不适用，此处改为方法流程）¶

本文是纯应用，无数学证明。以下是其分析流程：

数据准备：从 ABCD 队列中提取符合纳入标准的儿童，形成两个子集（SI 组和 NSSI 组）。将基线评估变量作为特征，随访事件作为结局。
特征编码：处理缺失（隐式插补或删除）、类别变量编码。
双变量筛选：每个特征与结局单独做单变量 DT-RSF（或逻辑回归），得到 p 值，仅保留 p<0.05 的特征。这一步相当于硬过滤，减少维度，防止小样本过拟合。
多变量 DT-RSF 建模：在筛选后的特征集上，构建离散时间随机生存森林。输出每个特征的重要性（如排列重要性）。
模型评估：可能使用 bootstrapping 或 5-fold 交叉验证（注意不同个体在时间上的重复观测不应该训练/测试泄漏）；报告 AUC、Brier 得分、校准曲线。
结果解释：列出预测因子及其方向（系数或特征重要性），讨论临床意义。

技术技巧点名： - 离散时间生存框架（person-period data 转化） - 随机森林的集成预测（多次重采样建立多棵树） - 双变量筛选（快速降维，但缺少多重比较校正？） - 缺失数据处理（文中未详述，但典型做法是多重插补） - 无因果推断，无需反事实识别

真实例子与应用¶

数据来源：ABCD 研究（美国 9–10 岁儿童），是目前最大的儿童脑发育纵向队列。
如何将方法用上去：作者将基线报告的 SI 或 NSSI 作为“高风险”指标，在两个子集中分别建模。预测因子涵盖广泛的社会、行为、临床变量。
结果：识别出两组共同的预测因子（目睹家庭暴力、照顾者报告的 NSSI、女性），以及亚组特异性因子（SI 组：自杀念头严重度、屏幕使用；NSSI 组：焦虑障碍、破坏性行为障碍）。
该例子想说明什么：验证了只要在基线时识别出 SI/NSSI 儿童，即可利用家庭环境（暴力）和性别等基础变量预测未来自杀企图，为学校/社区筛查提供可施行的干预目标。同时说明亚组间预测因子差异，提示预防策略可能需要分层。

🔎 结论是否比证明窄¶

本文为纯应用，无数学证明，因此结论直接对应实证结果。但需注意： - 结论中“risk for attempting suicide increased with …”只说明预测关联，不等于因果效应，但有时会被解读为因果关系。作者应在文中明确区分（摘要未体现）。 - 双变量筛选可能遗漏重要协变量交互，结论是否在所有变量集下稳健，文中应通过敏感性分析检验（未报告）。 - 事件数量少（40 和 32），可能导致随机森林过拟合，模型的外部有效性存疑。

四、开放问题（扎根具体语句）¶

变量选择方法可改进：双变量筛选（p<0.05）未进行多重比较校正，且忽略变量间交互。扎根于摘要“Predictive models were developed through bivariate feature selection followed by Discrete-Time Random Survival Forest”，可用 LASSO 或随机森林内置变量重要性进行更稳健的特征选择，或使用更系统的方法如 Boruta、Stability Selection。
模型校准和泛化能力未量化：摘要未报告 AUC 或校准指标。扎根于摘要未提及。需要完整数据集才能评估，但可作为后续工作：在外部验证队列（如另一国家的儿童研究）中测试本文预测模型。
潜在信息损失：将 SI 和 NSSI 儿童分为两个独立队列，但许多儿童同时存在两者，分组建模可能丢失预测能力。扎根于摘要“children reporting suicidal ideation (N = 344) or NSSI (N = 261)”，未说明重叠情况。可考虑将两组混合建模，加入交互项。
因果和预测的割裂：本文仅做预测，但自杀预防更需因果因素。扎根于摘要未涉及因果。开放问题：能否利用 ABCD 的纵向结构（如固定效应、工具变量）估计某些干预（如减少屏幕使用）对自杀企图的因果关系？这需要不同的识别假设和反事实框架。

注：要确认这些问题是否是真实 gap，建议检索近 5 年发表的同类纵向预测论文（例如使用 ABCD 数据预测其他心理病理），看是否已经由其他团队解决。若均指向类似局限，则属于领域共识，可做增量工作；若已有更优方法，则本文已落后。

Maintained by 陈星宇 · Homepage · Source on GitHub