首先,研究收集了来自中国浙江的共计 460,256 份健康检查记录,用于模型开发及外部验证。 其次,利用大规模健康数据,研究者通过超级学习者模型准确预测代谢综合征风险。 最后,通过特征选择确定的关键预测因素被用于开发基于逻辑回归的代谢综合征风险评分卡。
研究设计与数据准备
10 个区域(共 344,925 例)用于模型开发; 其余 3 个区域(共 115,331 例)则构成了外部验证集。
研究分两个阶段进行。
在第一阶段,开发并评估了一个集成的超级学习器模型,该模型整合了多种基础学习器,并包含了开发队列中所有可用的变量,且未进行特征选择。
在第二阶段,确定了关键预测因素,并基于逻辑回归模型构建了一个用户友好的代谢综合征风险评分卡,以方便在临床实践中直接应用。
超级学习者模型的开发与评估
2.超级学习者模型的构建
研究者开发超级学习者模型,整合了超级学习器库中28个不同模型的预测结果。
这些模型是通过结合六种基础模型类型,并采用不同的参数配置生成的。
6种基础模型:随机森林、贝叶斯广义线性模型、弹性网络正则化广义线性模型、多元自适应回归样条、广义可加模型和神经网络。
超参数值是基于先前研究和实际性能考量通过手动调优选定的。
3.十折交叉验证
为了训练超级学习器模型,在开发队列中采用了10折交叉验证。
定义超级学习器模型中各分类器相对重要性的交叉验证系数显示,随机森林分类器发挥了重要作用,degree = 2和3的多元自适应回归样条也表现出很强的贡献。
4.超级学习者模型评估
研究结果显示,超级学习器模型展现出优异的预测性能,在开发队列中达到0.816的AUC值(95% CI = 0.814–0.817),在外部验证队列中达到0.810的AUC值(95% CI = 0.808–0.813)。
为全面评估超级学习器模型,我们进行了一系列检验。
(1)利用开发和外部验证两个队列,我们通过AUC和Brier评分等指标,将模型的性能与单一变量预测因子进行了比较。
结果一致证明了超级学习器模型优于单一变量预测因子。
(2)校准曲线与决策曲线
校准曲线进一步证实了模型的准确性,显示在两个队列中,模型的预测概率与观测结果高度一致。
此外,决策曲线分析凸显了超级学习器模型的临床实用性,揭示其在一系列阈值概率下均能带来显著的净收益。
(3)为增强可解释性,我们进行了SHAP分析。
分析表明,相比于男性性别,女性与更高的代谢综合征风险相关。此外,更高的BMI、ALT水平、白细胞计数和年龄均与代谢综合征风险增加密切相关。
(4)亚组分析
为了进一步评估超级学习器模型的稳健性,研究者基于特定特征进行了亚组分析,包括年龄、性别、婚姻状况以及就业状况。
结果显示,亚组分析证明了模型在各个亚组中的稳健性,其AUC值均约为0.8。
MetS风险评分卡的开发与评估
2.构建风险评分卡
研究者仅使用所选十个特征而非超级学习器中使用的完整特征集构建风险评分卡。
评分卡的理论基础是逻辑回归模型,在医学评分卡中,风险较低的患者被赋予较低分数,风险较高的患者则被赋予较高分数。经过校准,总分范围为0至100,包括基础分和各特征分箱的特定分数,以反映每个个体的整体代谢综合征风险。
该评分卡采用41分作为基础分,并根据分箱结果分配各变量特定分数。
例如,BMI评分范围从-18分(≤21.6 kg/m²)到+18分(>26.2 kg/m²);白细胞计数评分范围从-8分到+5分;性别评分则为-6分(男性)或+5分(女性)。
3.通过该评分卡为每个样本计算个体得分,并与观测结果进行比较以评估预测性能。
在开发队列中,评分卡的AUC为0.793(95% CI:0.791-0.794);
而在外部验证队列中,其AUC为0.788(95% CI:0.785-0.791)。
与超级学习器模型相比,评分卡仅表现出极小的性能损失,这表明开发该评分卡所采用的方法是合理的。
4.为建立风险分层,研究者使用KS曲线对总分进行可视化。
更高的KS值表示模型在相应阈值下具有更好的区分能力。
结果显示,最大拐点出现在47分处,这凸显了其作为区分风险水平的最佳阈值。
对于任何接受测试的个体,较低的分数对应较低的代谢综合征风险,而较高的分数则表示较高的风险。
为提升临床可用性和标准化程度,总分范围被划分为五个明确的风险类别:极低风险(0-20分)、低风险(21-40分)、正常风险(41-60分)、高风险(61-80分)和极高风险(81-100分),以在临床可解释性与统计判别力之间取得平衡。
5.对风险评分卡进行评估,以确保其在临床环境中的实用性和清晰度。
风险等级(极低、低、正常、高、极高)进行了可视化呈现,并使用饼图展示每个风险等级内特征的分布情况。
在每个亚组内,随着风险类别从"极高"向"极低"移动,被诊断为代谢综合征的个体比例逐渐下降。值得注意的是,女性和老年人在"极高风险"组中占比较大。
高风险状态在人口学和临床亚组中的分布进一步凸显了该评分卡的实用性。
总结