精准预测:构建并验证了基于常规血液标志物及衍生指标的随机森林模型,可有效预测颈动脉易损斑块(AUC = 0.847),为临床风险分层提供了无创、经济且可推广的工具。
可解释性强:通过 SHAP 分析明确了性别、年龄、纤维蛋白原、NLR 等关键预测因子,揭示了各生物标志物对斑块易损性的贡献方向与强度,增强了模型的临床可信度。
性别特异性视角:首次系统揭示了关键生物标志物在不同性别及数值区间的差异化风险模式,发现男性与女性在年龄、LDL、TyG 等指标上的风险阈值、拐点及梯度存在显著差异,为个体化卒中预防提供了新依据。
临床转化价值:研究整合了临床常规检测指标,无需额外成本,且通过 RCS 模型明确了各标志物的风险区间,为临床实践中精准识别高危人群、制定针对性干预策略提供了直接参考。
易损颈动脉斑块是缺血性中风的重要诱因,影像学检查存在局限,常规血液及衍生指标可无创评估其风险,但现有研究整合不足且缺乏性别分层分析。本研究拟利用机器学习,结合常规血液及衍生指标,构建可解释模型预测斑块易损性,并分析性别特异性风险模式。
如果你也想用同款思路分析,想学习如何复刻这类高分研究的同学,快关注后台咨询吧!生信解码站,助力每一个科研梦想!
如果你也想进行生信分析,快联系生信解码站,你的下一篇顶刊论文,就从这里开始啦!
早期发现脆弱颈动脉斑块对中风预防至关重要,本研究旨在基于常规血液检测及衍生指标构建机器学习模型,预测斑块脆弱性并评估其性别特异性风险模式。
本研究回顾性纳入苏州市立医院 2019–2020 年 1701 例住院患者,基于颈动脉超声评估斑块易损性;提取 30 项实验室指标及 TyG、AIP、NLR 等衍生指标,构建五种机器学习模型并以 SHAP、RCS 等方法进行解释与性别差异分析。
患者特征
本研究共纳入 1701 名住院患者,其中 13.1% 为易损颈动脉斑块,86.9% 为稳定斑块。易损组年龄更大、男性占比更高,FBG、Cr、TyG 指数、AIP 等代谢指标及 NLR、Fb 等炎症指标显著升高,LYM 计数降低,提示代谢和免疫异常与斑块不稳定性相关。队列按 7:3 随机分为训练集(1190 人)和测试集(511 人),两组基线特征(性别、年龄、代谢及炎症标志物等)均无显著差异,确保了后续模型开发与评估的有效性。
斯皮尔曼相关分析
我们计算连续变量的斯皮尔曼相关系数,生成整体及按斑块表型分层的相关性热图。整体队列中,代谢与炎症标志物存在显著相关:TC 与 LDL、SII 与 NLR/SIRI、TyG 与 AIP 等呈强正相关,LYM 与 Fb/NLR、UHR 与 TC 呈负相关。易损斑块组炎症 - 代谢轴耦合更紧密,各标志物相关强度更高;稳定斑块组相关强度普遍减弱。上述结果表明,易损斑块患者的炎症与代谢异常聚集更明显,可能参与斑块不稳定的调控。
模型性能
以 7:3 划分训练集与测试集,构建 5 种机器学习模型并采用 5 折交叉验证评估。结果显示随机森林模型性能最优,训练与测试集 AUC 分别为 0.965 和 0.847,灵敏度 64.2%、特异度 89.4%,泛化性好且无明显过拟合。逻辑回归、AdaBoost、KNN 和 SVM 表现均弱于随机森林,或灵敏度不足,或精度有限。随机森林在灵敏度与特异度间平衡最佳,可基于常规血液指标有效识别易损斑块患者,但仍存在中等灵敏度的局限。
基于SHAP的模型解释与关键特征分析
对最优随机森林模型进行 SHAP 分析,性别、年龄、Fb、NLR、AIP 及 TyG 等衍生指数为关键预测特征;高龄、Fb、FBG、Cr 升高增加斑块易损风险,高淋巴细胞、红细胞计数具保护作用,性别、年龄及炎症标志物是风险分层核心,凸显可解释模型的临床价值。
对测试集 SHAP 值进行分析,生成 SHAP 依赖图,发现关键连续生物标志物与斑块易损风险呈显著非线性关联,并识别出多个风险阈值。年龄、TyG、FBG 等标志物非线性特征明显,如年龄 64.93 岁为风险阈值,中年晚期风险急剧上升;LDL 呈 U 型关联,FBG、HbA1c 等代谢标志物及 SIRI、AIP 等糖炎指标均有明确风险拐点,且部分阈值与临床标准吻合。肾脏、氧化应激及炎症标志物也表现出复杂阈值行为,证实常规血液标志物以非线性、阈值依赖方式影响斑块脆弱性。
性别特异性风险解读与生物标志物动态
关键预测变量间的性别特异性相关结构
为探究生物标志物互作的性别差异,对高 SHAP 分值指标进行性别分层 Spearman 相关分析。男性检出 118 项显著相关对,女性 107 项,其中 90 对共享,男性独有 28 对、女性独有 17 对。两性均呈现代谢与炎症指标的强正相关,但男性独特关联集中于炎症、肾功能及血液指标,女性则多见于血糖、脂质与免疫代谢通路。这提示生物标志物调控网络存在性别特异性,可能造成斑块易损风险模式的异质性。
基于SHAP特征贡献的性别差异
我们比较男女参与者(排除性别本身)高排名预测变量的 SHAP 值,发现 Cr、FBG、UHR、TyG 指数、SIRI、HbA1c 的 SHAP 值在男性中显著更高,年龄、LYM 计数、RB 计数则在女性中更高(P<0.05),NLR、Fb 等无显著性别差异。进一步绘制 SHAP 依赖图显示,男女关键特征的拐点数量、位置及 SHAP 梯度峰值存在明显差异,如年龄、LDL、TyG 等指标的 SHAP=0 点、风险变化梯度均有性别特异性,其他多项特征也呈现类似趋势。
RCS建模揭示了与性别相关的风险转折模式
对高 SHAP 值生物标志物进行性别分层限制性立方样条(RCS)分析,证实关键指标的风险轨迹存在显著性别差异。年龄方面,男性 57.8–78.9 岁风险上升更早更陡;Fb 在女性高值区间、NLR 在女性低值区间风险更高。男性在 Cr 中值区间及 AIP 高值区间风险更高,女性则在 FBG、UHR、TyG、SIRI 高值区间及尿素、LDL 特定区间风险更显著,MO 与 RB 的风险模式亦存在性别特异性。
【文章小结】
本研究构建的随机森林模型可基于常规血液指标及衍生指数,准确预测颈动脉易损斑块,结果证实了性别特异性风险评估的重要性,揭示关键生物标志物在不同性别及数值区间的差异化影响。
如果你也想用同款思路分析,需要生信分析,复现高分思路的同学,快关注后台咨询吧!生信解码站,助力每一个科研梦想!