点击蓝字 关注我吧!
小树生信
研究亮点
1.核心创新:8个5mC探针构建精简模型,兼顾精度与实用性,规避过拟合。
2.广泛验证:6个跨地区/种族队列、825例患者验证,泛化能力强。
3.独立可靠:不受年龄、分期、EGFR突变等临床因素影响,可独立风险分层。
4.双重价值:精准预测OS/DFS,为术后诊疗和复发监测提供双重参考。
5.临床转化:BSAS低成本检测,成本仅芯片1/20、周期5天,易大规模推广。
引言
肺癌是全球癌症致死首因,肺腺癌预后差异大,传统TNM分期难捕捉分子特征,缺乏精准诊疗依据。5mC是构建预后模型的理想标志物,但现有甲基化模型存诸多不足,团队遂开发适配广泛人群的肺腺癌5mC精准预后模型。
文献解读
如果你也想用“TCGA+GEO”进行研究,需要生信分析,复现高分思路,那就快来后台联系小树生信吧,助力每一个科研梦想。
☝️点击上方名片,关注我吧,每天持续更新高分文献,带你探索科研领域。
研究概述
研究以TCGA-LUAD的449例数据为基础,3:2分训练/测试集,筛选探针后确定8个核心5mC探针构建MethPro-LUAD模型;并在2个中国医院队列、2个欧洲GEO数据集完成外部验证。经多种分析及与50余种模型对比,该模型能有效分层风险,预测精度更优,为肺腺癌术后个性化管理提供可靠工具。
图1为研究流程图
(A)临床应用流程:肺腺癌患者手术肿瘤组织经 DNA 提取与甲基化分析,通过 MethPro-LUAD 模型分为高 / 低风险组,为个体化治疗、随访及成本管控提供依据
(B)研究设计流程:以 TCGA-LUAD 队列 60%(269 例)为训练集筛选探针,剩余 40%(180 例)为测试集,构建含 8 个探针的 MethPro-LUAD 模型,并经 2 个中国多中心队列、2 个 GEO 公开数据集完成验证
研究目的
该研究旨在筛选肺腺癌预后相关5mC探针,构建精简高效的预后模型;验证其在不同人群中的泛化能力,确保独立于传统临床因素的预测价值;对比现有工具凸显临床优势,并探索低成本快速的检测方法,推动模型临床转化应用。
研究方法
以TCGA-LUAD为训练测试库,联合中国多中心、GEO数据库做验证;提取FFPE样本DNA经亚硫酸氢盐转化后行甲基化芯片检测,筛选8个核心探针构建模型,统一阈值分层并多方法验证性能,设计BSAS方案验证转化可行性,通过R软件及专属包完成统计分析。
研究结果
1.构建用于肺腺癌预后的八探针甲基化特征模型
基于TCGA队列构建含8个5mC探针的MethPro-LUAD模型,经中外多队列验证(如图1B),表1汇总队列特征,主成分分析证实模型稳健无过拟合。
表1为训练组、测试组和验证组的基线特征
2.MethPro-LUAD能稳健预测TCGA各亚组患者的生存情况
MethPro-LUAD以固定阈值分层,在TCGA队列中能显著区分患者生存风险(如图2B),5年预测AUC表现优异且随随访提升;亚组分析(如图3A-J)证实其独立于各类临床病理因素,预测性能稳定。
图2为TCGA训练队列中的总生存率与甲基化水平,以及MethPro-LUAD在TCGA训练与测试队列中的Kaplan-Meier分析和受试者工作特征分析
(A)TCGA训练队列中8个探针的甲基化β值,分为发生5年终点事件(是,短期生存)和未发生5年终点事件(否,长期生存)两组。采用Mann-Whitney U检验,图中展示了p值。数据以中位数(中线)、25%和75%分位数(箱体边界)表示,须形延伸至四分位距(IQR)的1.5倍
(B和C)TCGA训练队列(B)和测试队列(C)的Kaplan-Meier生存曲线,按低风险(红色)和高风险(蓝色)状态分组
图中展示了对应的p值以及风险比(HR)和95%置信区间(CI)
图3为根据性别、年龄、肿瘤分期和EGFR突变状态队列对TCGA-LUAD患者进行的Kaplan-Meier分析
(A-B) 性别分层(男性 / 女性)
(C-E) 年龄分层(<60 岁 / 60-69 岁 /≥70 岁)
(F-H) 肿瘤分期分层(I/II/III-IV 期)
(I-J) EGFR 突变状态分层(突变 / 野生型)。各亚组均分为低风险(红)、高风险(蓝)组,图中附 p 值及 95% 置信区间的风险比 (HR)
3.中国多中心肺腺癌队列的独立验证
在北京协和、南京鼓楼多中心队列中,采用统一阈值验证MethPro-LUAD,模型均有效区分预后(如图4A-B),低风险组生存期显著更长。亚组分析显示其在各临床亚群中表现稳定,同时可精准预测DFS(如图4C),双结局验证模型稳健可靠。
图4为不同第三方独立队列及北京协和医院(PUMCH)、南京鼓楼医院(NDTH)队列中肺腺癌(LUAD)患者的Kaplan-Meier分析 低风险(红色)和高风险(蓝色)组的Kaplan-Meier生存曲线
(A) 北京协和医院队列(5年总生存期,OS)
(B) 南京鼓楼医院队列(4年总生存期)
(C) 北京协和医院队列(5年无病生存期,DFS)
(D) GSE56044队列(5年总生存期)
(E) GSE39279队列(5年无病生存期)
图中展示了对应的ρ值以及具有95%置信区间(CI)的风险比(HR)。OS为总生存期;DFS为无病生存期
4.MethPro-LUAD在GEO外部队列中展现出跨人群适用性
MethPro-LUAD在GSE56044、GSE39279队列中均有效分层(如图4D-E),低风险组生存期更长;经中美欧多地域验证,模型适用性广、预后评估稳定。
5.MethPro-LUAD与辅助治疗、EGFR突变及吸烟状态相比,具有预后独立性
MethPro-LUAD在北京协和、南京鼓楼及TCGA队列中,按辅助治疗、EGFR突变、吸烟史分层后,仍可有效区分高低风险患者(如图5),高风险组生存期显著更短。模型预测能力独立于上述临床因素,在各亚组中均保持稳定预后价值。
图5为不同分层下的Kaplan-Meier生存曲
(A) 北京协和医院队列按治疗方式分层
(B) 北京协和医院队列按 EGFR 突变状态分层
(C) 北京协和医院队列按吸烟状态分层
(D) 北京大学第三医院队列按吸烟状态分层
(E) 北京大学第三医院队列未接受治疗亚组的风险分层
图中包含各组 p 值、风险比(HR)及 95% 置信区间(CI)
6.与已发表的预后模型相比,该模型的性能更优
通过PubMed检索30个已发表肺腺癌预后标志物,在相同队列与MethPro-LUAD对比(如图6)。结果显示,该模型的HR与5年AUC全面优于现有基因、甲基化及TMB模型,稳定性与预测精度更突出,探针更少且不易过拟合。
图6为MethPro-LUAD与其他预测模型在各队列中的ROC分析
(A-B)展示 MethPro-LUAD 与其他模型在 TCGA 训练 / 测试队列的 ROC 曲线(分 mRNA 组合、DNA 甲基化组合、单基因与 TMB 三类)
(C-E)柱状图呈现各模型在各队列中的 AUC 值(分 mRNA / 混合、甲基化、单 mRNA 与 TMB 三类)
研究结论
MethPro-LUAD模型基于8个5mC探针,可精准预测肺腺癌患者OS与DFS,其预测效能独立于年龄、分期等临床因素,且优于已发表模型;配合BSAS检测,临床应用门槛低、转化潜力大,可作为个体化诊疗依据,未来将进一步验证优化。
如果你也想用“TCGA+GEO”做生信,但不知道从哪一步开始,扫描下方二维码联系我吧,把你的数据和目标发给我,小树生信给你一个可执行的分析路线。
单细胞、转录组、机器学习……
从入门到发文,一站式搞定。
专注生信分析:GBD/NHANES/CHARLS等
点赞
收藏
分享