
❗南京大学、北京协和医学院等团队在《Cell Reports Medicine》发表研究,依托 TCGA、多中心临床队列及 GEO 数据集,经 Cox 回归、生存分析等方法,解析 5mC 甲基化调控肺腺癌预后机制,明确 MethPro-LUAD 八探针模型核心预测价值,为肺腺癌个性化术后管理提供精准工具。
💡研究证实 5mC 甲基化异常是肺腺癌预后关键驱动因素,该模型可将患者精准分层,高风险组生存期显著缩短,预测效能独立于年龄、分期、EGFR 突变等临床因素,在中美欧多区域队列中均表现稳健,且优于现有甲基化、基因表达类预后模型。
👇关注科研圈与GBD,发高分文章不迷路
如果你也想借助TCGA、GEO等数据库方法进行分析,关注科研圈与GBD,联系后台进行咨询,下一个发高分文章就是你!
👀构建 8 探针 5mC 甲基化预后模型 MethPro-LUAD,专用于肺腺癌生存预测,设计简洁。
💡经中美欧多区域队列验证,跨种族、地域普适性强,预测效能稳定。
🔎预后价值独立于年龄、分期、EGFR 突变等临床因素,性能优于现有各类 LUAD 预后模型。
✨可同时预测总生存期和无病生存期,为术后管理和复发评估提供双重依据。
🔑检测技术可优化为 BSAS 等低成本方式,成本低、周期短,临床转化潜力大。
🔔明确探针相关基因与肿瘤发生发展的关联,为表观遗传机制研究提供方向。


数据来源与队列设计:以 TCGA-LUAD 数据集(449 例)为基础,按 3:2 比例分为训练集(269 例)和测试集(180 例);验证集涵盖中国北京协和医院(195 例)、南京鼓楼医院(88 例)多中心临床队列,及欧洲 GSE56044(82 例)、GSE39279(155 例)公共队列,覆盖中美欧不同人群。
模型构建流程:先通过 Mann-Whitney U 检验和单变量 Cox 回归分析,筛选出 7797 个与肺腺癌患者生存期相关的 5mC 探针;再经逐步多变量 Cox 回归分析优化,最终确定 8 个核心探针,构建 MethPro-LUAD 预后模型,并推导风险评分公式。
检测与分析技术:提取肿瘤组织 DNA,采用 Infinium 甲基化芯片(450K/850K 平台)进行甲基化谱分析;通过亚硫酸氢盐扩增测序(BSAS)验证探针检测可行性;运用 R 软件及 ChAMP、survival、timeROC 等包进行数据归一化、生存分析及 ROC 曲线绘制。
验证与评估方法:采用 Kaplan-Meier 法分析高 / 低风险组生存差异,计算风险比(HR)及 95% 置信区间;通过时间依赖性 ROC 曲线评估模型预测准确性(AUC 值);在不同年龄、性别、肿瘤分期、EGFR 突变状态等亚组中验证模型独立性;与 50 余种已报道预后模型进行 HR、AUC 值对比分析。
如果你也想使用同款数据库和思路却不知道如何下手?联系科研圈与GBD,我们将为你提供全面的生信分析服务!

队列基线特征一致,无明显偏倚
涵盖 TCGA 训练 / 测试集、中国 2 个多中心队列(PUMCH/NDTH)、欧洲 2 个 GEO 队列共 6 组研究对象,经 Pearson 卡方检验、Wilcoxon 秩和检验分析,各队列在性别、EGFR 突变等核心临床病理特征上无显著统计学差异(P>0.05,部分分期、治疗史因地域诊疗差异有别),甲基化检测平台虽有 450K/850K 差异,但共性探针分析保证了数据可比性,为模型跨队列验证奠定基础。

表1.培训、测试和验证队列的基线特征
完成模型全流程构建与应用设计
图 1A 明确模型临床应用逻辑:肺腺癌患者肿瘤组织经 DNA 提取、甲基化分析,通过 MethPro-LUAD 实现风险分层,指导个性化治疗、随访及成本控制;
图 1B 展示研究技术路线:以 60% TCGA-LUAD 样本(N=269)为训练集筛选 7797 个候选探针,40% 样本(N=180)为测试集构建 8 探针模型,后续在中、欧共 4 个独立验证队列完成效能验证,研究设计完整且层层递进。

图1. 研究流程图
8 个核心探针甲基化水平与预后显著相关,模型可有效分层 TCGA 队列
图 2A 显示:TCGA 训练集中 8 个探针的甲基化 β 值在 5 年生存终点事件组(短生存)和无事件组(长生存)间差异显著(P 均 < 0.05),6 个探针在短生存组高甲基化、2 个低甲基化,明确探针与预后的关联趋势;
图 2B、C:Kaplan-Meier 曲线证实,训练集高 / 低风险组 OS 差异极显著(HR=5.33,p<0.0001),测试集同趋势(HR=3.88,p<0.0001),低风险组限制平均生存期均显著长于高风险组,模型在 TCGA 内部队列风险分层效果明确。

图2.TCGA训练队列的总体生存率和甲基化水平,以及TCGA训练和测试队列中MethPro-LUAD的Kaplan-Meier和受试者操作特征分析
模型预测效能独立于各类临床病理因素,亚组稳定性强
对 TCGA 队列按性别、年龄、肿瘤分期、EGFR 突变状态分层分析(图 3A-J),模型在所有亚组中均能有效区分高 / 低风险患者:
性别亚组:男性 HR=5.74、女性 HR=3.76,均 p<0.0001;
年龄亚组:<60 岁、60-69 岁、≥70 岁 HR 分别为 5.28、5.42、3.29,均有显著统计学差异;
分期亚组:I 期、II 期、III-IV 期 HR 分别为 4.33、4.15、3.7,早晚期均适用;
EGFR 突变亚组:突变型 HR=4.96、野生型 HR=3.96,均能精准分层。
证实模型预后价值不依赖于传统临床因素,可作为独立预测指标。

图3.根据性别、年龄、肿瘤分期及EGFR突变状态队列对TCGA-LUAD患者的Kaplan-Meier分析
模型在跨地域、跨人群独立队列中验证有效,兼具 OS 和 DFS 预测能力
中国多中心队列:PUMCH 队列 5 年 OS(HR=6.16,p<0.0001)、5 年 DFS(HR=6.03,p<0.0001)均表现优异;NDTH 队列 4 年 OS HR=3.49(p<0.01),低风险组生存期均显著更长;
欧洲 GEO 队列:GSE56044(5 年 OS,HR=2.37)、GSE39279(5 年 DFS,HR=2.19)均验证有效,虽效能略低于中、美队列,但仍能实现有效风险分层;
整体证实模型在中美欧不同种族、地域人群中均稳定有效,且可同时预测总生存期和无病生存期,为术后复发管理提供依据。

图4.不同第三方独立队列及PUMCH和NDTH队列中LUAD患者的Kaplan-Meier分析
模型预后价值独立于辅助治疗、吸烟史等关键临床因素
对中国 PUMCH、NDTH 队列按辅助治疗状态、EGFR 突变、吸烟史分层分析(图 5A-E),模型在所有亚组中均能稳定实现风险分层:
PUMCH 队列:接受 / 未接受辅助治疗患者、EGFR 突变 / 野生型患者、吸烟者 / 非吸烟者,高风险组 OS 均显著短于低风险组,HR 均有统计学意义;
NDTH 队列:未接受辅助治疗患者、吸烟者 / 非吸烟者中,模型仍能有效区分高低风险,高风险组预后更差;
结合 TCGA 队列放化疗亚组分析结果,进一步证实模型预后价值独立于辅助治疗、吸烟史、EGFR 突变等关键临床因素,适用人群覆盖度广。

图5.Kaplan-Meier对PUMCH和NDTH患者的治疗、EGFR突变状态和吸烟状况分析
模型预测性能显著优于现有各类肺腺癌预后模型
对比基因表达模型、DNA 甲基化模型、单基因标志物及 TMB 等现有模型,在 TCGA 训练 / 测试集及各验证队列中,MethPro-LUAD 的核心指标均领先:
图 6A、B:ROC 曲线显示,模型在 TCGA 训练 / 测试集的 AUC 显著高于其他模型,5 年 AUC 分别达 0.856、0.873;
图 6C-E:柱状图量化对比各模型 AUC,MethPro-LUAD 在所有队列中均保持最高水平,即使是表现最接近的 16 探针甲基化模型,在 NDTH、GEO 队列中也显著低于本模型,且本模型探针数量更少,避免过拟合,稳定性更强。

图6.各队列中MethPro-LUAD及其他预测模型的ROC分析
如果你也想使用TCGA、GEO等的方法进行研究,高分发文,复现高分思路,欢迎后台进行咨询,科研圈与GBD助力每一个科研梦想!

