跨祖先分析筛出30个全基因组显著位点,其中16q23.3是此前未报道的新发现。这个基因之前在肺癌里关注度不高,但跨人群数据把它顶出来了——说明整合东亚和欧洲样本确实能挖到单一人群容易漏掉的信号(图1)。
跨祖先GWMA的meta分析说起来简单,但注意两个人群的QC标准要统一,INFO和MAF阈值别各设各的。建议先用LDSC看看分层情况,不然混杂偏差直接带进后续分析就麻烦了。
比较两人群的等位基因效应后发现,吸烟相关位点在欧洲人中效应更强,而TP63、FOXP4等上皮相关位点却在东亚人群中作用更大。我倒是觉得,这正好解释了为什么东亚肺腺癌患者EGFR突变率那么高——遗传背景可能直接偏向了上皮增生通路(图2)。
图2: 英国生物库与中国嘉德生物样本库队列中PRS的性能评估
效应量比较前,先确认两人群的效应等位是否对齐,否则直接算相关性会出大问题。自己做类似课题时,建议先把链的方向统一再跑分析。
跨祖先PRS-CSx在两个独立队列中都把高危人群的风险区分出来了,高危组风险比约2.0。有意思的是它在CKB的改善幅度比UKB更明显,说明这种跨人群建模策略对非欧洲人群的增益更大,临床应用价值也更高(图3)。
图3:基于基因集的多基因风险评分与肺癌体细胞突变之间关联性的综合分析
PRS-CSx需要同时提供两套LD参考面板,计算资源消耗不小。如果想在其他疾病里试水,建议先拿小规模模拟数据跑通流程,再上全量数据。
把易感基因按功能分成四组后,PRS_Epi与EGFR突变显著挂钩,而PRS_Smoking则跟SBS4烟草突变特征对应。这个设计挺巧妙的——不再只盯着总风险,而是把胚系变异直接映射到肿瘤的分子表型上(图4)。
图4:rs2967363可调控MPHOSPH6的表达,并在体外和体内抑制NSCLC增殖
通路分组这块主观性较强,容易引入偏倚。如果换一个癌种,建议结合单细胞eQTL或组织特异性表达数据来辅助分类,别光靠文献堆砌。
16q23.3位点两个变异各司其职:一个通过启动子区域调控MPHOSPH6表达水平,另一个改变蛋白编码序列影响其稳定性。同一基因上两种独立机制并行,这在肺癌易感位点里不多见,也提示后续功能验证不能只盯着一类变异(图5)。
图5: MPHOSPH6-R8K可降低蛋白质表达水平,并在体外及体内实验中抑制NSCLC增殖
双机制验证涉及表达调控和蛋白稳定性两个维度,实验周期长。其他位点如果要跟进,建议先通过共定位判断优先做哪一类变异,避免两头扑空。