研究在LungSCeQTL队列,探究遗传变异对基因表达的细胞特异性影响。队列含2021.10-2022.7因肺癌或非肿瘤肺病行肺切除的226名中国人,采集样本并基因分型,经质控和填补后得4,838,930个SNPs。肺组织解离后用混合策略测870,061个细胞scRNA- seq,评估批次效应。最终保留222人 562,255个细胞,均2,533个/供体,供体无亲缘,年龄、性别及吸烟情况各异(图2)。
图2:中国肺癌SCeQTL队列中的人类肺细胞图谱。
二、在中国肺癌SCeQTL队列中跨细胞类型绘制eQTL图谱
借助FastQTL对1 种细胞做顺式 eQTL分析,考量协变量后鉴定出特定数量的eQTL与eGene,其数量因细胞捕获存在差异。多数具细胞特异性,eGene多在多细胞表达且相关细胞共表达强。MASHR评估显示eQTL信号在细胞类型间方向一致性高,部分幅度共享,谱系内更高。近半eGene在多种细胞被鉴定,条件分析表明谱系内细胞遗传调控重叠强,回归分析揭示eSNP与连锁不平衡的关系(图3)。
图3:在中国肺癌SCeQTL队列中跨细胞类型绘制eQTL图谱。
研究将sc-eQTLs与Bulk219数据集对比,发现等位基因方向一致性为 83.9% ,但仅51.7%的sc-eQTLs在 Bulk219数据集FDR<0.05时显著,反向及条件分析凸显sc-eQTL定位优势;与Natri等人肺纤维化研究对比,48.6% 的sc-eQTLs可在对应细胞类型验证,重现率有差异,部分位点关联不同或因组织及种族差异;此外,sc-eQTL分析的eSNPs与染色质可及性峰整合显示其具调控潜力(图4)。
图4:sc-eQTL与批量eQTL及既往研究的比较。
四、利用sc-eQTLs从肺癌易感位点中鉴定因果基因
为深化对肺癌GWAS位点理解,整合多源数据,从31个位点选33个变异,经数据库整合鉴定出127个分4级的候选致病基因。一级28个基因呈现复杂细胞特异调控模式,如部分在上皮或免疫细胞共定位,有的在不同细胞有相反信号,还有的广泛调控。同时发现肺癌相关变异可跨细胞调控多基因,近四分之一易感位点与多个候选基因共定位,凸显sc-eQTL分析对揭示肺癌遗传易感性机制的关键作用(图5)。
为从细胞层面找更多肺癌易感基因,开展TWASs,鉴定出250个相关基因,经共定位分析得30个易感基因,多数相关变异在对应细胞的snATAC-seq 峰内。近半新基因在免疫细胞共定位,部分来自上皮细胞,部分位点在欧洲人群获验证。DLX3作为新基因,其变异影响LUAD风险,功能分析显示它调控 AT2细胞状态。此外,rs4822455在不同细胞与不同基因共定位,体现遗传变异多效性,共同影响肺癌易感性(图6)。
为打通遗传架构与临床治疗转化,用数据库评估本研究NSCLC候选基因成药可能性。已确定和新位点中,分别有32.1%(9/28)与20.8%(5/24)的基因与药物有相互作用,具临床靶点潜力。除ROS1外,还发现 zolbetuximab和IXAZOMIB两个新靶点,为药物研发与再利用提供方向(图7)。