我们如何为南大建起一座算力之巅?
今天想继续和大家聊关于“算力之美”的故事,一个关于我和团队如何用技术、诚意和远见,在2015年赢得南京大学超算中心二期项目,并最终助力这所顶尖学府攀登科研高峰的故事。
缘起:当“超算之王”也力不从心
在聊我们的故事之前,得先说说南京大学与中国高校超算的深厚渊源。南大,可以说是中国高教HPC(高性能计算)领域的拓荒牛和领跑者。早在上世纪80年代,南大天文系就为了科研需求,建起了国内高校最早的一批HPC系统。此后的2001年、2007年,南大在超算建设上从未止步。
一个真正的高光时刻在2009年。那时,我还在IBM高性能计算团队,有幸负责设计了南大当时扩建的HPC系统架构。那套以x86和刀片服务器为核心的“一期”系统,以34万亿次/秒的峰值性能、高达92%的Linpack测试效率,一举拿下当年全国高性能计算TOP100第七名,更是稳坐全国高校系统的头把交椅,堪称当时的“高校超算之王”,在学术界风光无两。
然而,科研的洪流对算力的渴求永无止境。这套强大的系统运行仅仅一年后,就进入了满负荷状态,计算作业开始大排长龙。到了2015年,排队现象愈演愈烈,许多老师和学生不得不四处寻找外部的计算资源,严重制约了科研进度。面对全校师生日益增长的公共计算需求,南京大学在2015年11月做出一个重要决定:投入5000万元,启动高性能计算中心二期项目,必须为学校的未来发展打造一座更强大的“算力引擎”。
学校的目标很明确:这个平台必须稳定、先进、高性能,还要易于扩展和管理。这不仅仅是一次设备采购,更是为南大未来十年的科研蓝图打下基石。
而此时的我与核心团队,已经随着联想对IBM x86服务器业务的收购,加入了联想。曾经的“对手”变成了肩负新使命的“自己人”。一个历史的机遇,将我们和南大再次联结在一起。
亮剑:用超越对手的方案赢得信任
当得知南大二期项目招标的消息,我们既感到压力,也充满兴奋。压力在于,这是国内高校标杆性的项目(在当时,建成即是第一),竞争必然空前激烈;兴奋在于,我们太了解南大了,我们曾是一期系统的建造者,如今我们更有信心,用我们更强大的技术实力和服务理念,为南大打造一个面向未来的新系统。
我和当时的HPC团队(当时的核心技术架构师包括陈齐旺、张锋等伙伴,柯大侠是团队BD)立刻全力投入。那一周多的时间,几乎每天工作都要到深夜,我们与南大进行了多轮深入沟通,反复打磨、迭代设计方案。我们深知,要赢下这个项目,不能靠吃老本,必须拿出真正领先、能解决实际痛点、并看得见未来的方案。
我至今清晰地记得那天现场述标的场景。我代表联想二十多人的项目团队,面对南京大学邀请的众多业内资深专家和教授,详细阐述我们的架构设计。我们认真倾听专家的每一个问题,坦诚回答每一项质疑。那一刻,我们呈现的不仅仅是一堆硬件参数,更是一个完整的、以用户科研需求为中心的算力生态系统。
最终,联想在激烈的竞争中脱颖而出,赢得了南京大学的信任,成为了二期项目的建设伙伴(Tony 和团队小伙伴还记得那天晚上,在金陵城那家最高的酒店餐厅,大家光着膀子喝MAOTAI酒庆祝吗?)。这份信任,既源于一期系统合作打下的良好基础(稳定可靠的印象深入人心),更源于我们在招标过程中展现出的专业、细致和始终站在用户角度思考的诚意。
锻造:打造一个“神级”的算力平台
中标只是开始,兑现承诺、交付卓越才是真正的挑战。2015年,我们为南京大学部署的超算二期系统,即使放在今天来看,其技术前瞻性依然令人惊叹。
首先是惊人的计算能力。 我们部署了910个CPU计算节点,总计21840个CPU核心,理论计算峰值达到了惊人的870万亿次/秒。更难得的是,在近千个节点的大规模集群上,其Linpack测试效率高达79.62%。要知道,在当时,该型号CPU单机跑出75%的效率已属优秀,而我们在大规模集群上实现了接近80%的高效,这背后是极深的系统调优功底。
其次是开创性的存储系统。 这是当时整个方案的一大亮点,甚至可以说领先了时代。我们为南大量身打造了全SSD的分布式并行存储系统,并采用了稳定高性能的GPFS并行文件系统。在2015年,SSD在消费级市场都尚未普及,而我们已将其用于PB级海量的科研数据存储。测试数据显示,其最大随机写带宽达80.21GB/秒,最大随机读带宽达118.35GB/秒。这个数据,即便放在十年后的今天,也依然属于高端存储配置。可以说,我们为南大预埋了一条未来十年的“数据高速公路”。
最后是经得起检验的实际应用性能。 2016年初,南大对各类主流科研应用进行了全面测试,包括VASP、Amber、Gaussian、Gromacs、OpenMX、WRF等,从中小规模到中大规模并行,测试结果全部达到甚至超出预期。这意味着,这套系统不是“跑分神器”,而是真正能加速各学科科研进程的“生产力工具”。
南京大学高性能计算中心副主任周庆林教授在后来总结时提到,选择联想主要基于三点:一是对一期IBM系统(即联想继承的技术血脉)稳定性的认可;二是联想团队在需求沟通上的极致细致;三是联想在大型集群实施和后续服务上的雄厚实力。尤其值得一提的是,项目上线后,我们安排了驻校工程师,长期保障系统的日常运维,让老师们能心无旁骛地专注科研本身。
绽放:算力如何点亮南大的科学星空
这座算力巅峰的建成,为南京大学的科研插上了腾飞的翅膀。过去十年间,南大超算中心完成了超过1000万个作业,提供总机时超过2亿小时,安全运行超过10万小时,服务了超过550个研究团队,直接助力发表了超过300篇高水平学术论文。
它的价值,具体体现在一个个突破性的科学研究中:
对于大气科学学院,其硬件配置当时已超过了美国国家海洋和大气管理局(NOAA)等机构的知名系统。雷荔傈教授团队曾进行超高精度的台风大涡模拟,使用了3024个核心,单次输出文件就高达69.68GB,总数据量约350TB。没有强大的算力,这种尺度的研究根本无法想象。
对于物理、化学、材料等学科,算力极大地加速了研究进程。董锦明教授举例说,像纳米材料、新材料设计这类研究,过去从理论到验证可能需要10-20年,现在借助超算,可能缩短到3-5年。算力,成了催生原创性发现的“加速器”。
其影响力早已超出校园。当地医院、天文台等单位都对超算有着强烈需求,南大也正计划将自身的算力进行公益性的对外输出,服务地方经济社会发展和国家重大需求,如气候变化、能源探索、精准医疗等。
这就是算力之美:它无声无息,却支撑着最前沿的思想碰撞;它冷静理性,却助推着最激动人心的科学发现。从模拟宇宙的诞生到解析生命的密码,从预测天气的变幻到设计新材料的分子,南大超算中心已经成为支撑多学科交叉创新、服务国家战略的核心基础设施。
而面向未来,我们早已布局智能计算。我们开发的LiCO智能超算平台,正致力于融合HPC与AI,让算力不仅能处理传统的科学计算,更能赋能大模型从“王者”到“巅峰”,我们如何为南大建起一座算力之巅?(以后有机会,我再和大家聊聊2024年, 我们再次赢得南京大学智能计算水冷集群项目的故事)。