12月13日,以“新算力 新赋能 新未来”为主题的2022 CCF全国高性能计算学术年会(CCF HPC China 2022)在线上正式召开。作为高性能计算领域全球最具影响力的三大超算盛会之一,大会邀请到2021年图灵奖获得者Jack Dongarra,中国科学院院士陈国良、钱德沛,中国工程院院士陈左宁、孙凝晖、王军成,加拿大工程院院士K. Nandakumar等业界专家齐聚一堂,畅谈数字经济背景下算力的创新与演进,研讨高性能计算的场景化应用,探讨新一代信息技术未来的发展趋势。
北京大学计算与数字经济研究院算力网络研究中心主任樊春应邀参加本次大会第七届高校高性能计算平台应用交流论坛并作《北京大学高性能计算系统软件》主题演讲。报告分析了目前我国算力中心在使用和管理中存在的痛点,并提出了相应的解决方案。会上,由樊春团队自主研制的开源算力中心门户和管理平台——SCOW(Super Computing On Web)首次公开亮相。
当前,全球迎来新一轮科技革命和产业变革浪潮,算力已成为国家核心竞争力的体现,全球主要国家和地区对于构建和发展算力网络已达成共识,并纷纷加快战略布局进程。我国“东数西算”工程的全面启动,为全国一体化算力网络建设按下了加速键,但同时我们仍面临算力中心管理运营难、算力资源使用门槛高、算力系统运维部署复杂等痛点。
北京大学计算与数字经济研究院自落户长沙以来,紧随时代步伐,聚焦国家战略需求,成立了算力网络研究中心。中心团队多年深入一线运营,深刻理解用户需求,积累了丰富的算力中心平台运行维护经验,具备先进的互联网系统开发技术;通过十余年的研发,成功打造了开源的算力中心门户和管理平台——SCOW。该平台系统通过简化集群软件部署流程、统一平台管理模式、提供图形化操作界面、降低用户使用门槛,实现算力中心资源易管理、易使用的目标,提高算力资源使用效率。截至目前,SCOW已完成了在北京大学超算平台、国家天文台超算平台、中南大学超算平台、中科院高能物理所超算平台、香侬云超算平台等多个平台的部署。
在使用上,SCOW系统大幅降低算力中心用户的使用门槛。用户无需了解和配置SSH、VNC 等功能,便可通过SCOW的门户平台直接在浏览器上使用集群算力资源,让Linux小白用户也能顺利提交作业。
在管理上,SCOW的管理平台提供了一套标准化的算力中心管理模式以及用户账户模型(租户-账户-用户三级模型)和计费收费模型,并且支持多集群管理,可以在一个系统内管理算力中心的多个集群,能够帮助新建的算力中心快速建立管理和运营制度。
在部署上, SCOW提供了简易的部署功能,项目具备了包括调度系统、认证系统、共享存储在内的一体化部署能力,可以快速在新建的集群中部署上线。部署几乎无侵入,可与其他管理平台共存。
SCOW实现的一套标准的平台接口,为实现跨中心的算力融合打下了基础。团队正在SCOW实现的异构平台统一抽象基础上,进行一体化算力网络融合平台的研制,旨在打通算力网络中各算力中心的管理、使用、结算通道,连通算力孤岛,实现算力灵活接入、统一调度;解决多应用灵活接入,复杂网络环境下低延迟高性能应用可视化技术,多中心多集群文件传输与管理,算力中心的标准化运营管理,多中心统一结算等问题。
在2022年11月26日召开的数字生态指数2022发布会上,北京大学计算与数字经济研究院联合湖南省内多家机构成立了“湖南算力网络融合协同创新平台”,共同促进一体化新型算力网络体系建设。本次SCOW系统的发布,也标志着创新平台的工作正式启航。接下来研究院将在国内高校、科研机构、国家超算、商业集群中做好SCOW的推广部署工作,并继续研发面向算力网络的新产品,为优化我国算力资源使用效率、促进算力网络体系建设贡献力量。