您现在的位置:首页 >> 新•资讯 >> 正文
算力提升3倍 腾讯云发布新一代高性能计算集群
发表时间:2023年4月17日 11:36 来源:新科技 责任编 辑:渝文成都

科技】近日,腾讯云发布新一代HCC高性能计算集群。该集群采用最新一代星星海自研服务器,搭载nVIDIA H800 Tensor Core GPU,基于自研网络、存储架构,带来3.2T超高互联带宽、TB级吞吐能力和千万级IOPS。实测结果显示,新一代集群算力性能较前代提升3倍。

腾讯大模型训练效率

去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。

大模型进入万亿参数时代,单体服务器提供的算力有限,需要将大量服务器相连,协同优化单机算力、网络架构和存储性能,打造大规模、分布式的高性能计算集群。

计算层面

服务器单机性能是集群算力的基础,新一代集群的单GPU卡在不同精度下,支持输出最高1979 TFlops的算力。

针对大模型场景,星星海自研服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至更高。

单卡算力性能

网络层面

计算节点间,存在着海量的数据交互需求。随着集群规模扩大,通信性能会直接影响训练效率,需要实现网络和计算节点的最大协同。

腾讯自研的星脉高性能计算网络,具备业界最高的3.2T RDMA通信带宽。实测结果显示,搭载同等数量的GPU,3.2T星脉网络相较1.6T网络,集群整体算力提升20%。

同时,腾讯自研的高性能集合通信库TCCL,融入定制设计的解决方案。相对业界开源集合通信库,为大模型训练优化40%负载性能,消除多个网络原因导致的训练中断问题。

集群算力

存储层面

大模型训练中,大量计算节点会同时读取一批数据集,需要尽可能缩短数据加载时长,避免计算节点产生等待。

腾讯云自研的存储架构,具备TB级吞吐能力和千万级IOPS,支持不同场景下对存储的需求。COS+GooseFS对象存储方案和CFS Turbo高性能文件存储方案,充分满足大模型场景下高性能、大吞吐和海量存储要求。

HCC高性能计算集群

此外,新一代集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

腾讯混元大模型背后的训练框架AngelPTM,也已通过腾讯云TACO提供服务,帮助企业加速大模型落地。

通过腾讯云TI平台的大模型能力和工具箱,企业可结合产业场景数据进行精调训练,提升生产效率、快速创建和部署 AI 应用。

腾讯云智算平台

依托分布式云原生的治理能力,腾讯云智算平台提供16 EFLOPS的浮点算力,规模业界领先。

以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向AIGC的高性能智算网络,持续加速全社会云上创新。

高层观点
腾讯云副总裁刘颖:已布局全栈国产化技术
日前,腾讯云副总裁刘颖对外介绍了腾讯在技术国产化方面的进展,并完整分享了腾讯云当前的全栈..
一加中国区总裁李杰:不打价格战,没库存烦恼
近日,一加发布新款手机一加Ace 2,定价2799元起。发布会上,一加中国区总裁李杰表示,价格战..
企业纪事
12岁即显现商业头脑 IT巨头公司戴尔的发展简史
从1984成立到今天,戴尔已成长为全球知名的电脑、服务器、数据储存设备和网络设备厂商。
5G毫米波网速优势显现,少了高速路的5G不完整
随着5G网络目前在全球各地的开通,5G毫米波在峰值速率上已经展现出了巨大优势。同时,工信部在..
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1
Copyright © 2022 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。