作为衡量计算力强弱的核心载体,近几年芯片业可谓是风水轮流转,换家坐庄。这边刚传出博通要1300亿美元收购高通,那边马上就说英特尔和AMD这对多年的老冤家都决定联手了,而近日芯片巨头英伟达发布的2018财年第三季度财报则同样广受关注,其第三财季营收达到创纪录的26.4亿美元,截止今年目前为止,其股价已经上涨了约92%。
应该看到,英伟达营收创纪录及股价暴涨的背后,是受益于以人工智能为代表的对图形芯片的强劲需求而推动,人工智能对于GPU的空前依赖同样也促进了厂商对于芯片的加速换代升级。依靠算法、数据和计算为基础支撑点的人工智能,面对空前高涨的计算力,迎来了全新的发展机遇。以GPU为代表的计算设备单位面积和单位功耗的计算能力的极大提升,带来了计算密度的提高和机柜成本的快速下降,以此为高性能计算快速步入大众视野打下了坚实的物理基础。而其中具有代表性的金山云高性能计算,经过多次迭代演进,已经成为高性能计算中的领导者。
金山云异构高性能计算解决方案
高性能计算成为应对爆炸式增长神经网络的必然选择
由于集成电路制程工艺趋于接近摩尔定律的物理极限——接近硅极限的7nm,单芯片与单系统的性能提高也开始逐渐变慢甚至趋于停滞,无法满足不断爆炸式增长的神经网络规模,此时,高性能计算集群就成了必然选择。金山云通过使用业界顶配的GPU服务器加上高带宽与低延迟的RDMA网络,搭配高性能存储服务,为用户构建了可伸缩的高性能计算集群,来应对不断增长的业务需求。
以运算需求来划分,在初始阶段,服务器只是面对web、游戏等普通运算,没有太多计算压力;而随着AI训练与推理应用等强计算需求不断涌来,原来AI所依赖的深度学习的网络规模呈现了指数级增长,深度神经网络的参数从6百万增加到了87亿,对服务器产生了非常大的压力,基于公有云的高性能计算平台,成为应对该类需求的不二之选。用户可以根据业务按需创建GPU服务器资源,该类GPU服务器原生支持VPC网络,GPU服务器之间拥有20Gbps的高性能网络带宽,且都位于高品质的IDC机房,拥有电力和网络的冗余保护,同时完善的监控体系,保障业务稳定运行。
以计算能力来划分,相对以前使用大量的CPU去堆砌超级计算的时代,现在一块GPU的计算能力,相当于之前几千块CPU搭建起来的超级计算机的能力,但对于普通终端用户而言,基于此专门去购买相应设备依然花费不菲。加上GPU设备本身采购成本极其高昂,大量采购GPU物理服务器带来了极大的资金占用,而由于GPU领域使用比摩尔定律更激进的黄氏定律,进而导致折旧成本更高。用户在面对新的业务需求时,硬件层面显得捉襟见肘,无业务弹性。
而训练更大规模的神经网络就需要更大规模的集群,高性能计算的出现,可谓极大解决了原有大集群的搭建和维护带来的资金和运营压力,用户只需租用云服务商的高性能计算服务,无购买硬件所存在的资金占用风险,以比较低的使用成本弹性使用资源,即买即用应对业务变化,同时始终可以用到最新的高性能计算加速硬件,这也是高性能计算得以快速发展的根本原因。
金山云高性能计算赋能人工智能加速发展
金山云做为业内最早提供公共IaaS服务的云计算厂商之一,提供了业内最丰富的异构高性能计算服务,包括弹性GPU/FPGA服务、GPU专属云服务、异构超算平台(KHSP)和KIS-GPU服务(Kingsoft integrated Service),为大规模神经网络的深度学习用户和通用高性能计算用户提供最优质、便捷的云端体验,让用户根据业务需求,灵活创建和使用适合自身的高性能计算集群。
在弹性GPU/FPGA服务方面,金山云提供了基于EPC的GPU服务器和基于KEC的GPU服务器两种产品形式,同时满足性能与灵活性的需求。此外,利用业界领先的的VPC网络,不仅可以连通用户在金山云上的物理服务器和云服务器,还可以方便连通用户自己在金山云其他区域的服务,实现计算能力的按需调配和灵活扩展。
金山云弹性GPU/FPGA服务
在GPU专属云服务方面,金山云通过搭建用户专属GPU服务资源池,让用户根据自己的需求配置不同CPU/GPU/内存和硬盘的云服务器,实现物理资源在使用期间仅运行用户专属业务(即资源隔离),让计算性能得到有效保障。用户可在业务高峰时把部分云服务器迁移到专属云中,或在高峰来临之前向专属云添加更多的GPU计算资源,开启更多的服务实例,待高峰过去后,再将这些节点退出专属云。
在异构超算平台方面,基于优秀的物理机调度能力和VPC网络,可以快速为用户构建量身定制虚拟超算平台,让用户独享平台的物理计算节点资源,有效满足人工智能对高性能计算力的需求。在技术实现上,利用金山云已经构建起来的256节点集群,抽取GPU、CPU或FPGA的加速资源组成虚拟超算集群,受益于虚拟网络,展现在用户面前的依然是一个完整的超算集群。
在KIS-GPU方面,KIS作为金山云推出的综合性混合云服务,主要负责高性能计算设备的托管和租赁,实现用户自有设备和公有云服务资源的有序调度。用户除了可以将自有GPU服务器托管到金山云KIS,高效利用已有资产;同时又具备公有云资源使用能力和BGP的服务投送能力,释放计算应用灵活性,解决了不同时期人工智能使用场景中对计算能力的需求。