今天,在人工智能的推动下,企业数智化转型已进入规模化“倍增创新”的阶段,尤其是AI技术的加速演进,以及应用场景的不断拓展加深,都让各类AI创新应用如雨后春笋般涌现,并加速惠及千行万业。
但与此同时,AI的火热态势,也引爆了智能算力的需求。根据中国信通院发布的《中国算力发展指数白皮书(2023年)》显示,在目前的算力规模中,通用算力规模占比达74%,智能算力规模占比达25%,同比增加60%,成为当前算力快速增长的驱动力,而预计未来几年,智能算力的需求将比当前呈现上百倍的增长。
也正因此,企业如何根据业务场景和计算任务选择最适合的算力方案,如何提升数据中心的整体能效,都让算力基础设施迎来了全新的挑战。
不仅如此,根据戴尔科技最新的“创新催化剂”研究显示,35%的受访企业认为在持续创新的路上缺乏专业人士指导,更有45%的受访企业认为在AI时代下,亟需能够帮助其建议、实施、培训和扩展AI到数据中的服务,以提高效率和运营。从这个角度来说,企业在AI部署、数智化转型的道路上,其面对的挑战和难题不仅仅在于技术方面的“硬实力”,也有包含专业的数字化人才、经验丰富的服务部署支持等“软实力”。
正是洞察到这种全新的变化,戴尔科技积极推动算力基础设施产品和解决方案的技术创新,通过打造“AI First端到端全栈AI平台解决方案”,最大化帮助企业的现代化数据中心能够释放AI的全部潜力。
在此基础上,近期戴尔科技还在中国市场正式官宣上市全新的AI加速服务器PowerEdge XE9680,提供8个NVIDIA SXM5 500W GPU与NVLink完全互连。这是一款专为需要高性能以及应对新兴复杂AI工作负载而构建的服务器系统,具有高性能、洞察驱动和智能化等特点,真正为AI时代大模型训练和推理构建出了稳定高效的基础设施“算力底座”。
并且,戴尔科技还提供包括AI数据中心服务部署保障与绿色节能实现,由此不仅为更多中国企业的数智化转型提供了坚实可靠的技术支撑,相信也将会更快地打通AI落地行业的“最后一公里”,可以说其价值重要而深远。
AI First全栈解决方案就绪
根据IDC《2024 AIGC应用层十大趋势白皮书》的数据显示,随着AIGC技术的发展,智能化应用将呈现爆发式增长,并预测到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和,可以说无论是企业还是产业的智能化规模化创新,其本质就是AI应用的扩张,而背后则是需要AI算力和AI基础设施提供关键技术支撑。
对此,戴尔科技集团信息基础架构解决方案事业部AI企业技术架构师、全球CTO大使吴跃表示,一直以来戴尔科技就秉承“AI First”战略,从“AI赋能戴尔产品、戴尔产品组合赋能AI、用AI优化企业运营、构建开放的AI生态”四个维度,帮助各种规模的企业加速AI创新的方法,从而不断发现创造商业机会,保持竞争优势。
其中,针对AI优化的基础架构方面,戴尔科技围绕“算、网、存、管”提供整体参考架构,打造并全面布局了“端到端全栈AI平台解决方案”,最终为企业用户构建高效能的AI平台,具体而言:
01 “算”
在“算”方面,戴尔科技可提供多元化的AI加速计算选型支持,特别是戴尔新一代PowerEdge,先后推出了多款专门针对GPU计算设计和优化的专业服务器,可为企业提供GPU分布式训练解决方案、GPU池化解决方案以及边缘AI计算解决方案等,支持企业面向AI的端到端训练、微调、推理以及面向传统AI(如机器视觉、语音识别)的模型训练及推理场景。
此外,在高性能CPU计算服务器方面,戴尔科技也提供包括集群管理、登录、数据治理等能力。
02 “网”
在“网”方面,随着数据量的增加,现代化数据中心需要更高的数据吞吐量和网络带宽来处理数据的传输和交换,为此戴尔科技也提供端到端400GbE AI计算网络解决方案,帮助企业用户打造新一代网络基础架构,为其加速AI转型提供支撑。
03 “存”
在“存”方面,戴尔科技推出了专为AI打造的新一代PowerScale全闪存节点,这是全球首个率先通过NVIDIA SuperPOD验证的AI以太网存储平台,借助这个全新的平台,企业可以加快创新速度,以更高的灵活性和安全性部署AI应用,同时利用高速的NVIDIA Spectrum以太网技术加速数据访问并借助智能横向扩展实现性能最大化。
04 “管”
最后,在“管”方面,戴尔科技也提供AI智算平台软件解决方案,为企业提供AI框架与系统管理软件以及专业服务,更好地加速AI工程化、场景化落地,简化AI基础设施平台的管理与资源调配。
不难看出,在全社会走向智能化的大趋势下,AI应用领域的多样化,以及市场规模的不断扩大,已对AI算力和AI基础构架产生了巨大需求,而戴尔科技围绕“算、网、存、管”的需求,打造“端到端全栈AI平台解决方案”可谓“正当其时”,不仅可以加速AI在千行万业中的落地,也能进一步推动各企业乃至整个行业的数智化变革进程。
AI加速服务器“焕新上市”
众所周知,在AI的1.0时代,市场上的AI基础设施主要是采用垂直一体式的方案,针对性地满足高性能计算、人工智能、大数据计算等不同的应用负载的需求,其通用性和兼容性比较低;而在AI的2.0时代,除了需要满足高性能、安全及可管理性之外,也出现了多元异构加速融合的趋势,即将不同架构的芯片平台、不同的算法模型以及数据集最大化融合,由此才能最大化的让AI基础设施算力效率发挥到极致。
基于此,戴尔科技近期也在中国市场官宣上市面向AI 2.0时代的全新AI计算平台PowerEdge XE9680,这是一款8路GPU服务器,能够为包括AI、深度学习、训练和推理等工作负载提供极致的性能。
据戴尔科技集团大中华区服务器解决方案产品高级经理秦建丰介绍,PowerEdge XE9680具有四大独特优势,具体而言:
▶首先,在高性能方面,PowerEdge XE9680服务器主要面向极致AI计算性能需求场景设计。在国内和香港市场,在XE9680 6U的空间内搭载了8块NVIDIA超高速GPU,同时还通过NVLink实现了互联,其GPU与高速网卡实现了1:1配比。
事实上,此前在业内权威的MLPerf Inference V3.1推理基准测试结果中,PowerEdge XE9680服务器就在20个数据中心项目赛道中,取得了7个项目的第一名,在所有参评GPU服务器产品中综合成绩最佳。
▶其次,在优化设计方面,PowerEdge XE9680服务器也针对GPU供电和散热进行了单独的优化,其基于6U风冷设计机箱打造,并提供了包括多矢量散热技术,动态调节冷却风强度等全新功能。
并且,PowerEdge XE9680实现了GPU与CPU模组“统一供电”,同时还对电源进行优化、增强设计,满足实际使用中峰值功率瞬时140%~170%的需求。此外其高速网卡槽位布置于前面板,也有效强化了服务器的散热性能。
▶第三,在多元异构加速方面,PowerEdge XE9680服务器支持多元异构加速能力,特别是本次戴尔科技和NVIDIA深度合作,打造了“PowerEdge XE9680 + NVIDIA GPU”的方案,就全面满足了企业AI训练、微调、推理等不同的应用需求。
此外戴尔科技也基于NVIDIA全栈AI解决方案,包括GPU、DPU和NVIDIA AI Enterprise软件套件等,进一步满足企业的AI应用需求。数据也显示,与上一代非加速服务器相比,通过NVIDIA加速的PowerEdge服务器在大型语言模型上的推理能效提高了300倍。
▶最后,在安全及可管理性方面,PowerEdge XE9680服务器也基于“零信任”原则设计,具备更强的安全性和抗风险能力,并在管理方面,其内置的iDRAC也可以动态监控GPU的运行状态,提供碳足迹追踪报告等。
PowerEdge XE9680服务器的典型应用场景包括AI模型的预训练、AI模型的微调、较大规模AI模型的推理,以及基于单精度(FP32)GPU加速科学计算等;而对于主流的训练、推理以及其他混合工作负载,戴尔科技也提供可以搭载GPU的服务器,如PowerEdge R760xa、R760、R660、R7625、R6625等,也能满足不同企业用户对AI应用创新的需求。
打通AI落地“最后一公里”
《系统论》认为:系统是由一些相互关联、相互作用、相互影响的组织部分构成并具有某些功能的整体。从系统的角度来看,如果把系统分解为部分,单独研究一个部分,就算把每个部分都研究清楚了,也回答不了系统整体性问题。
事实上,《系统论》的概念很好的表达了当前AI发展逻辑:整个AI的发展乃是一个完整的系统和生态,它的每一个组成部分都应该协同发展,单独某一项技术的突飞猛进,并不能推动AI的落地与普及。
在戴尔科技集团数据中心业务部人工智能资深架构师龚小愿看来,对于今天的企业用户而言,AI时代的到来,给数据中心安全高效运行的基AI础设施和冷却系统都带来更大的压力。
以“PowerEdge XE9680 6U 3+3 8400W”对比“PowerEdge R760*3 6U 1+1 5400W”来看,其功耗提高56%+,同时重量也提高22%+,这也意味着在整个AI基础设施的部署过程中,无论是功耗、散热量、制冷量需求、重量乃至“每U购买成本”都会显著增加,因此如何将绿色节能和降本增效统筹并举,是企业在部署AI基础设施中务必要关注的话题。
为此,戴尔科技也专门打造了“PowerEdge XE9680+Datacenter交付”的创新服务方案,提供包括Dell ProDeploy/ProDeploy Plus专业实施服务以 及Dell Rack Integration机柜集成服务,为企业部署AI基础设施提供“保驾护航”。
▶在专业实施服务方面,戴尔科技可向企业用户提供实用的硬件和软件选择,并通过多种交付选项来满足不同预算和运营模式需求,可满足从核心到云再到边缘的各种业务需求和预算。
研究数据显示,使用Dell ProDeploy Plus服务,其部署规划时间可缩短67%,能够帮助企业节省大量的预部署时间并节省总体时间,同时部署解决方案的速度比管理员快三倍。
▶在机柜集成服务方面,PowerEdge XE9680也提供“交钥匙”的机柜集成服务,其优势不仅在于可实现“即插即用,提升体验”,同时机柜集成空间也优于传统的功能型的数据中心,每周平均能够集成25台机柜,并能根据企业客户需求随时扩大产能。
关键的是,采用这种机柜集成服务,也能避免不同的现场施工团队采用不一致的施工、配置及质量标准,由此大幅度提升PowerEdge XE9680部署安装效率,并有效降低“每U购买成本”。
结 语
在AI新时代,戴尔科技提供的“端到端全栈AI平台解决方案”如同一艘“航空母舰”,不仅能够帮助企业构筑健壮的AI基础设施,同时也能够借助“PowerEdge XE9680+Datacenter交付”等创新方式,突破硬件、软件、算力、算法和数据的局限,加快企业AI基础设施的安装和部署,真正打通行业AI落地的“最后一公里”,让更多的企业可以借助AI激发新质生产力,最终推动中国数字经济高质量发展。