以英特尔最新推出的第二代至强可扩展处理器而言,其中顶级的至强铂金9282处理器已经能够在单一处理器上实现56个物理核心和3.8GB的Turbo频率,整体TDP达到400W。处理器由两个Die组成,每个单独的Die约为694平方毫米。能够在商用产品中实现这样的频率、这样的核心面积、这样的功耗密度,足以说明英特尔对14nm工艺及相关封装技术的熟练程度。即便是量产工艺领先半步的三星和台积电也无法在7nm技术条件下生产出这样的产品。
这样恐怖的工艺成熟度意味着使用英特尔至强铂金9282处理器的系统(目前仅有原厂系统)可以在双路情况下提供112个物理内核,实现同等机架空间内2倍的计算密度。
而在5月底,使用10nm工艺的Ice Lake处理器也终于千呼万唤始出来,最终产品将于2019年底最先在笔记本平台面市。届时,英特尔将至少追平行业顶尖制程工艺水平,甚至还将在晶体管密度和成品性能等方面再次领先行业。当然,按照以往经验,新工艺下的数据中心产品则将会在消费级产品面市的一年后上市。
对于英特尔来说,重回行业巅峰需要时间,但这一目标已经被列上日程。
这里还要顺便再提一句。最新推出的英特尔® Agilex™ FPGA已经采用了10nm工艺,并实现了3D封装。通过将多个不同功能、不同IP、不同制程的Die进行堆叠之后统一封装,Agilex能够在片上实现更完整的功能、更好的集成性和更小的体积。这与在手机领域常见的“先封装再堆叠”原理相同,但效率不可同日而语。
2、 XPU架构
针对不同的应用负载,算力的多元化在当前技术条件下已经成为公认的趋势。
虽然竞争对手都会用自己的GPU、ASIC、MIPS等处理器或芯片在某一应用领域对标英特尔的通用处理器,并宣称自身具备xx倍的优势;但坦率的讲,把针对某一计算类型或某些特定算法而制造的处理器(芯片)在单一应用场景中与通用处理器来对标性能,这种做法本身是欠妥的。
面对算力多元化的趋势,英特尔有自己的解决方案——XPU体系。
CISC指令架构虽然强调在单一处理器内针对多种计算类型进行特别优化以获得更好的应用编程及运行效果,但作为一款通用处理器,其核心目标依然是为所有计算类型提供支持,而非限定在某一特定计算类型。
掌握了这一思路,我们便不难理解英特尔的XPU架构。
在CPU领域中,第二代至强可扩展处理器内部集成了VNNI深度学习加速指令集,能够针对TensorFlow、Caffe、mxnet等目前主流的深度学习框架提供加速。配合专门的OpenVINO工具包,开发人员可以对程序、算法和模型进行深度优化,进而在对应的处理器上获得更高性能。相对于上一代至强铂金8100系列处理器,加入VNNI指令集的铂金8200系列处理器能够在Caffe Resnet-50测试中取得接近2.5倍的性能,而更强大的铂金9200系列则能够实现5.2倍的性能。
这种级别的性能提升在基于AI算法的推理应用有着相当重要的意义,能够让用户在不使用额外协处理器或计算卡的情况下就获得可观的推理性能提升,让AI应用的部署门槛更低、系统构型更简单。
在实际应用中,VNNI指令集让京东云在文本检测应用中获得了2.4倍的性能,让腾讯云在视频分析应用中实现了3.26倍的性能,让微软在图像识别应用中获得了3.4倍的性能,让阿里巴巴在8种不同工作负载中实现了2-4倍不等的性能。同时,百度自研的PaddlePaddle框架也能在VNNI指令集的加持下获得2至3倍的推理应用性能。
最右侧的一列都是负载优化型至强