不仅如此,新建成的教学科研云平台,还可以在底层支持GPU和FPGA两种最常用的异构计算架构,在芯片核心底层即可释放人工智能潜力,上层则整合TensorFlow、Caffe、Torch等多种流行的深度学习开源框架,从而可以快速建模卷积神经网络和递归神经网络,广泛覆盖图像识别、语音语义识别、时间序列预测等多种人工智能应用。另外,该平台还提供针对大数据应用的Hadoop、Spark等开源框架,以满足教学过程中对于分布式数据计算、分析、预测等需求。
运维无忧:ECS Stack提供真正无人值守监控运维中心
提到云平台和超融合的优势,运维人员兴趣凛然,但一想到平台落地后复杂的运维工作,就让原本疲惫不堪的运维人员感到发怵。事实证明,在教学科研云平台投入使用的近半年时间里,,让负责运维的老师们真正感受到了什么是故障自愈、可视化运维、无人值守的监控运维能力。
在ECS Stack监控中心里运行着一个核心引擎——ECMS故障自愈中心,实时监控平台中所有微服务化控制平面服务的运行情况,任何一个控制平面服务出现运行状态异常都都会自动发出告警并自动触发故障自愈,在数分钟内完成服务恢复。故障自愈中心包含多种故障场景应急处理知识库,进而判断不同告警对应的应对处理机制,例如服务修复的方式,服务重启的方式,帮助客户自动修复运行异常的控制服务,使得整个系统自动重新回到正常运行状态。
目前,学院师生人数已达1400多人,随着学生人数进一步增多以及需求多样化,必然会对该平台后续升级/扩容等提出更高的要求。为了简化平台升级过程,ECS Stack云就绪超融合支持业务无感知的平滑升级功能,确保“三不停”,即业务不停,控制服务不停,物理服务器不停。在升级过程中,采取多副本滚动升级的策略,确保不会造成服务停机,持续升级其它副本,直至完成所有副本升级。同时还支持升级回滚功能,且业务/控制服务不受影响。
总体来说,ECS Stack云就绪超融合一体机帮助上海杉达学院构建智能教学科研云平台,它不仅能够在安装、部署、使用、运维上实现简单易操作,而且具有故障自愈和平滑无感知升级能力,通过感知式编排实现零基础资源编排;通过管理员和用户双机制实现资源灵活管理以及通过应用中心轻松实现应用封装、发布到一键部署。