这些海量数据的增长背后是需要海量存储和计算的资源,数据增长是无限的,而存储资源却是有限的。
数据全生命周期每比特价值最大,每比特成本最优
我们希望对数据的采、存、算、管、用实施端到端的整合和优化,让数据在全生命周期内更好用,数据的每比特发挥价值最大,数据的每比特成本最优!
打造“融合、智能、开放”数据基础设施
为实现这个追求,华为打造融合、智能、开放的数据基础设施,让数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放:
通过“打破数据处理与数据存储的边界”,实现数据高效共享和分析,降本增效。
通过“AI+存储+云”,实现数据全生命周期内智能管理和智能运营,让存储越用越快,价值越来越大。
通过“数据虚拟化引擎”,统一SQL语法,像使用数据库一样使用大数据。
融合:使用极简
数据应用的核心包括存储和分析。烟囱式IT业务系统带来两个问题:存的时候会产生多个冗余副本,且数据无法流动,存储成本高;分析的时候会导致大量数据搬迁,分析效率低。
通过10余年技术积累和创新,华为在存储、数据库和大数据技术上实现了一系列突破,通过打破4堵墙,让数据的每比特发挥价值最大,数据的每比特成本最优。
打破存储内部系统墙:通过一套架构实现生产、分析、备份、归档的统一管理,一份数据在各个系统中平滑流动,减少拷贝,TCO降低30%以上。
打破数据库与存储链路墙:通过算子下推实现近数据计算,减少存储层与计算层之间的数据交换,数据访问和处理性能提升2倍。
打破大数据与存储配置墙:通过存算分离实现资源灵活配置,计算不足扩计算,存储不足扩存储。并通过弹性EC、数据缩减技术减少冗余,整体TCO降低30%以上。
打破数据库与大数据协同墙:通过协同分析实现数据零搬迁,数据库和大数据共享一份数据,分析效率提升100%。
智能:体验极致
过去,主要依靠人来完成设备配置和运维,运维人员经验和能力的高低决定了管理效率的优劣。华为基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,让系统越用越快、越用越省。
依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%。
依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO降低25%。
结合华为云自身大规模运维运营经验,当前可以实现提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复。
开放:开发极简
随着业务类型日益增多,大量业务需要跨平台、跨数据源协同分析。这种场景下,最突出的3个问题是:找数难、取数难、用数难。
找数难:传统企业数据类型越来越多,结构化、半结构化、非结构化数据并存,缺少统一数据目录和全局数据视图,要在众多异构数据源中找到特定数据,好比大海捞针。
取数难:一个典型的分析业务通常依赖跨地域跨平台数据协同,需要从多个业务系统获取数据,这要经过多部门间协调、核实才能获取。