鐠猴拷閻炴稏鍎插﹢涓�2闁汇劌瀚幁顐f媴閹剧粯瀵㈤柍銉︽煛閳ь剚姊归崼锟犳嚊閿濆應鍋撳鍛樊闂佽姤顭終闁挎稑鑻妶浠嬪触閸涘﹥鏆柟闈涚С缁ㄣ劑宕℃繝鍌氼潬闁稿⿵鎷�鐠猴拷闁哄棙鍨垫禍锝夋嚃閻樺搫鍓柡鍕尭閸ゎ參姊婚鈧。浠嬫晬鐎圭挶fespace闁烩晛锕﹂弫鎾绘嚕鐏炶棄绨诲ù锝囧У婢э箓鏌呴悩韫樊閹兼潙鍢查妶浠嬪灳濠婂棗浜栭柍銉︾箖閳ь剨鎷�鐠猴拷濡絾鐗曢崹閬嶅箑瑜忛~鏍儘閺冣偓閸ㄦ岸寮稿⿰鎰獥闁告牗銇為崥顐も偓瑙勭箖閻忔岸鎮介悢鍝勨挅缂佷胶鍋熺划锟犳煀閸涘﹥鏆柛鐘插殫IE婵炲矁宕甸弸鐔煎极閸喓浜�鐠猴拷缂佸鍨甸鐔煎箮閵堝牆鈧粙寮ㄩ懡銈嗘闁挎稒宀稿▔锟�4闂佹彃绉垫慨銏ゆ嚃濠靛浂妲荤紒顕€鈧稓鑹惧☉鎾亾闂婎剦鍋嗗▓鎴﹀磻閵夈儳鏆旈梺顐㈠€风粭澶屸偓鐟扮秺閺佸﹥娼婚敓锟�鐠猴拷閻熸瑱缍侀弨锝夌叕椤愶絾缍忕紒鐙呯磿閹﹪寮弶鍟冾參宕濋崠锛勭獥lifespace閻忓繐绻楅幗鎴︽嚈閹殿喗鎶勯柣銏㈠枙瀵宕濋埡鈧紞妯尖偓鍦仧楠炲洨绮旈幋婵愬妳闂婎剦鍋呭ḿ妤冪不閿涘嫭鍊�鐠猴拷濠碘€冲€风紞宥囩矓閹存繍鍔呴梻鍕Х椤㈠懘鎳橀崒锔惧惞濞戞挾绮晶锔藉緞閳哄啫濮ч柟瀛樺姇閸ㄥ酣鎯冮崟顔肩亰闁谎勫劤閻g偟鐥€圭姷婀哥紒淇卞灪濞叉悂鎳楃捄鐑樻妱濞存粌妫滆濞戞搫鎷�鐠猴拷闁哄嫬妫滈崥妯荤▔椤撶偞绂囬悹褍鍚€缁楁繂鈽夊☉宕囩獥缁惧彞绀侀悽顐﹀及椤栨艾鏋庨柡浣哄瀹撲線鎯冮崟顒佷粯濞达絽鍟块悺銊╁磼閵娿倗鐭欓悹鎰舵嫹鐠猴拷濠碘€冲€风紞宥嗘櫠閻愭彃绻侀柛蹇撶Ф閺屽懘宕濆☉宕囧惞婵箍鍊涢崵鏇㈠磹瀹ュ懍娣柧鏂款儑濞呇呭垝婢跺ǹ鍋ㄩ柦鈧妷銉ユ倠闁哄鍎埀顒佺矊婵亪寮ㄩ悜鈹惧亾閿燂拷鐠猴拷Canalys閻犲鍟伴悥娲晬濮橆偉鍘柛銉﹀灊缁辨帗绋夊顒夊殸濞存粌绨肩粭鍌涚閹寸姵鐣遍梻鍥e亾婵懓鍊风划娑㈡倿閺堢數绉甸弶鈺嬫嫹鐠猴拷濠⒀呭仜缁犳瑧鎼鹃敓锟�30% 闁告绨肩拹鐔哥▔婵犲懐娈�2023闁归潧顑嗗┃鈧柛鎴︾細閹伙綁鏌岃箛姘4000濞戞挸娲崕锟�
您现在的位置:首页 >> IT >> 正文
Spark 对战 OushuDB !究竟是谁快出几十倍?
发表时间:2022年7月4日 09:59 来源:新科技 责任编 辑:麒麟

随着互联网技术的不断发展,各行各业的数据处理量与日俱增,Hadoop 作为一项革命性的技术提供了处理海量数据的能力,随之而来的Spark又大大提升了 Hadoop 的计算能力,解决了Hadoop 的性能问题,受到了大数据行业的热捧。但到了2022年,Spark依然是大数据行业的最佳选择吗?

Hadoop 生态系统经过多年的发展,已经在世界范围内广泛的采用,许多企业已经搭建了基于Hadoop生态圈的大数据,并且尝试更加深入的应用,比如数据仓库迁入的尝试,作为分析型场景的主要组件Hive与Spark扮演了主要的角色。

Hadoop上的SQL支持一开始是Apache Hive,Hive自带的计算引擎是面向磁盘的MapReduce,受限于磁盘读/写性能和网络I/O性能的约束,在处理迭代计算、实时计算、交互式数据查询等方面并不高效,其主要适用场景是批处理模式。针对这一不足,Spark将数据存储在内存中并基于内存进行计算是一个有效的解决途径。Spark 允许将中间输出和结果存储在内存中,节省了大量的磁盘 IO。并且使用 DAG 调度程序,查询优化程序和物理执行引擎,实现批量和流式数据的高性能。同时 Spark 自身的 DAG 执行引擎也支持数据在内存中的计算。

偶数科技研发数据仓库OushuDB, 主要依托云原生特性、计算存储分离架构、强事务特性、完整SQL标准支持、高性能并行执行能力等一系列底层技术的变革,从而实现高弹性、高性能、强扩展性、强兼容性等上层技术的变革,最终帮助企业有效应对大规模、强敏态、高时效、智能化的趋势。

这次我们将对OushuDB 与Spark 3.0的性能做一次对比。

数据查询哪家强?

为了更直观的比较Spark与OushuDB的查询能力,我们用TPC-H(商业智能计算测试)来对OushuDB和Spark进行测试,TPC-H是美国交易处理效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集,目前在学术界和工业界普遍采用它来评价数据查询处理能力。

国际通用的数据库测试标准TPC-H包括 22 个查询(Q1~Q22),我们主要的评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间,我们分别对两个进行单节点使用Scale为100的数据集进行测试。

测试环境

服务器配置

1.CPU:2颗10核Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz,超线程40

2.内存:256GB

3.硬盘:4*1000GB SSD

4.操作系统:Centos 7.4

对比软件版本

OushuDB 4.0

Spark 3.0

数据库参数

Spark

OushuDB

注:为测试在同一资源水上,并且更接生产实际,core与内存设置相同,分别是16 core与1gb

表属性

注:数据分布,OushuDB可以表级设置及控制数据分布“桶数”,直接影响资源使用

数据生成方式

提前用dbgen生成TPCH测试用文本数据;OushuDB采用外部表并行导入,并进行Analyze。OushuDB采用可写外部表将导入的数据写入指定的HDFS目录,供Spark导入数据。

Spark建立外部表,指向OushuDB写出HDFS文件,将数据导入。

运行结果比较

(两款数据库不同Query下的耗时,越小越好)

Spark新的自适应查询执行(AQE)框架只在某些场景提升了Spark性能,基于这次TPC-H测试由于新SIMD执行器的优势,OushuDB全面性能超过Spark最大相差55倍,体(22查询个)性能8倍以上。在各行业实际应用场景进行大规模数据查询的过程中, OushuDB的优势就相当明显了。

OushuDB作为一款高性能云数据库,支持访问标准的ORC文件,并且具备高可扩展,遵循ANSI-SQL标准,具有极速执行器,提供PB级数据交互式查询能力,比传统数仓/MPP快5-10倍,比Hadoop SQL引擎要快5-30倍。OushuDB同时通过计算存储分离架构解决了传统数据仓库高成本、高门槛、难维护、难扩展的问题,可以让企业用户轻松构建核心数仓、数据集市、实时数仓以及湖仓一体数据,是当今的企业构建数据湖仓的不二选择。

高层访谈
李邵华:芯片自主化迎最佳窗口期
李邵华:芯片自主化迎最佳窗口期
中兴通讯刘金龙:价值驱动 云网生态激活转型新动能
中兴通讯刘金龙:价值驱动 云网生态激活转型新动能
观点态度
5G毫米波网速优势显现,少了高速路的5G不完整
随着5G网络目前在全球各地的开通,5G毫米波在峰值速率上已经展现出了巨大优势。同时,工信部在..
手机厂商这半年:互怼变日常,多品牌成突围关键
2019年的手机行业,可以说是非常热闹的,仅仅上半年,“华米OV”的隔空互怼便开始频繁上演。
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1
Copyright © 2020 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。