·补有K2的液体钙——汤臣倍健钙DK,好吸收才事半功倍·暑假肠胃易出问题,lifespace益生菌帮你打造健康好“肠”态·首创性科研成果:北京宝枫生物神经酸改善HIE治疗效果·科学护肝攻略:集4重护肝植粹于一身的健安适不容错过·解锁身材管理新姿势:lifespace小蓝腰益生菌助你实现科学身材管理·如何科学降血脂?主打天然成分的舒百宁纳豆红曲胶囊了解下·昆腾中国赵丙涛:磁带是冷数据的最佳存储介质·如何增强免疫力?汤臣倍健蛋白粉好营养来“助攻”·Canalys调研:中国企业对于上云的需求仍然低迷·增幅超30% 华为上调2023手机出货量至4000万部·突破多项重点技术 浪潮发布全新算力网络操作系统·自我看衰?苹果大幅削减MR头显销售目标至15万台·华为云正式发布新一代自研分布式数据库GaussDB·全球第一家!三星QD-OLED获Pantone双色彩权威认证·测尿酸试纸怎么用·3999元起!折叠屏手机moto razr 40系列正式发布·贵!索尼推出TOUGH三防CFexpress Type A存储卡·华为正式发布智简全光联接战略及6款重磅新品·联发科董事长蔡明介:预计手机业务未来两年会增长·测尿酸试纸怎么用·腾讯云EdgeOne入选Gartner DDoS缓解方案市场指南·华为OceanStor Pacific分布式存储获IO500榜第一·小米发布2023年一季度财报:扭亏为盈,利润上涨·联想上一财年营收利润双双下滑 非PC收入占比近40%·佳能首款RF“饼干”镜头RF28mm F2.8 STM正式发布·索尼发布轻巧型全景声回音壁HT-S2000 售价2990元·用友董事长兼CEO王文京:全面数智商业创新时代到来·中兴TECS云平台连续三年获GlobalData Leader评级·内核数量为业界最高!Ampere发布192核ARM处理器·Gartner:腾讯云获CPaaS、CRM多个赛道国内第一
您现在的位置:首页 >> 新•资讯 >> 正文
基于流式计算的DPI数据处理方案及实践
发表时间:2018年8月9日 16:05 来源:《移动通信》2018年1月 责任编 辑:麒麟

本文结合电信运营商的需求,对DPI数据进行实时的采集及处理,提出一种基于流式计算的DPI数据处理方案,能够将获得DPI数据实时信息的时延降低到分钟级,甚至秒级,实现对电信用户上网信息的实时处理、监测及分类汇总,为之后进行的大数据应用提供了良好基础。

2 流式处理概述

传统基于MapReduce大数据处理技术实际上是一种批处理方式,如图1所示。批处理模式首先要完成数据的累积和存储,然后Hadoop客户端将数据上传到HDFS上,最后才启动Map/Reduce进行数据处理,处理后再写入到HDFS。这种方式必须要所有数据都要准备好,然后统一进行集中计算和价值发现,无法满足实时性的要求。

图1 批处理流程

图1 基于MapReduce的大数据处理

2015年,Nathan Marz提出了实时大数据处理框架Lambda架构[5],整合了离线计算和实时计算,能够满足实时系统高容错、低时延和可扩展等要求,并且可集成Hadoop、Kafka、Storm、Spark及HBase等各类大数据组件。

一个典型的Lambda架构如图2所示,主要使用的场景是逻辑复杂且延迟低的程序。数据会分别灌入实时系统和批处理系统,然后各自输出自己的结果,结果会在查询端进行合并。

图2 Lambda架构图

3 流式计算架构对比

流式计算对系统的容错、时延、可扩展及可靠性能力提出了很高的要求,当前有许多流式计算框架(如Spark streaming[10]、Storm[11]、Kafka Stream[12]、Flink[13]和PipelineDB[14]等)已经广泛应用于各行各业,并且还在不断迭代发展,适用的场景也各不相同。

3.1 Spark streaming

Spark是由加州大学伯克利分校AMP实验室专门为大数据处理而设计的计算框架[6]。Spark Streaming是建立在Spark上的实时计算框架,是Spark的核心组件之一,通过它内置的API和基于内存的高效引擎,用户可以结合流处理、批处理和交互式查询开发应用。

Spark Streaming并不像其他流式处理框架每次只处理一条记录,而是将流数据离散化处理,每次处理一批数据(DStream),使之能够进行秒级以下的快速批处理,执行流程如图3所示。Spark Streaming的Receiver并行接收数据,将数据缓存至内存中,经过延迟优化后Spark引擎对短任务(几十毫秒)进行批处理。这样设计的好处让Spark Streaming能够同时处理离线处理和流处理问题。

图3 Spark Streaming执行流程

Spark Streaming能在故障报错下迅速恢复状态,整合了批处理与流处理,内置丰富高级算法处理库,发展迅速,社区活跃。毫无疑问,Spark Streaming是流式处理框架的佼佼者。缺点是由于需要累积一批小文件才处理,因此时延会稍大,是准实时系统。

[1]  [2]  [3]  [4]  [5]  [6]  [7]  
高层访谈
凌动智行史文勇:品智出行, 重新定义车辆对生活的价值和意义
众所周知,手机是基础的通讯工具,车是基础的交通或者出行工具,而发动机是传统车里面非常高的..
专访张启亮:勇担工业互联推手,服务百万设备上云
近日,在第二十二届中国国际软件博览会上,徐工信息总经理张启亮向《人民邮电》报记者讲述了工..
观点态度
云计算的第二个十年:三大运营商如何迎接?
2018年,我国云计算进入第二个十年。站在国家方队里三大运营商的云计算也进入了新的发展阶段。<..
国内手机市场半年报:头部格局定型 中小品牌陷入集体焦虑
2018年已过半,回看这半年, 头部品牌的吸附效应越来越明显,中小品牌正陷入到集体焦虑中。

..
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1】
Copyright © 2018 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。