·补有K2的液体钙——汤臣倍健钙DK,好吸收才事半功倍·暑假肠胃易出问题,lifespace益生菌帮你打造健康好“肠”态·首创性科研成果:北京宝枫生物神经酸改善HIE治疗效果·科学护肝攻略:集4重护肝植粹于一身的健安适不容错过·解锁身材管理新姿势:lifespace小蓝腰益生菌助你实现科学身材管理·如何科学降血脂?主打天然成分的舒百宁纳豆红曲胶囊了解下·昆腾中国赵丙涛:磁带是冷数据的最佳存储介质·如何增强免疫力?汤臣倍健蛋白粉好营养来“助攻”·Canalys调研:中国企业对于上云的需求仍然低迷·增幅超30% 华为上调2023手机出货量至4000万部·突破多项重点技术 浪潮发布全新算力网络操作系统·自我看衰?苹果大幅削减MR头显销售目标至15万台·华为云正式发布新一代自研分布式数据库GaussDB·全球第一家!三星QD-OLED获Pantone双色彩权威认证·测尿酸试纸怎么用·3999元起!折叠屏手机moto razr 40系列正式发布·贵!索尼推出TOUGH三防CFexpress Type A存储卡·华为正式发布智简全光联接战略及6款重磅新品·联发科董事长蔡明介:预计手机业务未来两年会增长·测尿酸试纸怎么用·腾讯云EdgeOne入选Gartner DDoS缓解方案市场指南·华为OceanStor Pacific分布式存储获IO500榜第一·小米发布2023年一季度财报:扭亏为盈,利润上涨·联想上一财年营收利润双双下滑 非PC收入占比近40%·佳能首款RF“饼干”镜头RF28mm F2.8 STM正式发布·索尼发布轻巧型全景声回音壁HT-S2000 售价2990元·用友董事长兼CEO王文京:全面数智商业创新时代到来·中兴TECS云平台连续三年获GlobalData Leader评级·内核数量为业界最高!Ampere发布192核ARM处理器·Gartner:腾讯云获CPaaS、CRM多个赛道国内第一
您现在的位置:首页 >> 新•资讯 >> 正文
基于流式计算的DPI数据处理方案及实践
发表时间:2018年8月9日 16:05 来源:《移动通信》2018年1月 责任编 辑:麒麟

图6 4G DPI实时统计方案图

数据源是gzip压缩文件,因为flume原生不支持.gz或.tar.gz文件格式,所以修改了Flume底层代码,实现对压缩文件的处理,省去了解压时间。Flume采集文件时以用户手机号码作为分区的key,将同一号码的数据分到同一分区,便于去重。通过Kafka集群管理工具,Kafka Manager[17]可以很好地监测Kafka集群的状态。Kafka集群生产者如图7所示:

图7 Kafka集群生产者

Kafka Stream消费4GDPI的数据,并行处理。在程序里设置不同的计数器,所有数据都经过这些计数器处理,为了解决去重问题,引入了布隆过滤,虽然有一定的误判率,但是还是能比较好的完成去重,同时保证系统的性能。同样消费者也可以通过Kafka Manager进行管理,可以直观观察到消费者的落后程度。

为了满足不同的输出要求,程序设置了三种输出供选择。粒度为天的数据将会写到MySQL作为备份,针对热点区域的监控数据将会输出到Redis,同时,为了方便管理以及数据呈现,还采用了ELK框架(ElasticSearch+Logstash+Kibana),将所有数据传到Kibana做前端展示。Kibana界面如图8所示:

图8 Kibana界面

5 实践及分析

5.1 部署实践

上述两个系统均已应用在实际的生产中,均有不错的表现,能够满足任务需求,并且已经稳定运行。

宽带DPI处理项目有2台采集机、1台AAA服务器及5台Kafka机器。采集机每台每秒产生115 MB数据,两台1.8 G流量。采集机写Kafka 33万条/秒,Kafka Stream写Kafka 22万条/秒,清洗率(清洗工作把诸如图片、视频及js请求等与业务无关的DPI信息去掉)为33%。Kafka Stream落后处理稳定在500万数据,延迟处理在15 s之内,Flume写HDFS落后保持在100万左右,5 s内的延迟。宽带DPI处理项目性能如图9所示:

图9 宽带DPI处理项目性能

4G DPI实时统计项目共6台机器,1台为Flume采集机,其余5台部署Kafka、Kafka Stream及ELK。采集机写Kafka一般为10万条/秒,峰值可达到25万条/秒。ElasticSearch集群一共8个实例,每个实例配置2 G内存。目前集群有13亿条数据,占361 G空间。通过Logstash导入数据到ElasticSearch峰值可以达到8~9万条/秒。Kafka Stream处理数据落后在10 s内,Logstash写ElasticSearch落后在5 s内,如图10所示。目前4G DPI实时统计项目日均处理文件超过15 000个,大小达到1.6 T,日均处理记录数超过100亿。

[1]  [2]  [3]  [4]  [5]  [6]  [7]  
高层访谈
凌动智行史文勇:品智出行, 重新定义车辆对生活的价值和意义
众所周知,手机是基础的通讯工具,车是基础的交通或者出行工具,而发动机是传统车里面非常高的..
专访张启亮:勇担工业互联推手,服务百万设备上云
近日,在第二十二届中国国际软件博览会上,徐工信息总经理张启亮向《人民邮电》报记者讲述了工..
观点态度
云计算的第二个十年:三大运营商如何迎接?
2018年,我国云计算进入第二个十年。站在国家方队里三大运营商的云计算也进入了新的发展阶段。<..
国内手机市场半年报:头部格局定型 中小品牌陷入集体焦虑
2018年已过半,回看这半年, 头部品牌的吸附效应越来越明显,中小品牌正陷入到集体焦虑中。

..
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1】
Copyright © 2018 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。