璺�鐞涖儲婀並2閻ㄥ嫭鎭担鎾绘寢閳ユ柡鈧梹鍫¢懛锝呪偓宥呬淮闁芥K閿涘苯銈介崥鍛婃暪閹靛秳绨ㄩ崡濠傚閸婏拷璺�閺嗘垵浜i懖鐘哄剭閺勬挸鍤梻顕€顣介敍瀹璱fespace閻╁﹦鏁撻懣灞藉簻娴g姵澧﹂柅鐘蹭淮鎼村嘲銈介垾婊嗗亖閳ユ繃鈧拷璺�妫f牕鍨遍幀褏顫栭惍鏃€鍨氶弸婊愮窗閸栨ぞ鍚€规繃鐏氶悽鐔哄⒖缁佺偟绮¢柊鍛婃暭閸犲嚗IE濞岃崵鏋熼弫鍫熺亯璺�缁夋垵顒熼幎銈堝€介弨鑽ゆ殣閿涙岸娉�4闁插秵濮㈤懖婵囶槻缁€涚艾娑撯偓闊偆娈戦崑銉ョ暔闁倷绗夌€瑰綊鏁婃潻锟�璺�鐟欙綁鏀i煬顐f綏缁狅紕鎮婇弬鏉啃崝鍖$窗lifespace鐏忓繗鎽戦懙鎵抄閻㈢喕寮婚崝鈺€缍樼€圭偟骞囩粔鎴濐劅闊偅娼楃粻锛勬倞璺�婵″倷缍嶇粔鎴濐劅闂勫秷顢呴懘鍌︾吹娑撶粯澧︽径鈺冨姧閹存劕鍨庨惃鍕灊閻ф儳鐣炵痪瀹犵湸缁俱垺娲搁懗璺烘抄娴滃棜袙娑擄拷璺�閺勫棜鍚樻稉顓炴禇鐠у吀绗濆☉娑崇窗绾句礁鐢弰顖氬枎閺佺増宓侀惃鍕付娴e啿鐡ㄩ崒銊ょ矙鐠愶拷璺�婵″倷缍嶆晶鐐插繁閸忓秶鏌呴崝娑崇吹濮广倛鍤曢崐宥呬淮閾斿娅х划澶娿偨閽€銉ュ悋閺夈儮鈧粌濮弨鐑┾偓锟�璺�Canalys鐠嬪啰鐖洪敍姘厬閸ユ垝绱掓稉姘嚠娴滃簼绗傛禍鎴犳畱闂団偓濮瑰倷绮涢悞鏈电秵鏉╋拷璺�婢х偛绠欑搾锟�30% 閸楀簼璐熸稉濠呯殶2023閹靛婧€閸戦缚鎻i柌蹇氬殾4000娑撳洭鍎�璺�缁愪胶鐗径姘躲€嶉柌宥囧仯閹垛偓閺堬拷 濞搭亝鐤嗛崣鎴濈閸忋劍鏌婄粻妤€濮忕純鎴犵捕閹垮秳缍旂化鑽ょ埠璺�閼奉亝鍨滈惇瀣€滈敍鐔诲閺嬫粌銇囬獮鍛閸戝粰R婢跺瓨妯夐柨鈧崬顔炬窗閺嶅洩鍤�15娑撳洤褰�璺�閸楀簼璐熸禍鎴烆劀瀵繐褰傜敮鍐╂煀娑撯偓娴狅綀鍤滈惍鏂垮瀻鐢啫绱¢弫鐗堝祦鎼存弸aussDB璺�閸忋劎鎮嗙粭顑跨鐎硅绱掓稉澶嬫ЕQD-OLED閼剧òantone閸欏矁澹婅ぐ鈺傛綀婵炰浇顓荤拠锟�璺�濞村缈遍柊姝岀槸缁惧憡鈧簼绠為悽锟�璺�3999閸忓啳鎹i敍浣瑰閸欑姴鐫嗛幍瀣簚moto razr 40缁鍨锝呯础閸欐垵绔�璺�鐠愮绱掔槐銏犲嚬閹恒劌鍤璗OUGH娑撳妲籆Fexpress Type A鐎涙ê鍋嶉崡锟�璺�閸楀簼璐熷锝呯础閸欐垵绔烽弲铏圭暆閸忋劌鍘滈懕鏃€甯撮幋妯兼殣閸欙拷6濞嗛箖鍣哥壕鍛煀閸濓拷璺�閼辨柨褰傜粔鎴f噣娴滃鏆遍拕鈩冩娴犲绱版0鍕吀閹靛婧€娑撴艾濮熼張顏呮降娑撱倕鍕炬导姘杻闂€锟�璺�濞村缈遍柊姝岀槸缁惧憡鈧簼绠為悽锟�璺�閼垫崘顔嗘禍鎱恉geOne閸忋儵鈧artner DDoS缂傛捁袙閺傝顢嶇敮鍌氭簚閹稿洤宕�璺�閸楀簼璐烵ceanStor Pacific閸掑棗绔峰蹇撶摠閸屻劏骞廔O500濮掓粎顑囨稉鈧�璺�鐏忓繒鑳岄崣鎴濈2023楠炵繝绔寸€涳絽瀹崇拹銏″Г閿涙碍澹勬禍蹇庤礋閻╁牞绱濋崚鈺傞紟娑撳﹥瀹�璺�閼辨梹鍏傛稉濠佺鐠愩垹鍕鹃拃銉︽暪閸掆晜榧庨崣灞藉蓟娑撳绮� 闂堟扛C閺€璺哄弳閸楃姵鐦潻锟�40%璺�娴e疇鍏樻#鏍儥RF閳ユ粓銈奸獮娴嬧偓婵嬫殔婢剁ⅵF28mm F2.8 STM濮濓絽绱¢崣鎴濈璺�缁便垹鍑归崣鎴濈鏉炶闃€閸ㄥ鍙忛弲顖氾紣閸ョ偤鐓舵竟涓燭-S2000 閸烆喕鐜�2990閸忥拷璺�閻€劌寮搁拋锝勭皑闂€鍨悑CEO閻滃鏋冩禍顒婄窗閸忋劑娼伴弫鐗堟閸熷棔绗熼崚娑欐煀閺冩湹鍞崚鐗堟降璺�娑擃厼鍙碩ECS娴滄垵閽╅崣鎷岀箾缂侇厺绗侀獮纾嬪箯GlobalData Leader鐠囧嫮楠�璺�閸愬懏鐗抽弫浼村櫤娑撹桨绗熼悾灞炬付妤傛﹫绱扐mpere閸欐垵绔�192閺嶇RM婢跺嫮鎮婇崳锟�璺�Gartner閿涙俺鍚樼拋顖欑隘閼剧áPaaS閵嗕竼RM婢舵矮閲滅挧娑壕閸ヨ棄鍞寸粭顑跨
您现在的位置:首页 >> 新•资讯 >> 正文
基于流式计算的DPI数据处理方案及实践
发表时间:2018年8月9日 16:05 来源:《移动通信》2018年1月 责任编 辑:麒麟

图10 4G DPI实时统计项目性能

5.2 存在的问题

在4G DPI实时统计项目开发过程中,随着项目的需求越来越多,后面增加了对域名和CGI的去重,而且同一域名或者CGI不在同一Kafka分区,导致结果有偏差。为了解决这一问题,程序设计了二次去重,第一次去重的结果把CGI或者域名作为key输出到Kafka集群,再做了一次去重工作,导致延迟时间变大和系统维护变复杂。

由于宽带DPI处理中不涉及去重,只是数据过滤和数据转换,因此Kafka Stream是非常适合的。但在涉及分区和去重的4G DPI实时统计项目中,应当采用Storm作为流式处理框架。在Storm中,数据从一个bolt流到另外一个bolt,这样数据可以在一个bolt中按手机号码分区,在另外一个bolt中又可以按CGI或者域名分区,可以避免二次去重问题,降低编程模型复杂度。

在程序设计之初,应根据应用场景需求选择合适的技术框架。如果项目基础结构中涉及Spark,那Spark Streaming是不错的选择;如果像4G DPI实时统计项目一样需要数据转移或者去重,那么Storm是首选;如果是简单的数据清洗和转换处理,那么Kafka Stream是不错的选择。对于简单小规模的实时统计,PipeLineDB足以胜任。

6 结束语

大数据流式计算和批处理适用于不同的业务场景,在对时效要求高的场景下,流式计算具有明显的优势。本文首先概述了流式处理以及其与批处理的区别,然后对业界流行的流式计算框架进行了对比,根据业务需求提出了以Kafka Stream为流式处理框架的DPI数据处理方案,搭配Kafka、Flume及ELK等组件,具有入门迅速、编程难度低和部署维护简单等特点。并且将方案应用到了宽带DPI处理项目以及4G DPI实时统计项目中,完成了任务需求,性能优异,运行稳定。

在对实际项目实践中,随着任务需求的增多,发现Kafka Stream在应对多维度数据去重问题时表现不力,需要引入二次过滤来解决问题。因此在项目需求阶段,便要在技术框架选型时充分考虑可能出现的问题,结合技术框架适用场景,综合考虑。

[1] Zikopoulos P, Eaton C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data[M]. McGraw-Hill Osborne Media, 1989.

[2] 陈康,付华峥,陈翀,等. 基于DPI的用户兴趣实时分类[J]. 电信科学, 2016,32(12): 109-115.

[3] 孙大为,张广艳,郑纬民. 大数据流式计算:关键技术及系统实例[J]. 软件学报, 2014,25(4): 839-862.

[4] 董斌,杨迪,王铮,等. 流计算大数据技术在运营商实时信令处理中的应用[J]. 电信科学, 2015,31(10): 165-171.

[5] Marz N,Warren J. Big Data: Principles and best practices of scalable realtime data systems[M]. Manning, 2015.

[6] 李祥池. 基于ELK和Spark Streaming的日志分析系统设计与实现[J]. 电子科学技术, 2015,2(6): 674-678.

[7] 李圣,黄永忠,陈海勇. 大数据流式计算系统研究综述[J]. 信息工程大学学报, 2016,17(1): 88-92.

[1]  [2]  [3]  [4]  [5]  [6]  [7]  
高层访谈
凌动智行史文勇:品智出行, 重新定义车辆对生活的价值和意义
众所周知,手机是基础的通讯工具,车是基础的交通或者出行工具,而发动机是传统车里面非常高的..
专访张启亮:勇担工业互联推手,服务百万设备上云
近日,在第二十二届中国国际软件博览会上,徐工信息总经理张启亮向《人民邮电》报记者讲述了工..
观点态度
云计算的第二个十年:三大运营商如何迎接?
2018年,我国云计算进入第二个十年。站在国家方队里三大运营商的云计算也进入了新的发展阶段。<..
国内手机市场半年报:头部格局定型 中小品牌陷入集体焦虑
2018年已过半,回看这半年, 头部品牌的吸附效应越来越明显,中小品牌正陷入到集体焦虑中。

..
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1】
Copyright © 2018 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。