一種基于大數(shù)據(jù)運(yùn)營分析的數(shù)據(jù)處理方法

基本信息

申請?zhí)?/td> CN201711053343.4 申請日 -
公開(公告)號 CN107908690B 公開(公告)日 2021-07-20
申請公布號 CN107908690B 申請公布日 2021-07-20
分類號 G06F16/14;G06F16/18;G06F16/182;G06F16/172;G06F16/16;G06F16/13;G06F9/54 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 石光捷;付飛龍;方勇;劉東升;項(xiàng)炤赟 申請(專利權(quán))人 南京欣網(wǎng)互聯(lián)網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 南京源古知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 馬曉輝
地址 210000 江蘇省南京市鼓樓區(qū)南昌路40號長江科技園一期大樓7層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于大數(shù)據(jù)運(yùn)營分析的數(shù)據(jù)處理方法包括:步驟一采集源數(shù)據(jù)信息:通過規(guī)則引擎讀取數(shù)據(jù)信息,啟動(dòng)Flume系統(tǒng)進(jìn)行數(shù)據(jù)采集;步驟二數(shù)據(jù)分類;步驟三:清洗數(shù)據(jù):利用Flume的各個(gè)Agent根據(jù)規(guī)則引擎中的清洗規(guī)則進(jìn)行數(shù)據(jù)清洗;步驟四對清洗后的數(shù)據(jù)分類:為實(shí)時(shí)計(jì)算數(shù)據(jù)還是非實(shí)時(shí)計(jì)算數(shù)據(jù);步驟五在上述步驟三中的HDFS目錄根據(jù)預(yù)將HDFS目錄中的日志內(nèi)容發(fā)送到離線數(shù)據(jù)處理系統(tǒng)中分析HDFS目錄中的數(shù)據(jù)并把最終處理結(jié)果保存到結(jié)果集中;步驟六:根據(jù)預(yù)設(shè)的業(yè)務(wù)要求實(shí)時(shí)分析Kafka相應(yīng)Topic的數(shù)據(jù),實(shí)時(shí)分析消費(fèi)Kafka中相應(yīng)Topic的數(shù)據(jù),處理結(jié)果存放到結(jié)果集中。本方法充分利用Flume系統(tǒng)的本身優(yōu)勢并結(jié)合Kafka、HDFS等工具,實(shí)現(xiàn)對運(yùn)營平臺的數(shù)據(jù)分析配置。