一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法

基本信息

申請(qǐng)?zhí)?/td> CN201910767145.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110737647A 公開(kāi)(公告)日 2020-01-31
申請(qǐng)公布號(hào) CN110737647A 申請(qǐng)公布日 2020-01-31
分類(lèi)號(hào) G06F16/215(2019.01); G06F16/27(2019.01); G06F16/951(2019.01); G06F16/9536(2019.01); G06F21/62(2013.01); G06K9/62(2006.01) 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉磊; 張洪 申請(qǐng)(專(zhuān)利權(quán))人 廣州宏數(shù)科技有限公司
代理機(jī)構(gòu) 廣州市紅荔專(zhuān)利代理有限公司 代理人 廣州宏數(shù)科技有限公司
地址 510640 廣東省廣州市番禺區(qū)沙頭街禺山西路329號(hào)海倫堡創(chuàng)意園1座2棟809
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域,涉及一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法,具體步驟如下:S1、利用數(shù)據(jù)采集模塊提取出所需數(shù)據(jù);S2、利用爬蟲(chóng)同步模塊把oss中的文件同步下來(lái);S3、利用數(shù)據(jù)清洗模塊將處理后的數(shù)據(jù)打包插入KAFKA模塊的kafaka隊(duì)列中;S4、利用KAFKA模塊,運(yùn)用選舉算法將數(shù)據(jù)合理分配到服務(wù)器隊(duì)列中,通過(guò)網(wǎng)絡(luò)傳輸數(shù)據(jù)庫(kù)模塊中;S5、利用數(shù)據(jù)庫(kù)模塊監(jiān)測(cè)KAFKA模塊傳輸過(guò)來(lái)的數(shù)據(jù),并利用filer?chainshain擴(kuò)展監(jiān)控統(tǒng)計(jì)。本發(fā)明通過(guò)數(shù)據(jù)清洗模塊有效地將數(shù)據(jù)重新分類(lèi)整合清洗至各個(gè)規(guī)范化數(shù)據(jù)庫(kù)模塊中,提高了數(shù)據(jù)清洗的準(zhǔn)確度,解決了現(xiàn)有技術(shù)大數(shù)據(jù)因數(shù)據(jù)丟失而造成篩選清洗效率低下的缺陷,達(dá)到快速準(zhǔn)確篩選清洗數(shù)據(jù)的目的。