一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法

基本信息

申請?zhí)?/td> CN201910767145.7 申請日 -
公開(公告)號 CN110737647A 公開(公告)日 2020-01-31
申請公布號 CN110737647A 申請公布日 2020-01-31
分類號 G06F16/215(2019.01); G06F16/27(2019.01); G06F16/951(2019.01); G06F16/9536(2019.01); G06F21/62(2013.01); G06K9/62(2006.01) 分類 計算;推算;計數(shù);
發(fā)明人 劉磊; 張洪 申請(專利權(quán))人 廣州宏數(shù)科技有限公司
代理機構(gòu) 廣州市紅荔專利代理有限公司 代理人 廣州宏數(shù)科技有限公司
地址 510640 廣東省廣州市番禺區(qū)沙頭街禺山西路329號海倫堡創(chuàng)意園1座2棟809
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域,涉及一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法,具體步驟如下:S1、利用數(shù)據(jù)采集模塊提取出所需數(shù)據(jù);S2、利用爬蟲同步模塊把oss中的文件同步下來;S3、利用數(shù)據(jù)清洗模塊將處理后的數(shù)據(jù)打包插入KAFKA模塊的kafaka隊列中;S4、利用KAFKA模塊,運用選舉算法將數(shù)據(jù)合理分配到服務(wù)器隊列中,通過網(wǎng)絡(luò)傳輸數(shù)據(jù)庫模塊中;S5、利用數(shù)據(jù)庫模塊監(jiān)測KAFKA模塊傳輸過來的數(shù)據(jù),并利用filer?chainshain擴展監(jiān)控統(tǒng)計。本發(fā)明通過數(shù)據(jù)清洗模塊有效地將數(shù)據(jù)重新分類整合清洗至各個規(guī)范化數(shù)據(jù)庫模塊中,提高了數(shù)據(jù)清洗的準(zhǔn)確度,解決了現(xiàn)有技術(shù)大數(shù)據(jù)因數(shù)據(jù)丟失而造成篩選清洗效率低下的缺陷,達到快速準(zhǔn)確篩選清洗數(shù)據(jù)的目的。