一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法
基本信息
申請?zhí)?/td> | CN201910767145.7 | 申請日 | - |
公開(公告)號 | CN110737647A | 公開(公告)日 | 2020-01-31 |
申請公布號 | CN110737647A | 申請公布日 | 2020-01-31 |
分類號 | G06F16/215(2019.01); G06F16/27(2019.01); G06F16/951(2019.01); G06F16/9536(2019.01); G06F21/62(2013.01); G06K9/62(2006.01) | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉磊; 張洪 | 申請(專利權(quán))人 | 廣州宏數(shù)科技有限公司 |
代理機構(gòu) | 廣州市紅荔專利代理有限公司 | 代理人 | 廣州宏數(shù)科技有限公司 |
地址 | 510640 廣東省廣州市番禺區(qū)沙頭街禺山西路329號海倫堡創(chuàng)意園1座2棟809 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域,涉及一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法,具體步驟如下:S1、利用數(shù)據(jù)采集模塊提取出所需數(shù)據(jù);S2、利用爬蟲同步模塊把oss中的文件同步下來;S3、利用數(shù)據(jù)清洗模塊將處理后的數(shù)據(jù)打包插入KAFKA模塊的kafaka隊列中;S4、利用KAFKA模塊,運用選舉算法將數(shù)據(jù)合理分配到服務(wù)器隊列中,通過網(wǎng)絡(luò)傳輸數(shù)據(jù)庫模塊中;S5、利用數(shù)據(jù)庫模塊監(jiān)測KAFKA模塊傳輸過來的數(shù)據(jù),并利用filer?chainshain擴展監(jiān)控統(tǒng)計。本發(fā)明通過數(shù)據(jù)清洗模塊有效地將數(shù)據(jù)重新分類整合清洗至各個規(guī)范化數(shù)據(jù)庫模塊中,提高了數(shù)據(jù)清洗的準(zhǔn)確度,解決了現(xiàn)有技術(shù)大數(shù)據(jù)因數(shù)據(jù)丟失而造成篩選清洗效率低下的缺陷,達到快速準(zhǔn)確篩選清洗數(shù)據(jù)的目的。 |
