一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法
基本信息
申請(qǐng)?zhí)?/td> | CN201910767145.7 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN110737647A | 公開(kāi)(公告)日 | 2020-01-31 |
申請(qǐng)公布號(hào) | CN110737647A | 申請(qǐng)公布日 | 2020-01-31 |
分類(lèi)號(hào) | G06F16/215(2019.01); G06F16/27(2019.01); G06F16/951(2019.01); G06F16/9536(2019.01); G06F21/62(2013.01); G06K9/62(2006.01) | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 劉磊; 張洪 | 申請(qǐng)(專(zhuān)利權(quán))人 | 廣州宏數(shù)科技有限公司 |
代理機(jī)構(gòu) | 廣州市紅荔專(zhuān)利代理有限公司 | 代理人 | 廣州宏數(shù)科技有限公司 |
地址 | 510640 廣東省廣州市番禺區(qū)沙頭街禺山西路329號(hào)海倫堡創(chuàng)意園1座2棟809 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域,涉及一種互聯(lián)網(wǎng)大數(shù)據(jù)清洗方法,具體步驟如下:S1、利用數(shù)據(jù)采集模塊提取出所需數(shù)據(jù);S2、利用爬蟲(chóng)同步模塊把oss中的文件同步下來(lái);S3、利用數(shù)據(jù)清洗模塊將處理后的數(shù)據(jù)打包插入KAFKA模塊的kafaka隊(duì)列中;S4、利用KAFKA模塊,運(yùn)用選舉算法將數(shù)據(jù)合理分配到服務(wù)器隊(duì)列中,通過(guò)網(wǎng)絡(luò)傳輸數(shù)據(jù)庫(kù)模塊中;S5、利用數(shù)據(jù)庫(kù)模塊監(jiān)測(cè)KAFKA模塊傳輸過(guò)來(lái)的數(shù)據(jù),并利用filer?chainshain擴(kuò)展監(jiān)控統(tǒng)計(jì)。本發(fā)明通過(guò)數(shù)據(jù)清洗模塊有效地將數(shù)據(jù)重新分類(lèi)整合清洗至各個(gè)規(guī)范化數(shù)據(jù)庫(kù)模塊中,提高了數(shù)據(jù)清洗的準(zhǔn)確度,解決了現(xiàn)有技術(shù)大數(shù)據(jù)因數(shù)據(jù)丟失而造成篩選清洗效率低下的缺陷,達(dá)到快速準(zhǔn)確篩選清洗數(shù)據(jù)的目的。 |
