一種數(shù)據(jù)清洗方法
基本信息
申請(qǐng)?zhí)?/td> | CN201710704678.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN107463705A | 公開(公告)日 | 2017-12-12 |
申請(qǐng)公布號(hào) | CN107463705A | 申請(qǐng)公布日 | 2017-12-12 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 童雷;楊浩東;張復(fù)生 | 申請(qǐng)(專利權(quán))人 | 陜西優(yōu)百信息技術(shù)有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 710075 陜西省西安市高新區(qū)科技五路北側(cè)橡樹星座1幢2單元22901室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種數(shù)據(jù)清洗方法,通過(guò)數(shù)據(jù)導(dǎo)入,將待處理數(shù)據(jù)經(jīng)過(guò)解析后生成具體的數(shù)據(jù)存入數(shù)據(jù)清洗方法;數(shù)據(jù)預(yù)處理,將解析后的數(shù)據(jù)按照所選處理規(guī)則進(jìn)行數(shù)據(jù)的提取后生成待清洗的數(shù)據(jù);數(shù)據(jù)清洗,將待清洗數(shù)據(jù)進(jìn)行聚類;數(shù)據(jù)緩存,根據(jù)用戶的操作命令將數(shù)據(jù)結(jié)果緩存起來(lái);所述命令包括待定、確認(rèn)、移除;確認(rèn)數(shù)據(jù)對(duì)緩存的數(shù)據(jù)結(jié)果進(jìn)行再次清洗直到確認(rèn)數(shù)據(jù)后生成最終所需的數(shù)據(jù)關(guān)系文件并導(dǎo)出文件。解決了數(shù)據(jù)清洗只清洗重復(fù)數(shù)據(jù)而不清洗相似數(shù)據(jù)的問(wèn)題,具有提高數(shù)據(jù)清洗的廣度和深度以及不僅清洗重復(fù)數(shù)據(jù),也同樣清洗相似數(shù)據(jù)的技術(shù)效果。 |
