一種數(shù)據(jù)清洗方法及設備

基本信息

申請?zhí)?/td> CN201810790545.5 申請日 -
公開(公告)號 CN108959620A 公開(公告)日 2018-12-07
申請公布號 CN108959620A 申請公布日 2018-12-07
分類號 G06F17/30 分類 計算;推算;計數(shù);
發(fā)明人 胡曉嬌;耿凌;曾會成;石建豪;付宏東;李璽 申請(專利權(quán))人 上海漢得信息技術(shù)股份有限公司
代理機構(gòu) 上海百一領御專利代理事務所(普通合伙) 代理人 王奎宇;甘章乖
地址 201799 上海市青浦區(qū)青浦工業(yè)園區(qū)外青松公路5500號303室
法律狀態(tài) -

摘要

摘要 本申請的目的是提供一種數(shù)據(jù)清洗方法,本申請首先預置數(shù)據(jù)清洗規(guī)則,其中,該數(shù)據(jù)清洗規(guī)則包括數(shù)據(jù)類型、字段及其對應的清洗轉(zhuǎn)換規(guī)則,以便需要對不同行業(yè)或企業(yè)對應的不同的原始數(shù)據(jù)進行數(shù)據(jù)清洗時,能夠直接調(diào)用該數(shù)據(jù)清洗規(guī)則對對應的原始數(shù)據(jù)進行及時有效地清洗;當獲取待清洗的原始數(shù)據(jù)及其所有原始字段后,對所述待清洗的原始數(shù)據(jù)及其所有原始字段進行預處理,得到待清洗數(shù)據(jù)及其至少一個有效地清洗字段;基于數(shù)據(jù)清洗規(guī)則對待清洗數(shù)據(jù)中的、每個清洗字段對應的數(shù)據(jù)進行清洗,得到清洗后的數(shù)據(jù),其中,清洗后的數(shù)據(jù)包括每個清洗字段的清洗值,實現(xiàn)對不同的原始數(shù)據(jù)中預處理篩選出來的清洗字段及時、定向及有效地清洗。