一種數(shù)據(jù)清洗方法及設備
基本信息
申請?zhí)?/td> | CN201810790545.5 | 申請日 | - |
公開(公告)號 | CN108959620A | 公開(公告)日 | 2018-12-07 |
申請公布號 | CN108959620A | 申請公布日 | 2018-12-07 |
分類號 | G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 胡曉嬌;耿凌;曾會成;石建豪;付宏東;李璽 | 申請(專利權(quán))人 | 上海漢得信息技術(shù)股份有限公司 |
代理機構(gòu) | 上海百一領御專利代理事務所(普通合伙) | 代理人 | 王奎宇;甘章乖 |
地址 | 201799 上海市青浦區(qū)青浦工業(yè)園區(qū)外青松公路5500號303室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請的目的是提供一種數(shù)據(jù)清洗方法,本申請首先預置數(shù)據(jù)清洗規(guī)則,其中,該數(shù)據(jù)清洗規(guī)則包括數(shù)據(jù)類型、字段及其對應的清洗轉(zhuǎn)換規(guī)則,以便需要對不同行業(yè)或企業(yè)對應的不同的原始數(shù)據(jù)進行數(shù)據(jù)清洗時,能夠直接調(diào)用該數(shù)據(jù)清洗規(guī)則對對應的原始數(shù)據(jù)進行及時有效地清洗;當獲取待清洗的原始數(shù)據(jù)及其所有原始字段后,對所述待清洗的原始數(shù)據(jù)及其所有原始字段進行預處理,得到待清洗數(shù)據(jù)及其至少一個有效地清洗字段;基于數(shù)據(jù)清洗規(guī)則對待清洗數(shù)據(jù)中的、每個清洗字段對應的數(shù)據(jù)進行清洗,得到清洗后的數(shù)據(jù),其中,清洗后的數(shù)據(jù)包括每個清洗字段的清洗值,實現(xiàn)對不同的原始數(shù)據(jù)中預處理篩選出來的清洗字段及時、定向及有效地清洗。 |
