一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù)
基本信息
申請(qǐng)?zhí)?/td> | CN201611002341.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106776703A | 公開(公告)日 | 2017-05-31 |
申請(qǐng)公布號(hào) | CN106776703A | 申請(qǐng)公布日 | 2017-05-31 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 肖國(guó)玉;王瑞青;高廣濤;周專科;陳建楠;徐金龍;劉凱;李娜 | 申請(qǐng)(專利權(quán))人 | 上海漢邦京泰數(shù)碼技術(shù)有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 200093 上海市楊浦區(qū)控江路1555號(hào)A座805-809室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),包含以下步驟:(1)數(shù)據(jù)分析、定義錯(cuò)誤類型,(2)搜索、識(shí)別錯(cuò)誤記錄,(3)修正錯(cuò)誤。經(jīng)過本方法數(shù)據(jù)清洗之后:數(shù)據(jù)質(zhì)量至少達(dá)到:1)數(shù)據(jù)對(duì)用戶必須是可信的??尚判园ň_性、完整性、一致性、有效性、唯一性等指標(biāo)。(1)精確性:描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。(2)完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3)一致性:描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。(4)有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍(5)唯一性描述數(shù)據(jù)是否存在重復(fù)記錄。 |
