一種數(shù)據(jù)去重的方法及裝置

基本信息

申請?zhí)?/td> CN201410811756.4 申請日 -
公開(公告)號 CN104462527A 公開(公告)日 2015-03-25
申請公布號 CN104462527A 申請公布日 2015-03-25
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 馬欣;顧喜德 申請(專利權)人 龍信數(shù)據(jù)(北京)有限公司
代理機構 北京集佳知識產(chǎn)權代理有限公司 代理人 龍信數(shù)據(jù)(北京)有限公司
地址 100097 北京市海淀區(qū)藍靛廠東路2號金源時代商務中心B座3D
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種數(shù)據(jù)去重的方法及裝置,該方法包括:獲取待處理的數(shù)據(jù)的業(yè)務主鍵,所述業(yè)務主鍵為根據(jù)業(yè)務需求代表數(shù)據(jù)唯一性的字段;將所述業(yè)務主鍵轉換為統(tǒng)一的預設格式,生成匹配碼;按預設的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;刪除所述驗證碼中標記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。