一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN200910136595.2 申請(qǐng)日 -
公開(公告)號(hào) CN101882141A 公開(公告)日 2010-11-10
申請(qǐng)公布號(hào) CN101882141A 申請(qǐng)公布日 2010-11-10
分類號(hào) G06F17/30(2006.01)I;G06F11/14(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張慶敏;胡剛;謝海威;郭棟 申請(qǐng)(專利權(quán))人 北京眾志和達(dá)數(shù)據(jù)計(jì)算有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100089 北京市海淀區(qū)廠洼中路1號(hào)國家行政學(xué)院欣正大廈606室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法,包括:通過simhash(相似性哈希)算法計(jì)算數(shù)據(jù)的相似度;通過相似度定位存儲(chǔ)位置,把相似度計(jì)入索引庫;把數(shù)據(jù)寫入數(shù)據(jù)倉庫。如果有相同的相似度的數(shù)據(jù)進(jìn)來的話,把數(shù)據(jù)倉庫中對(duì)應(yīng)的數(shù)據(jù)提取出來,然后進(jìn)行二進(jìn)制比對(duì);如果相同則記錄索引,如果不同則記錄不同的數(shù)據(jù)部分。本發(fā)明還提供了一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的系統(tǒng),包括:相似度標(biāo)示庫(BitMap)、數(shù)據(jù)偏移的標(biāo)示庫和數(shù)據(jù)倉庫(LBAMap),記錄原始數(shù)據(jù)的存儲(chǔ)庫(Resp)。所述方法和系統(tǒng)基于相似性哈希算法理論,通過數(shù)據(jù)對(duì)比保證數(shù)據(jù)一致性,既高效的完成了重復(fù)數(shù)據(jù)刪除,又保證了數(shù)據(jù)的一致性。