一種多源數(shù)據(jù)文檔實時快速去重方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201811456999.5 | 申請日 | - |
公開(公告)號 | CN109635084B | 公開(公告)日 | 2020-11-24 |
申請公布號 | CN109635084B | 申請公布日 | 2020-11-24 |
分類號 | G06F16/332;G06F40/284 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 柴志偉;丑曉慧;許冠宇;宋樂安;許涵洋 | 申請(專利權(quán))人 | 上海深擎信息科技有限公司 |
代理機(jī)構(gòu) | 北京酷愛智慧知識產(chǎn)權(quán)代理有限公司 | 代理人 | 寧波深擎信息科技有限公司;上海深擎信息科技有限公司 |
地址 | 315200 浙江省寧波市鎮(zhèn)海區(qū)駱駝街道錦業(yè)街18號(鎮(zhèn)海大廈)辦公大樓6層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于信息處理技術(shù)領(lǐng)域,具體涉及一種多源數(shù)據(jù)文檔實時快速去重方法及系統(tǒng),包括以下步驟:接收當(dāng)前文檔并對當(dāng)前文檔進(jìn)行過濾,得到過濾后的文檔數(shù)據(jù);通過局部敏感性hash算法,計算出文檔數(shù)據(jù)的特征字;根據(jù)特征字和文檔數(shù)據(jù),判斷當(dāng)前文檔與數(shù)據(jù)庫存儲的之前文檔是否相似;如果不相似,則將當(dāng)前文檔的特征字和文檔數(shù)據(jù)存儲到數(shù)據(jù)庫,否則不存儲。本發(fā)明能夠?qū)Σ煌瑏碓吹南嗨频奈臋n數(shù)據(jù)進(jìn)行實時快速的去重處理,避免相似文檔的重復(fù)存儲。 |
