大數(shù)據(jù)查重方法、裝置、計算機設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201911115294.1 申請日 -
公開(公告)號 CN110909019A 公開(公告)日 2020-03-24
申請公布號 CN110909019A 申請公布日 2020-03-24
分類號 G06F16/242;G06F16/248 分類 計算;推算;計數(shù);
發(fā)明人 林必毅;熊俊杰;宋夢培;朱吉山;袁愛鈞;李穎;楊瑞;李靖 申請(專利權(quán))人 湖南賽吉智慧城市建設(shè)管理有限公司
代理機構(gòu) 深圳市精英專利事務(wù)所 代理人 湖南賽吉智慧城市建設(shè)管理有限公司
地址 416000 湖南省湘西土家族苗族自治州吉首市乾州新區(qū)世紀(jì)大道總部經(jīng)濟大樓十四層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及大數(shù)據(jù)查重方法、裝置、計算機設(shè)備及存儲介質(zhì),該方法包括獲取需查重數(shù)據(jù);預(yù)處理需查重數(shù)據(jù),以得到Simhash值;根據(jù)該值內(nèi)需要確認重復(fù)的數(shù)值進行組構(gòu)建以得到分組,將需查重數(shù)據(jù)歸類至分組內(nèi)以得到組內(nèi)數(shù)據(jù)數(shù)量;當(dāng)組內(nèi)數(shù)據(jù)數(shù)量不預(yù)設(shè)條件,剔除組內(nèi)數(shù)據(jù)數(shù)量最多的分組以得到目標(biāo)分組;對目標(biāo)分組內(nèi)的數(shù)據(jù)計算相似度比較值以得到相似度值;判斷相似度值是否超過預(yù)設(shè)閾值;若否,則對所剔除的組內(nèi)數(shù)據(jù)數(shù)量最多的分組進行數(shù)據(jù)拷貝及組細分處理,得到細分后的每個組內(nèi)的數(shù)據(jù)數(shù)量,并以此更新組內(nèi)數(shù)據(jù)數(shù)量;當(dāng)組內(nèi)數(shù)據(jù)數(shù)量不滿足終止條件,返回判斷組內(nèi)數(shù)據(jù)數(shù)量是否滿足預(yù)設(shè)條件。本發(fā)明實現(xiàn)數(shù)據(jù)處理量小,計算效率高。