大數(shù)據(jù)查重方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN201911115294.1 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN110909019A | 公開(kāi)(公告)日 | 2020-03-24 |
申請(qǐng)公布號(hào) | CN110909019A | 申請(qǐng)公布日 | 2020-03-24 |
分類(lèi)號(hào) | G06F16/242;G06F16/248 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 林必毅;熊俊杰;宋夢(mèng)培;朱吉山;袁愛(ài)鈞;李穎;楊瑞;李靖 | 申請(qǐng)(專(zhuān)利權(quán))人 | 湖南賽吉智慧城市建設(shè)管理有限公司 |
代理機(jī)構(gòu) | 深圳市精英專(zhuān)利事務(wù)所 | 代理人 | 湖南賽吉智慧城市建設(shè)管理有限公司 |
地址 | 416000 湖南省湘西土家族苗族自治州吉首市乾州新區(qū)世紀(jì)大道總部經(jīng)濟(jì)大樓十四層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及大數(shù)據(jù)查重方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),該方法包括獲取需查重?cái)?shù)據(jù);預(yù)處理需查重?cái)?shù)據(jù),以得到Simhash值;根據(jù)該值內(nèi)需要確認(rèn)重復(fù)的數(shù)值進(jìn)行組構(gòu)建以得到分組,將需查重?cái)?shù)據(jù)歸類(lèi)至分組內(nèi)以得到組內(nèi)數(shù)據(jù)數(shù)量;當(dāng)組內(nèi)數(shù)據(jù)數(shù)量不預(yù)設(shè)條件,剔除組內(nèi)數(shù)據(jù)數(shù)量最多的分組以得到目標(biāo)分組;對(duì)目標(biāo)分組內(nèi)的數(shù)據(jù)計(jì)算相似度比較值以得到相似度值;判斷相似度值是否超過(guò)預(yù)設(shè)閾值;若否,則對(duì)所剔除的組內(nèi)數(shù)據(jù)數(shù)量最多的分組進(jìn)行數(shù)據(jù)拷貝及組細(xì)分處理,得到細(xì)分后的每個(gè)組內(nèi)的數(shù)據(jù)數(shù)量,并以此更新組內(nèi)數(shù)據(jù)數(shù)量;當(dāng)組內(nèi)數(shù)據(jù)數(shù)量不滿足終止條件,返回判斷組內(nèi)數(shù)據(jù)數(shù)量是否滿足預(yù)設(shè)條件。本發(fā)明實(shí)現(xiàn)數(shù)據(jù)處理量小,計(jì)算效率高。 |
