一種大規(guī)模文本相似度計(jì)算及文本查重方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010132181.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111324750B | 公開(kāi)(公告)日 | 2021-07-13 |
申請(qǐng)公布號(hào) | CN111324750B | 申請(qǐng)公布日 | 2021-07-13 |
分類(lèi)號(hào) | G06F16/383;G06F40/289;G06K9/62 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張校源;陳驍 | 申請(qǐng)(專(zhuān)利權(quán))人 | 上海愛(ài)數(shù)信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 上??剖⒅R(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 葉敏華 |
地址 | 201112 上海市閔行區(qū)聯(lián)航路1188號(hào)8幢第2層A-1單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種大規(guī)模文本相似度計(jì)算及文本查重方法,包括:獲取原始文本數(shù)據(jù)集,創(chuàng)建整數(shù)形式的指紋集合;將指紋集合及對(duì)應(yīng)的文本id以字節(jié)數(shù)據(jù)方式存儲(chǔ),得到指紋庫(kù);獲取目標(biāo)文本,創(chuàng)建目標(biāo)指紋;從指紋庫(kù)讀取所有字節(jié)數(shù)據(jù),并存入map內(nèi)存;根據(jù)目標(biāo)指紋,從map內(nèi)存中得到對(duì)比指紋集合,采用整數(shù)異或運(yùn)算方法,分別計(jì)算目標(biāo)指紋與對(duì)比指紋集合中各指紋之間的相似度;當(dāng)相似度二進(jìn)制數(shù)值中1的個(gè)數(shù)小于或等于預(yù)設(shè)值時(shí),則判斷該對(duì)比指紋與目標(biāo)指紋相似,通過(guò)查詢文本id,即完成目標(biāo)文本的查重。與現(xiàn)有技術(shù)相比,本發(fā)明能夠減少文檔指紋存儲(chǔ)占用空間、減少查詢文檔指紋時(shí)間,在保證準(zhǔn)確度的基礎(chǔ)上,大大提升相似度計(jì)算及文本查重效率。 |
