一種相似文本檢測方法、裝置、電子設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202010191122.9 申請日 -
公開(公告)號 CN111382233A 公開(公告)日 2020-07-07
申請公布號 CN111382233A 申請公布日 2020-07-07
分類號 G06F16/33(2019.01)I 分類 -
發(fā)明人 王正 申請(專利權(quán))人 深圳市銘墨科技有限公司
代理機構(gòu) 北京品源專利代理有限公司 代理人 深圳市隨金科技有限公司
地址 518000廣東省深圳市南山區(qū)粵海街道高新區(qū)南區(qū)科技南十二路金蝶軟件園B棟402室
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開了一種相似文本檢測方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括:確定給定文本的文本指紋;統(tǒng)計所述文本指紋中第一標(biāo)識的總個數(shù)或者第二標(biāo)識的總個數(shù);基于所述第一標(biāo)識的總個數(shù)或者第二標(biāo)識的總個數(shù),以及設(shè)定海明距離閾值對待檢測文本進行篩選,得到所述給定文本的可能相似文本集;針對所述可能相似文本集中的每個待檢測文本,基于文本指紋之間的海明距離確定所述給定文本的準(zhǔn)相似文本。本發(fā)明實施例的技術(shù)方案,實現(xiàn)了提高相似文本檢測效率的目的。??