基于文本和圖像相似度防止項目重復申報的方法

基本信息

申請?zhí)?/td> CN202011047496.X 申請日 -
公開(公告)號 CN112131348A 公開(公告)日 2020-12-25
申請公布號 CN112131348A 申請公布日 2020-12-25
分類號 G06F16/33(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 羅益軍;李建軍;李代俊;羅艾;劉瀾;李鋼 申請(專利權(quán))人 成都金稅電子技術(shù)有限公司
代理機構(gòu) 成都正煜知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 四川財經(jīng)職業(yè)學院;成都金稅電子技術(shù)有限公司
地址 610000四川省成都市龍泉驛區(qū)驛都大道西路4111號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于文本和圖片相似度防止項目重復申報的方法,屬于查重技術(shù)領(lǐng)域,解決現(xiàn)有技術(shù)中通過人工方式來判斷項目是否存在重復申報的問題,其工作量大,效率低下,并且采用人工判斷的方式,其主觀性強,易造成判斷的準確率低下的問題。本發(fā)明基于項目文檔中的圖片和文本摘要分別與數(shù)據(jù)庫中的項目文檔中的圖片和文本摘要進行相似度對比,若項目文檔中至少有一幅圖片的相似度達到給定的閾值,且提取的文本摘要達到給定的閾值,將達到閾值的圖片和文本摘要的相似度分別乘以給定的權(quán)重,得到項目文檔的總相似度值,若總相似度值達到給定的閾值,則項目文檔是重復申報的文檔,否則,不是。本發(fā)明用于防止項目重復申報。??