一種基于語義分析的文檔查重方法和裝置

基本信息

申請?zhí)?/td> CN201810488412.2 申請日 -
公開(公告)號 CN108804418B 公開(公告)日 2022-03-08
申請公布號 CN108804418B 申請公布日 2022-03-08
分類號 G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06F40/194(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王樂;石園 申請(專利權(quán))人 浪潮軟件集團有限公司
代理機構(gòu) 濟南信達專利事務(wù)所有限公司 代理人 李世喆
地址 271000 山東省泰安市東岳大街527號浪潮科技園
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于語義分析的文檔查重方法和裝置,包括:確定待查重文檔和對比文檔;根據(jù)預(yù)設(shè)的格式標(biāo)準(zhǔn),對所述待查重文檔、所述對比文檔進行格式轉(zhuǎn)換;對經(jīng)過格式轉(zhuǎn)換的所述待查重文檔、所述對比文檔進行分詞;根據(jù)所述待查重文檔的分詞結(jié)果和所述對比文檔的分詞結(jié)果,進行同義詞歸并,確定第一相似度;根據(jù)所述待查重文檔的分詞結(jié)果和所述對比文檔的分詞結(jié)果,進行聚類分析,確定第二相似度;根據(jù)所述第一相似度和所述第二相似度,確定所述待查重文檔與所述對比文檔的重復(fù)率。本發(fā)明提供的方案能夠提高查重的精確度。