一種基于語(yǔ)義分析的文檔查重方法和裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201810488412.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108804418B | 公開(公告)日 | 2022-03-08 |
申請(qǐng)公布號(hào) | CN108804418B | 申請(qǐng)公布日 | 2022-03-08 |
分類號(hào) | G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06F40/194(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王樂(lè);石園 | 申請(qǐng)(專利權(quán))人 | 浪潮軟件集團(tuán)有限公司 |
代理機(jī)構(gòu) | 濟(jì)南信達(dá)專利事務(wù)所有限公司 | 代理人 | 李世喆 |
地址 | 271000 山東省泰安市東岳大街527號(hào)浪潮科技園 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于語(yǔ)義分析的文檔查重方法和裝置,包括:確定待查重文檔和對(duì)比文檔;根據(jù)預(yù)設(shè)的格式標(biāo)準(zhǔn),對(duì)所述待查重文檔、所述對(duì)比文檔進(jìn)行格式轉(zhuǎn)換;對(duì)經(jīng)過(guò)格式轉(zhuǎn)換的所述待查重文檔、所述對(duì)比文檔進(jìn)行分詞;根據(jù)所述待查重文檔的分詞結(jié)果和所述對(duì)比文檔的分詞結(jié)果,進(jìn)行同義詞歸并,確定第一相似度;根據(jù)所述待查重文檔的分詞結(jié)果和所述對(duì)比文檔的分詞結(jié)果,進(jìn)行聚類分析,確定第二相似度;根據(jù)所述第一相似度和所述第二相似度,確定所述待查重文檔與所述對(duì)比文檔的重復(fù)率。本發(fā)明提供的方案能夠提高查重的精確度。 |
