基于引文網(wǎng)絡(luò)的論文文本相似性的檢測方法

基本信息

申請?zhí)?/td> CN201910701668.1 申請日 -
公開(公告)號 CN110489745B 公開(公告)日 2019-11-22
申請公布號 CN110489745B 申請公布日 2019-11-22
分類號 G06F40/205(2020.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 武山山;王繼民;羅鵬程;趙常煜 申請(專利權(quán))人 重慶泛語科技有限公司
代理機構(gòu) 北京萬象新悅知識產(chǎn)權(quán)代理有限公司 代理人 北京大學(xué);重慶泛語科技有限公司
地址 100871北京市海淀區(qū)頤和園路5號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于引文網(wǎng)絡(luò)的論文文本相似性的檢測方法,該方法在引文網(wǎng)絡(luò)的基礎(chǔ)上提出了基于書目耦合與語義指紋相結(jié)合的候選文檔集過濾,在候選文檔集上,基于詞建立句子級別的倒排索引,進行相似句子檢測與觀點片段檢測,生成相似文本,計算得到待檢文檔的復(fù)制比,從而判斷出論文文本的相似性。本發(fā)明基于詞向量的句子比對與觀點檢測,將詞向量與同義詞引入到文本相似性計算中,提升了句子相似性的計算效果且具有計算速度快的優(yōu)點,能夠檢測出論文文本中可能涉及觀點抄襲的文本片段。采用本發(fā)明不僅速度快,而且對詞語替換、句子重組等形式的句子相似性檢測具有好的效果。??