基于引文網絡的論文文本相似性的檢測方法
基本信息
申請?zhí)?/td> | CN201910701668.1 | 申請日 | - |
公開(公告)號 | CN110489745A | 公開(公告)日 | 2019-11-22 |
申請公布號 | CN110489745A | 申請公布日 | 2019-11-22 |
分類號 | G06F17/27(2006.01); G06K9/62(2006.01) | 分類 | 計算;推算;計數; |
發(fā)明人 | 武山山; 王繼民; 羅鵬程; 趙常煜 | 申請(專利權)人 | 重慶泛語科技有限公司 |
代理機構 | 北京萬象新悅知識產權代理有限公司 | 代理人 | 賈曉玲 |
地址 | 100871 北京市海淀區(qū)頤和園路5號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于引文網絡的論文文本相似性的檢測方法,該方法在引文網絡的基礎上提出了基于書目耦合與語義指紋相結合的候選文檔集過濾,在候選文檔集上,基于詞建立句子級別的倒排索引,進行相似句子檢測與觀點片段檢測,生成相似文本,計算得到待檢文檔的復制比,從而判斷出論文文本的相似性。本發(fā)明基于詞向量的句子比對與觀點檢測,將詞向量與同義詞引入到文本相似性計算中,提升了句子相似性的計算效果且具有計算速度快的優(yōu)點,能夠檢測出論文文本中可能涉及觀點抄襲的文本片段。采用本發(fā)明不僅速度快,而且對詞語替換、句子重組等形式的句子相似性檢測具有好的效果。 |
