基于引文網(wǎng)絡(luò)的論文文本相似性的檢測方法
基本信息
申請?zhí)?/td> | CN201910701668.1 | 申請日 | - |
公開(公告)號 | CN110489745B | 公開(公告)日 | 2019-11-22 |
申請公布號 | CN110489745B | 申請公布日 | 2019-11-22 |
分類號 | G06F40/205(2020.01)I;G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 武山山;王繼民;羅鵬程;趙常煜 | 申請(專利權(quán))人 | 重慶泛語科技有限公司 |
代理機構(gòu) | 北京萬象新悅知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京大學(xué);重慶泛語科技有限公司 |
地址 | 100871北京市海淀區(qū)頤和園路5號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于引文網(wǎng)絡(luò)的論文文本相似性的檢測方法,該方法在引文網(wǎng)絡(luò)的基礎(chǔ)上提出了基于書目耦合與語義指紋相結(jié)合的候選文檔集過濾,在候選文檔集上,基于詞建立句子級別的倒排索引,進行相似句子檢測與觀點片段檢測,生成相似文本,計算得到待檢文檔的復(fù)制比,從而判斷出論文文本的相似性。本發(fā)明基于詞向量的句子比對與觀點檢測,將詞向量與同義詞引入到文本相似性計算中,提升了句子相似性的計算效果且具有計算速度快的優(yōu)點,能夠檢測出論文文本中可能涉及觀點抄襲的文本片段。采用本發(fā)明不僅速度快,而且對詞語替換、句子重組等形式的句子相似性檢測具有好的效果。?? |
