基于引文網(wǎng)絡(luò)的論文文本相似性的檢測(cè)方法

基本信息

申請(qǐng)?zhí)?/td> CN201910701668.1 申請(qǐng)日 -
公開(公告)號(hào) CN110489745B 公開(公告)日 2019-11-22
申請(qǐng)公布號(hào) CN110489745B 申請(qǐng)公布日 2019-11-22
分類號(hào) G06F40/205(2020.01)I;G06K9/62(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 武山山;王繼民;羅鵬程;趙常煜 申請(qǐng)(專利權(quán))人 重慶泛語科技有限公司
代理機(jī)構(gòu) 北京萬象新悅知識(shí)產(chǎn)權(quán)代理有限公司 代理人 北京大學(xué);重慶泛語科技有限公司
地址 100871北京市海淀區(qū)頤和園路5號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于引文網(wǎng)絡(luò)的論文文本相似性的檢測(cè)方法,該方法在引文網(wǎng)絡(luò)的基礎(chǔ)上提出了基于書目耦合與語義指紋相結(jié)合的候選文檔集過濾,在候選文檔集上,基于詞建立句子級(jí)別的倒排索引,進(jìn)行相似句子檢測(cè)與觀點(diǎn)片段檢測(cè),生成相似文本,計(jì)算得到待檢文檔的復(fù)制比,從而判斷出論文文本的相似性。本發(fā)明基于詞向量的句子比對(duì)與觀點(diǎn)檢測(cè),將詞向量與同義詞引入到文本相似性計(jì)算中,提升了句子相似性的計(jì)算效果且具有計(jì)算速度快的優(yōu)點(diǎn),能夠檢測(cè)出論文文本中可能涉及觀點(diǎn)抄襲的文本片段。采用本發(fā)明不僅速度快,而且對(duì)詞語替換、句子重組等形式的句子相似性檢測(cè)具有好的效果。??