文章相似度檢測(cè)方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201710736855.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107633020B 公開(kāi)(公告)日 2020-05-05
申請(qǐng)公布號(hào) CN107633020B 申請(qǐng)公布日 2020-05-05
分類號(hào) G06F16/33;G06F40/289;G06F40/216 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 田亮;孫凡;武瓊 申請(qǐng)(專利權(quán))人 新譯信息科技(深圳)有限公司
代理機(jī)構(gòu) 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 代理人 新譯信息科技(深圳)有限公司
地址 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園清華信息港科研樓909室
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例提供一種文章相似度檢測(cè)方法及裝置,通過(guò)從第一文章中提取評(píng)價(jià)分值高于第一預(yù)設(shè)閾值的詞作為目標(biāo)關(guān)鍵詞,根據(jù)提取獲得的目標(biāo)關(guān)鍵詞,查找與第一文章之間相同目標(biāo)關(guān)鍵詞的數(shù)量大于第二預(yù)設(shè)閾值的第二文章作為相似度檢測(cè)的參考文章,并基于預(yù)設(shè)滑動(dòng)窗口,檢測(cè)第一文章中各段內(nèi)容與所述第二文章之間的第一相似度,以及第二文章中各段內(nèi)容與第一文章之間的第二相似度,從而根據(jù)第一相似度和第二相似度,計(jì)算得到第一文章和第二文章之間的相似度,本發(fā)明實(shí)施例提供的技術(shù)方案能夠?qū)ξ恼碌南嗨贫冗M(jìn)行可靠有效的檢測(cè),從而解決了抄襲文章的識(shí)別問(wèn)題。