文章相似度檢測(cè)方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201710736855.4 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107633020B | 公開(kāi)(公告)日 | 2020-05-05 |
申請(qǐng)公布號(hào) | CN107633020B | 申請(qǐng)公布日 | 2020-05-05 |
分類號(hào) | G06F16/33;G06F40/289;G06F40/216 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 田亮;孫凡;武瓊 | 申請(qǐng)(專利權(quán))人 | 新譯信息科技(深圳)有限公司 |
代理機(jī)構(gòu) | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 新譯信息科技(深圳)有限公司 |
地址 | 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園清華信息港科研樓909室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實(shí)施例提供一種文章相似度檢測(cè)方法及裝置,通過(guò)從第一文章中提取評(píng)價(jià)分值高于第一預(yù)設(shè)閾值的詞作為目標(biāo)關(guān)鍵詞,根據(jù)提取獲得的目標(biāo)關(guān)鍵詞,查找與第一文章之間相同目標(biāo)關(guān)鍵詞的數(shù)量大于第二預(yù)設(shè)閾值的第二文章作為相似度檢測(cè)的參考文章,并基于預(yù)設(shè)滑動(dòng)窗口,檢測(cè)第一文章中各段內(nèi)容與所述第二文章之間的第一相似度,以及第二文章中各段內(nèi)容與第一文章之間的第二相似度,從而根據(jù)第一相似度和第二相似度,計(jì)算得到第一文章和第二文章之間的相似度,本發(fā)明實(shí)施例提供的技術(shù)方案能夠?qū)ξ恼碌南嗨贫冗M(jìn)行可靠有效的檢測(cè),從而解決了抄襲文章的識(shí)別問(wèn)題。 |
