文章相似度檢測方法及裝置

基本信息

申請?zhí)?/td> CN201710736855.4 申請日 -
公開(公告)號 CN107633020B 公開(公告)日 2020-05-05
申請公布號 CN107633020B 申請公布日 2020-05-05
分類號 G06F16/33;G06F40/289;G06F40/216 分類 計算;推算;計數(shù);
發(fā)明人 田亮;孫凡;武瓊 申請(專利權(quán))人 新譯信息科技(深圳)有限公司
代理機(jī)構(gòu) 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 代理人 新譯信息科技(深圳)有限公司
地址 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園清華信息港科研樓909室
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例提供一種文章相似度檢測方法及裝置,通過從第一文章中提取評價分值高于第一預(yù)設(shè)閾值的詞作為目標(biāo)關(guān)鍵詞,根據(jù)提取獲得的目標(biāo)關(guān)鍵詞,查找與第一文章之間相同目標(biāo)關(guān)鍵詞的數(shù)量大于第二預(yù)設(shè)閾值的第二文章作為相似度檢測的參考文章,并基于預(yù)設(shè)滑動窗口,檢測第一文章中各段內(nèi)容與所述第二文章之間的第一相似度,以及第二文章中各段內(nèi)容與第一文章之間的第二相似度,從而根據(jù)第一相似度和第二相似度,計算得到第一文章和第二文章之間的相似度,本發(fā)明實施例提供的技術(shù)方案能夠?qū)ξ恼碌南嗨贫冗M(jìn)行可靠有效的檢測,從而解決了抄襲文章的識別問題。