一種基于信息指紋的相似信息識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN201310402465.5 申請(qǐng)日 -
公開(公告)號(hào) CN103425639A 公開(公告)日 2013-12-04
申請(qǐng)公布號(hào) CN103425639A 申請(qǐng)公布日 2013-12-04
分類號(hào) G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 戴森 申請(qǐng)(專利權(quán))人 廣州市一呼百應(yīng)網(wǎng)絡(luò)技術(shù)股份有限公司
代理機(jī)構(gòu) 廣州致信偉盛知識(shí)產(chǎn)權(quán)代理有限公司 代理人 李東來
地址 510530 廣東省廣州市科學(xué)城科學(xué)大道162號(hào)創(chuàng)意大廈b3區(qū)四樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于信息指紋的相似信息識(shí)別方法,該方法首先對(duì)文檔的文本進(jìn)行中文分詞,然后統(tǒng)計(jì)詞頻,取出詞頻靠前的詞,作為特征值;再根據(jù)提取出來的特征值計(jì)算出文檔的信息指紋,最后比對(duì)兩篇文檔的信息指紋,若比對(duì)結(jié)果大于閥值,則判斷為相似文章。該方法可避免現(xiàn)有技術(shù)中需要根據(jù)兩篇文檔中的所有信息對(duì)應(yīng)進(jìn)行計(jì)算比較,大大減低計(jì)算復(fù)雜度。由于文檔的信息指紋具有唯一性,在多篇文檔判斷相似性時(shí),只需相互間比對(duì)信息指紋即可,可有效提高工作效率。