一種基于信息指紋的相似信息識(shí)別方法
基本信息
申請(qǐng)?zhí)?/td> | CN201310402465.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN103425639A | 公開(公告)日 | 2013-12-04 |
申請(qǐng)公布號(hào) | CN103425639A | 申請(qǐng)公布日 | 2013-12-04 |
分類號(hào) | G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 戴森 | 申請(qǐng)(專利權(quán))人 | 廣州市一呼百應(yīng)網(wǎng)絡(luò)技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 廣州致信偉盛知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 李東來 |
地址 | 510530 廣東省廣州市科學(xué)城科學(xué)大道162號(hào)創(chuàng)意大廈b3區(qū)四樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于信息指紋的相似信息識(shí)別方法,該方法首先對(duì)文檔的文本進(jìn)行中文分詞,然后統(tǒng)計(jì)詞頻,取出詞頻靠前的詞,作為特征值;再根據(jù)提取出來的特征值計(jì)算出文檔的信息指紋,最后比對(duì)兩篇文檔的信息指紋,若比對(duì)結(jié)果大于閥值,則判斷為相似文章。該方法可避免現(xiàn)有技術(shù)中需要根據(jù)兩篇文檔中的所有信息對(duì)應(yīng)進(jìn)行計(jì)算比較,大大減低計(jì)算復(fù)雜度。由于文檔的信息指紋具有唯一性,在多篇文檔判斷相似性時(shí),只需相互間比對(duì)信息指紋即可,可有效提高工作效率。 |
