一種基于信息指紋的相似信息識別方法
基本信息
申請?zhí)?/td> | CN201310402465.5 | 申請日 | - |
公開(公告)號 | CN103425639A | 公開(公告)日 | 2013-12-04 |
申請公布號 | CN103425639A | 申請公布日 | 2013-12-04 |
分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 戴森 | 申請(專利權)人 | 廣州市一呼百應網絡技術股份有限公司 |
代理機構 | 廣州致信偉盛知識產權代理有限公司 | 代理人 | 李東來 |
地址 | 510530 廣東省廣州市科學城科學大道162號創(chuàng)意大廈b3區(qū)四樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于信息指紋的相似信息識別方法,該方法首先對文檔的文本進行中文分詞,然后統(tǒng)計詞頻,取出詞頻靠前的詞,作為特征值;再根據提取出來的特征值計算出文檔的信息指紋,最后比對兩篇文檔的信息指紋,若比對結果大于閥值,則判斷為相似文章。該方法可避免現(xiàn)有技術中需要根據兩篇文檔中的所有信息對應進行計算比較,大大減低計算復雜度。由于文檔的信息指紋具有唯一性,在多篇文檔判斷相似性時,只需相互間比對信息指紋即可,可有效提高工作效率。 |
