一種基于信息指紋的相似信息識別方法

基本信息

申請?zhí)?/td> CN201310402465.5 申請日 -
公開(公告)號 CN103425639A 公開(公告)日 2013-12-04
申請公布號 CN103425639A 申請公布日 2013-12-04
分類號 G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 戴森 申請(專利權)人 廣州市一呼百應網絡技術股份有限公司
代理機構 廣州致信偉盛知識產權代理有限公司 代理人 李東來
地址 510530 廣東省廣州市科學城科學大道162號創(chuàng)意大廈b3區(qū)四樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于信息指紋的相似信息識別方法,該方法首先對文檔的文本進行中文分詞,然后統(tǒng)計詞頻,取出詞頻靠前的詞,作為特征值;再根據提取出來的特征值計算出文檔的信息指紋,最后比對兩篇文檔的信息指紋,若比對結果大于閥值,則判斷為相似文章。該方法可避免現(xiàn)有技術中需要根據兩篇文檔中的所有信息對應進行計算比較,大大減低計算復雜度。由于文檔的信息指紋具有唯一性,在多篇文檔判斷相似性時,只需相互間比對信息指紋即可,可有效提高工作效率。