一種基于資訊指紋的資訊去重方法
基本信息
申請(qǐng)?zhí)?/td> | CN201510055730.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN105989033A | 公開(kāi)(公告)日 | 2016-10-05 |
申請(qǐng)公布號(hào) | CN105989033A | 申請(qǐng)公布日 | 2016-10-05 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張軍生 | 申請(qǐng)(專利權(quán))人 | 北京云悅共創(chuàng)網(wǎng)絡(luò)技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京安博達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司;北京中搜云悅網(wǎng)絡(luò)技術(shù)有限公司 |
地址 | 100191 北京市海淀區(qū)學(xué)院路51號(hào)首亨科技大廈0902室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于資訊指紋的資訊去重方法,其特征在于:所述方法包括以下步驟:I、獲取所述資訊的信息;II、根據(jù)所述資訊指紋獲取所述資訊的核心詞向量;III、根據(jù)所述資訊的指紋信息和所述核心詞向量所述資訊進(jìn)行分組聚類。該方法于指紋計(jì)算法,對(duì)比現(xiàn)有技術(shù)中效果單一的去重方法,本發(fā)明通過(guò)關(guān)鍵詞及正文指紋合二為一的方式提高了召回率,提高5%左右,達(dá)到75%的召回率,準(zhǔn)確率達(dá)到90%以上,處理千萬(wàn)數(shù)據(jù)在一個(gè)小時(shí)左右。 |
