一種相似新聞判別方法、系統(tǒng)及電子設(shè)備
基本信息
申請?zhí)?/td> | CN201910695794.0 | 申請日 | - |
公開(公告)號 | CN110399464A | 公開(公告)日 | 2019-11-01 |
申請公布號 | CN110399464A | 申請公布日 | 2019-11-01 |
分類號 | G06F16/33(2019.01)I; G06F16/951(2019.01)I; G06F17/27(2006.01)I; G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 曾穎清 | 申請(專利權(quán))人 | 廣州吉信網(wǎng)絡(luò)科技開發(fā)有限公司 |
代理機構(gòu) | 廣東翰銳律師事務(wù)所 | 代理人 | 廣州吉信網(wǎng)絡(luò)科技開發(fā)有限公司 |
地址 | 510000 廣東省廣州市天河區(qū)東郊工業(yè)園路建工路8號3樓自編01號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及相似新聞判別方法、系統(tǒng)及電子設(shè)備,其兼顧判別的精確度和實時性。其步驟包括抓取步驟:對存量的新聞數(shù)據(jù)進(jìn)行分詞,對分詞后的詞語及其詞頻進(jìn)行統(tǒng)計后建立詞頻庫;計算步驟:對每篇新聞數(shù)據(jù)分別分詞并提取關(guān)鍵詞,根據(jù)所述詞頻庫分別計算所述關(guān)鍵詞的權(quán)重;根據(jù)計算步驟所述關(guān)鍵詞及所述關(guān)鍵詞的權(quán)重,計算每篇新聞數(shù)據(jù)的simhash值,并存入數(shù)據(jù)庫中;對所述simhash值建立數(shù)據(jù)結(jié)構(gòu),和/或根據(jù)每篇新聞數(shù)據(jù)的simhash值進(jìn)行相似處理,將相似的新聞數(shù)據(jù)合并入所述數(shù)據(jù)結(jié)構(gòu)中,構(gòu)建或更新得到相似的新聞id列表。 |
