一種相似新聞判別方法、系統(tǒng)及電子設(shè)備

基本信息

申請?zhí)?/td> CN201910695794.0 申請日 -
公開(公告)號 CN110399464A 公開(公告)日 2019-11-01
申請公布號 CN110399464A 申請公布日 2019-11-01
分類號 G06F16/33(2019.01)I; G06F16/951(2019.01)I; G06F17/27(2006.01)I; G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 曾穎清 申請(專利權(quán))人 廣州吉信網(wǎng)絡(luò)科技開發(fā)有限公司
代理機構(gòu) 廣東翰銳律師事務(wù)所 代理人 廣州吉信網(wǎng)絡(luò)科技開發(fā)有限公司
地址 510000 廣東省廣州市天河區(qū)東郊工業(yè)園路建工路8號3樓自編01號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及相似新聞判別方法、系統(tǒng)及電子設(shè)備,其兼顧判別的精確度和實時性。其步驟包括抓取步驟:對存量的新聞數(shù)據(jù)進(jìn)行分詞,對分詞后的詞語及其詞頻進(jìn)行統(tǒng)計后建立詞頻庫;計算步驟:對每篇新聞數(shù)據(jù)分別分詞并提取關(guān)鍵詞,根據(jù)所述詞頻庫分別計算所述關(guān)鍵詞的權(quán)重;根據(jù)計算步驟所述關(guān)鍵詞及所述關(guān)鍵詞的權(quán)重,計算每篇新聞數(shù)據(jù)的simhash值,并存入數(shù)據(jù)庫中;對所述simhash值建立數(shù)據(jù)結(jié)構(gòu),和/或根據(jù)每篇新聞數(shù)據(jù)的simhash值進(jìn)行相似處理,將相似的新聞數(shù)據(jù)合并入所述數(shù)據(jù)結(jié)構(gòu)中,構(gòu)建或更新得到相似的新聞id列表。