一種新聞事件聚類的方法、裝置、設(shè)備和儲存介質(zhì)
基本信息
申請?zhí)?/td> | CN201810155131.5 | 申請日 | - |
公開(公告)號 | CN108334628A | 公開(公告)日 | 2018-07-27 |
申請公布號 | CN108334628A | 申請公布日 | 2018-07-27 |
分類號 | G06F17/30;G06F17/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王云;劉丹;肖天鶴 | 申請(專利權(quán))人 | 北京東潤環(huán)能科技股份有限公司 |
代理機(jī)構(gòu) | 北京品源專利代理有限公司 | 代理人 | 北京東潤環(huán)能科技股份有限公司;北京綠色東方數(shù)據(jù)技術(shù)有限公司 |
地址 | 100192 北京市海淀區(qū)學(xué)清路8號科技財富中心A座9層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例公開了一種新聞事件聚類的方法、裝置、設(shè)備和儲存介質(zhì)。所述方法,包括:抓取預(yù)設(shè)網(wǎng)站中的新聞文本;對新聞文本進(jìn)行分詞、詞性標(biāo)注和命名實體識別,得到對應(yīng)的文本分詞;比較兩個新聞文本對應(yīng)的文本分詞中預(yù)設(shè)類型文本分詞的分詞相似度,賦予對應(yīng)的分詞相似度權(quán)重;比較兩個新聞文本的文本內(nèi)容相似度,賦予對應(yīng)的文本內(nèi)容相似度權(quán)重;根據(jù)兩個新聞文本的分詞相似度、分詞相似度權(quán)重、文本內(nèi)容相似度和文本內(nèi)容相似度權(quán)重,確定兩個新聞文本的相似度;當(dāng)兩個新聞文本的相似度大于相似度閾值,確定兩個新聞文本為相似新聞事件。本發(fā)明實施例的技術(shù)方案,實現(xiàn)鑒別相同新聞事件,節(jié)約用戶瀏覽新聞的時間。 |
