一種熱點(diǎn)信息挖掘方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202110169266.9 申請日 -
公開(公告)號 CN112836110A 公開(公告)日 2021-05-25
申請公布號 CN112836110A 申請公布日 2021-05-25
分類號 G06F16/951;G06F16/953;G06F16/906;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 高登科;徐楨虎;李少博;陳涵宇;余偉 申請(專利權(quán))人 四川封面?zhèn)髅接邢挢?zé)任公司
代理機(jī)構(gòu) 成都頂峰專利事務(wù)所(普通合伙) 代理人 楊國瑞
地址 610000 四川省成都市錦江區(qū)紅星路二段70號1棟8樓A區(qū)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,公開了一種熱點(diǎn)信息挖掘方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),可以只從網(wǎng)絡(luò)公開數(shù)據(jù)出發(fā),實(shí)時爬取多源熱榜話題及新聞信息,并利用不良審核和深度去重技術(shù)進(jìn)行新聞信息的篩查和過濾,最終采用熱點(diǎn)融合實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn),構(gòu)建熱點(diǎn)話題新聞庫,從而不僅使挖掘結(jié)果具有精度高的特點(diǎn),還可以大大縮減挖掘過程所依賴的數(shù)據(jù)量,并具有高可信度、高時效性和非不良性的魯棒性,能夠很好滿足真實(shí)場景的應(yīng)用。此外,還可以針對全網(wǎng)實(shí)時新聞,通過從文本、圖片和視頻等多個維度進(jìn)行新聞與熱點(diǎn)話題的多模態(tài)匹配,并根據(jù)匹配結(jié)果直接豐富熱點(diǎn)話題新聞庫,可大大提高熱點(diǎn)話題下新聞庫的庫量級和多樣性。