一種自動優(yōu)化、更新的主題庫構(gòu)建方法,及熱點事件實時更新方法
基本信息
申請?zhí)?/td> | CN202111188831.2 | 申請日 | - |
公開(公告)號 | CN113934910A | 公開(公告)日 | 2022-01-14 |
申請公布號 | CN113934910A | 申請公布日 | 2022-01-14 |
分類號 | G06F16/951(2019.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 周潔琴;周金明 | 申請(專利權(quán))人 | 南京視察者智能科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 210014江蘇省南京市秦淮區(qū)永智路6號南京白下高新技術(shù)產(chǎn)業(yè)園區(qū)四號樓A棟102室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種自動優(yōu)化、更新的主題庫構(gòu)建方法,及熱點事件實時更新方法,其中主題庫構(gòu)建方法包括:獲取主題庫的歷史文檔數(shù)據(jù):確定歷史文檔數(shù)據(jù)的互聯(lián)網(wǎng)信息來源,通過爬蟲工具爬取上述確定的互聯(lián)網(wǎng)信息來源網(wǎng)站一段時間的歷史文檔數(shù)據(jù);對獲取到的歷史文檔數(shù)據(jù)進行文本預(yù)處理,將經(jīng)過預(yù)處理的歷史文檔數(shù)據(jù)的標題和正文進行合并;使用TF?IDF算法計算每個文檔中出現(xiàn)詞語的權(quán)重,采用聚類算法相結(jié)合的方法,對每個文檔進行聚類,設(shè)定爬蟲工具的爬取周期,來更新每個主題庫下的關(guān)鍵詞詞典。通過爬取歷史網(wǎng)頁數(shù)據(jù),生成不同主題庫下的關(guān)鍵詞詞典,再根據(jù)關(guān)鍵詞詞典實時定向爬取網(wǎng)頁數(shù)據(jù),來自動更新主題庫。 |
