一種主題網絡爬蟲方法、電子設備、存儲介質、系統(tǒng)

基本信息

申請?zhí)?/td> CN201711071026.5 申請日 -
公開(公告)號 CN107908698B 公開(公告)日 2021-04-13
申請公布號 CN107908698B 申請公布日 2021-04-13
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F16/35(2019.01)I;G06F40/30(2020.01)I;G06F40/289(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 石忠民;徐葉強;鐘力;殷長濤 申請(專利權)人 廣州索答信息科技有限公司
代理機構 廣州市越秀區(qū)哲力專利商標事務所(普通合伙) 代理人 莫之特;羅峰
地址 510000廣東省廣州市高新技術產業(yè)開發(fā)區(qū)科學城天泰一路1號第四層自編431房
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種主題網絡爬蟲方法,包括步驟獲取主題爬蟲的起始URL,將起始URL加載入種子任務隊列,主題爬蟲從任務隊列中依次獲取起始URL進行爬取,將起始URL對應的網絡文檔下載至本地,對網絡文檔進行主題相關性分類,獲得主題相關文本,將主題相關文本結構化存儲至數(shù)據(jù)倉庫;本發(fā)明涉及電子設備與可讀存儲介質,用于執(zhí)行一種主題網絡爬蟲方法;本發(fā)明還涉及一種主題網絡爬蟲系統(tǒng);本發(fā)明通過采用word2vec的CBOW模型獲得文本分詞結果的詞向量,采用PCA主成分分析算法對詞向量進行降維,采用LSTM模型對降維的詞向量進行分類,通過對爬取文檔先進行分類,然后針對特定主題有選擇性的對文檔進行存儲,提高主題與爬取文檔的相關程度,增加搜索引擎覆蓋率。??