一種主題網絡爬蟲方法、電子設備、存儲介質、系統(tǒng)
基本信息
申請?zhí)?/td> | CN201711071026.5 | 申請日 | - |
公開(公告)號 | CN107908698B | 公開(公告)日 | 2021-04-13 |
申請公布號 | CN107908698B | 申請公布日 | 2021-04-13 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F16/35(2019.01)I;G06F40/30(2020.01)I;G06F40/289(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 石忠民;徐葉強;鐘力;殷長濤 | 申請(專利權)人 | 廣州索答信息科技有限公司 |
代理機構 | 廣州市越秀區(qū)哲力專利商標事務所(普通合伙) | 代理人 | 莫之特;羅峰 |
地址 | 510000廣東省廣州市高新技術產業(yè)開發(fā)區(qū)科學城天泰一路1號第四層自編431房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種主題網絡爬蟲方法,包括步驟獲取主題爬蟲的起始URL,將起始URL加載入種子任務隊列,主題爬蟲從任務隊列中依次獲取起始URL進行爬取,將起始URL對應的網絡文檔下載至本地,對網絡文檔進行主題相關性分類,獲得主題相關文本,將主題相關文本結構化存儲至數(shù)據(jù)倉庫;本發(fā)明涉及電子設備與可讀存儲介質,用于執(zhí)行一種主題網絡爬蟲方法;本發(fā)明還涉及一種主題網絡爬蟲系統(tǒng);本發(fā)明通過采用word2vec的CBOW模型獲得文本分詞結果的詞向量,采用PCA主成分分析算法對詞向量進行降維,采用LSTM模型對降維的詞向量進行分類,通過對爬取文檔先進行分類,然后針對特定主題有選擇性的對文檔進行存儲,提高主題與爬取文檔的相關程度,增加搜索引擎覆蓋率。?? |
