一種自動化垂直細(xì)分領(lǐng)域的爬蟲爬取方法及其管理系統(tǒng)

基本信息

申請?zhí)?/td> CN201710673166.3 申請日 -
公開(公告)號 CN107590188B 公開(公告)日 2020-02-14
申請公布號 CN107590188B 申請公布日 2020-02-14
分類號 G06F16/955;G06F16/953;G06F17/18 分類 計算;推算;計數(shù);
發(fā)明人 鄭小林;張建勇;林煒華 申請(專利權(quán))人 杭州金智塔科技有限公司
代理機(jī)構(gòu) 杭州中成專利事務(wù)所有限公司 代理人 杭州靈皓科技有限公司;杭州金智塔科技有限公司
地址 310030 浙江省杭州市西湖區(qū)耀江文鼎苑8-1603室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及爬蟲爬取和管理調(diào)度技術(shù),旨在提供一種自動化垂直細(xì)分領(lǐng)域的爬蟲爬取方法及其管理系統(tǒng)。該種自動化垂直細(xì)分領(lǐng)域的爬蟲爬取方法包括過程:爬蟲運行時間預(yù)測;根據(jù)預(yù)測時間、并行數(shù)進(jìn)行批量爬蟲調(diào)度優(yōu)化;爬蟲爬取。本發(fā)明在垂直細(xì)分領(lǐng)域爬蟲的爬取效率上比現(xiàn)有技術(shù)更加高效,結(jié)合垂直細(xì)分爬蟲的特征開創(chuàng)地引入了爬蟲的時間預(yù)測模型,結(jié)合最長處理時間優(yōu)先算法進(jìn)行并行爬蟲的高效調(diào)度,節(jié)省爬取時間。