一種自動化垂直細(xì)分領(lǐng)域的爬蟲爬取方法及其管理系統(tǒng)
基本信息
申請?zhí)?/td> | CN201710673166.3 | 申請日 | - |
公開(公告)號 | CN107590188B | 公開(公告)日 | 2020-02-14 |
申請公布號 | CN107590188B | 申請公布日 | 2020-02-14 |
分類號 | G06F16/955;G06F16/953;G06F17/18 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鄭小林;張建勇;林煒華 | 申請(專利權(quán))人 | 杭州金智塔科技有限公司 |
代理機(jī)構(gòu) | 杭州中成專利事務(wù)所有限公司 | 代理人 | 杭州靈皓科技有限公司;杭州金智塔科技有限公司 |
地址 | 310030 浙江省杭州市西湖區(qū)耀江文鼎苑8-1603室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及爬蟲爬取和管理調(diào)度技術(shù),旨在提供一種自動化垂直細(xì)分領(lǐng)域的爬蟲爬取方法及其管理系統(tǒng)。該種自動化垂直細(xì)分領(lǐng)域的爬蟲爬取方法包括過程:爬蟲運行時間預(yù)測;根據(jù)預(yù)測時間、并行數(shù)進(jìn)行批量爬蟲調(diào)度優(yōu)化;爬蟲爬取。本發(fā)明在垂直細(xì)分領(lǐng)域爬蟲的爬取效率上比現(xiàn)有技術(shù)更加高效,結(jié)合垂直細(xì)分爬蟲的特征開創(chuàng)地引入了爬蟲的時間預(yù)測模型,結(jié)合最長處理時間優(yōu)先算法進(jìn)行并行爬蟲的高效調(diào)度,節(jié)省爬取時間。 |
