一種配置爬蟲的方法與設(shè)備

基本信息

申請?zhí)?/td> CN202011098332.X 申請日 -
公開(公告)號 CN112231534A 公開(公告)日 2021-01-15
申請公布號 CN112231534A 申請公布日 2021-01-15
分類號 G06F16/951(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 不公告發(fā)明人 申請(專利權(quán))人 上海蜜度信息技術(shù)有限公司
代理機構(gòu) 上海百一領(lǐng)御專利代理事務(wù)所(普通合伙) 代理人 上海蜜度信息技術(shù)有限公司
地址 201204上海市浦東新區(qū)自由貿(mào)易試驗區(qū)張衡路198弄10號301AB室
法律狀態(tài) -

摘要

摘要 本申請的目的是提供一種配置爬蟲的方案。該方案生成爬蟲的配置模板,并保存所述配置模板,然后根據(jù)所述配置模板以及自定義配置信息,生成配置文件,再執(zhí)行所述配置文件對目標應(yīng)用進行爬取。本申請實施例可以將接口返回的解析通用部分抽取出來作為所述配置模板,基于各個爬蟲自己獨立的解析部分添加所述自定義配置信息,并生成所述配置文件,然后每個爬蟲可以根據(jù)所述配置文件配置解析方式,從而大大減輕了程序員的負擔,提高了工作效率。此外,本申請實施例通過采用主服務(wù)器與從服務(wù)器相配合的架構(gòu),實現(xiàn)多節(jié)點同時爬取數(shù)據(jù),從而提高爬取數(shù)據(jù)的速度。??