一種適用于多數(shù)網(wǎng)站通用采集數(shù)據(jù)的爬蟲系統(tǒng)及方法

基本信息

申請(qǐng)?zhí)?/td> CN202011489232.X 申請(qǐng)日 -
公開(公告)號(hào) CN112667873A 公開(公告)日 2021-04-16
申請(qǐng)公布號(hào) CN112667873A 申請(qǐng)公布日 2021-04-16
分類號(hào) G06F16/951;G06F16/955;G06F9/50;G06F16/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王勇;張可新;游若平 申請(qǐng)(專利權(quán))人 北京華如慧云數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 北京豐浩知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李學(xué)康
地址 100094 北京市海淀區(qū)永豐產(chǎn)業(yè)基地永捷北路3號(hào)綜合樓2層201-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種適用與多數(shù)網(wǎng)站通用采集數(shù)據(jù)的爬蟲系統(tǒng)及方法,它能夠避免因?yàn)槠渌馕霾僮骼速M(fèi)爬取時(shí)間,能使爬蟲的效率達(dá)到最大。該系統(tǒng)包括任務(wù)存儲(chǔ)和分發(fā)模塊、爬蟲后臺(tái)和數(shù)據(jù)存儲(chǔ)模塊。本發(fā)明的有益效果在于:在整個(gè)爬蟲系統(tǒng)開發(fā)完成后,只需要在添加配置各個(gè)網(wǎng)站及其采集規(guī)則后,不需要在改動(dòng)源代碼或是重復(fù)性編寫程序的情況下爬取相對(duì)應(yīng)的數(shù)據(jù),減少重復(fù)性工作,提高在有新的需求或是網(wǎng)站變動(dòng)時(shí)數(shù)據(jù)的采集效率,同時(shí)提高了系統(tǒng)的可維護(hù)性。