一種適用于多數(shù)網(wǎng)站通用采集數(shù)據(jù)的爬蟲系統(tǒng)及方法
基本信息
申請(qǐng)?zhí)?/td> | CN202011489232.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112667873A | 公開(公告)日 | 2021-04-16 |
申請(qǐng)公布號(hào) | CN112667873A | 申請(qǐng)公布日 | 2021-04-16 |
分類號(hào) | G06F16/951;G06F16/955;G06F9/50;G06F16/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王勇;張可新;游若平 | 申請(qǐng)(專利權(quán))人 | 北京華如慧云數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 北京豐浩知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 李學(xué)康 |
地址 | 100094 北京市海淀區(qū)永豐產(chǎn)業(yè)基地永捷北路3號(hào)綜合樓2層201-1室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種適用與多數(shù)網(wǎng)站通用采集數(shù)據(jù)的爬蟲系統(tǒng)及方法,它能夠避免因?yàn)槠渌馕霾僮骼速M(fèi)爬取時(shí)間,能使爬蟲的效率達(dá)到最大。該系統(tǒng)包括任務(wù)存儲(chǔ)和分發(fā)模塊、爬蟲后臺(tái)和數(shù)據(jù)存儲(chǔ)模塊。本發(fā)明的有益效果在于:在整個(gè)爬蟲系統(tǒng)開發(fā)完成后,只需要在添加配置各個(gè)網(wǎng)站及其采集規(guī)則后,不需要在改動(dòng)源代碼或是重復(fù)性編寫程序的情況下爬取相對(duì)應(yīng)的數(shù)據(jù),減少重復(fù)性工作,提高在有新的需求或是網(wǎng)站變動(dòng)時(shí)數(shù)據(jù)的采集效率,同時(shí)提高了系統(tǒng)的可維護(hù)性。 |
