信息采集系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201810283352.0 申請(qǐng)日 -
公開(公告)號(hào) CN108549678B 公開(公告)日 2018-09-18
申請(qǐng)公布號(hào) CN108549678B 申請(qǐng)公布日 2018-09-18
分類號(hào) G06F16/953(2019.01)I;G06F16/955(2019.01)I 分類 -
發(fā)明人 上官育松;付小東;孫濤;張金紅 申請(qǐng)(專利權(quán))人 北京今朝在線科技有限公司
代理機(jī)構(gòu) 北京華仲龍騰專利代理事務(wù)所(普通合伙) 代理人 北京今朝在線科技有限公司
地址 102400北京市房山區(qū)良鄉(xiāng)長虹西路翠柳東街1號(hào)-1081
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種信息采集系統(tǒng),包括采集任務(wù)添加模塊和采集爬蟲模塊;采集任務(wù)添加模塊和采集爬蟲模塊均與數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互;采集任務(wù)添加模塊包括任務(wù)管理子模塊;任務(wù)管理子模塊,用于添加多項(xiàng)采集任務(wù)信息,并將添加的多項(xiàng)采集任務(wù)信息上傳至數(shù)據(jù)庫;采集爬蟲模塊包括列表采集子模塊;列表采集子模塊,用于實(shí)時(shí)檢索數(shù)據(jù)庫,由數(shù)據(jù)庫中獲取每項(xiàng)采集任務(wù)信息,并采用分布式爬蟲技術(shù)根據(jù)每項(xiàng)采集任務(wù)信息采集相應(yīng)的目的信息,并將采集到的目的信息上傳至數(shù)據(jù)庫中進(jìn)行存儲(chǔ)。其實(shí)現(xiàn)了多項(xiàng)采集任務(wù)的并行執(zhí)行,其相對(duì)于傳統(tǒng)的爬蟲信息采集單線程執(zhí)行有效提高了信息采集效率。??