信息采集系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201810283352.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108549678B | 公開(公告)日 | 2018-09-18 |
申請(qǐng)公布號(hào) | CN108549678B | 申請(qǐng)公布日 | 2018-09-18 |
分類號(hào) | G06F16/953(2019.01)I;G06F16/955(2019.01)I | 分類 | - |
發(fā)明人 | 上官育松;付小東;孫濤;張金紅 | 申請(qǐng)(專利權(quán))人 | 北京今朝在線科技有限公司 |
代理機(jī)構(gòu) | 北京華仲龍騰專利代理事務(wù)所(普通合伙) | 代理人 | 北京今朝在線科技有限公司 |
地址 | 102400北京市房山區(qū)良鄉(xiāng)長虹西路翠柳東街1號(hào)-1081 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種信息采集系統(tǒng),包括采集任務(wù)添加模塊和采集爬蟲模塊;采集任務(wù)添加模塊和采集爬蟲模塊均與數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互;采集任務(wù)添加模塊包括任務(wù)管理子模塊;任務(wù)管理子模塊,用于添加多項(xiàng)采集任務(wù)信息,并將添加的多項(xiàng)采集任務(wù)信息上傳至數(shù)據(jù)庫;采集爬蟲模塊包括列表采集子模塊;列表采集子模塊,用于實(shí)時(shí)檢索數(shù)據(jù)庫,由數(shù)據(jù)庫中獲取每項(xiàng)采集任務(wù)信息,并采用分布式爬蟲技術(shù)根據(jù)每項(xiàng)采集任務(wù)信息采集相應(yīng)的目的信息,并將采集到的目的信息上傳至數(shù)據(jù)庫中進(jìn)行存儲(chǔ)。其實(shí)現(xiàn)了多項(xiàng)采集任務(wù)的并行執(zhí)行,其相對(duì)于傳統(tǒng)的爬蟲信息采集單線程執(zhí)行有效提高了信息采集效率。?? |
