網(wǎng)絡(luò)爬蟲系統(tǒng)以及方法
基本信息
申請(qǐng)?zhí)?/td> | CN201610794314.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106354843A | 公開(公告)日 | 2017-01-25 |
申請(qǐng)公布號(hào) | CN106354843A | 申請(qǐng)公布日 | 2017-01-25 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 肖俊 | 申請(qǐng)(專利權(quán))人 | 虎撲(上海)文化傳播股份有限公司 |
代理機(jī)構(gòu) | 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 虎撲(上海)文化傳播股份有限公司 |
地址 | 200080 上海市虹口區(qū)東大名路1191號(hào)17815室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種網(wǎng)絡(luò)爬蟲系統(tǒng)以及方法,其中的網(wǎng)絡(luò)爬蟲方法包括:通過預(yù)設(shè)的界面接收配置參數(shù),所述配置參數(shù)包括:控制參數(shù)、過濾參數(shù)、抽取參數(shù)以及存儲(chǔ)參數(shù);獲取所述控制參數(shù)中的種子鏈接,根據(jù)所述種子鏈接進(jìn)行爬?。蝗粼L問的鏈接匹配所述過濾參數(shù),則過濾所述訪問的鏈接并轉(zhuǎn)入下一鏈接;根據(jù)所述抽取參數(shù)中的抽取規(guī)則對(duì)所述訪問的鏈接對(duì)應(yīng)的頁(yè)面內(nèi)容進(jìn)行提取,得到目標(biāo)數(shù)據(jù);獲取所述存儲(chǔ)參數(shù)中的存儲(chǔ)格式以及存儲(chǔ)位置,將所述目標(biāo)數(shù)據(jù)按照所述存儲(chǔ)格式進(jìn)行格式轉(zhuǎn)換,并將轉(zhuǎn)換后的數(shù)據(jù)存儲(chǔ)在所述存儲(chǔ)位置。本發(fā)明根據(jù)配置參數(shù)進(jìn)行相應(yīng)的爬取操作,實(shí)現(xiàn)爬取數(shù)據(jù)的存儲(chǔ),能夠適用于多種環(huán)境,滿足多種需求,可適用性高。 |
