通過(guò)對(duì)網(wǎng)絡(luò)資源調(diào)度提高網(wǎng)絡(luò)爬蟲(chóng)抓取效率的方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN201610240607.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN105681478B 公開(kāi)(公告)日 2019-01-22
申請(qǐng)公布號(hào) CN105681478B 申請(qǐng)公布日 2019-01-22
分類號(hào) H04L29/08 分類 電通信技術(shù);
發(fā)明人 陳俊良;曾琰;屈銀川;黃志杰 申請(qǐng)(專利權(quán))人 湖南四方天箭信息科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100055 北京市西城區(qū)廣安門外大街248號(hào)1號(hào)樓1401室
法律狀態(tài) -

摘要

摘要 公開(kāi)了通過(guò)對(duì)網(wǎng)絡(luò)資源調(diào)度提高網(wǎng)絡(luò)爬蟲(chóng)抓取效率的方法和裝置。其通過(guò)從RMI遠(yuǎn)程爬蟲(chóng)客戶端接收請(qǐng)求參數(shù),并進(jìn)行封裝識(shí)別;把從RMI遠(yuǎn)程爬蟲(chóng)客戶端接收到的請(qǐng)求參數(shù)發(fā)送到RMI服務(wù)器內(nèi)部邏輯;對(duì)各個(gè)網(wǎng)絡(luò)線路進(jìn)行優(yōu)選,得到暢通的網(wǎng)絡(luò)線路;通過(guò)暢通的網(wǎng)絡(luò)線路,根據(jù)需求,進(jìn)行HTTP網(wǎng)絡(luò)資源封裝處理,得到封裝好的網(wǎng)絡(luò)資源;通過(guò)RMI遠(yuǎn)程接口把封裝好的網(wǎng)絡(luò)資源發(fā)送給RMI遠(yuǎn)程爬蟲(chóng)客戶端的請(qǐng)求端;RMI遠(yuǎn)程爬蟲(chóng)客戶端通過(guò)其請(qǐng)求端接收封裝好的網(wǎng)絡(luò)資源后,對(duì)網(wǎng)絡(luò)線路和HTTP請(qǐng)求進(jìn)行設(shè)置,并進(jìn)行數(shù)據(jù)的爬取和解析。其能夠使爬蟲(chóng)數(shù)據(jù)的抓取效率提高,不需要人工干預(yù)。實(shí)現(xiàn)網(wǎng)絡(luò)線路的負(fù)載均衡,并自動(dòng)識(shí)別目標(biāo)網(wǎng)站的封鎖、線路優(yōu)選和HTTP請(qǐng)求參數(shù)的設(shè)置來(lái)自動(dòng)解除封鎖。