通過(guò)對(duì)網(wǎng)絡(luò)資源調(diào)度提高網(wǎng)絡(luò)爬蟲(chóng)抓取效率的方法和裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201610240607.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN105681478B | 公開(kāi)(公告)日 | 2019-01-22 |
申請(qǐng)公布號(hào) | CN105681478B | 申請(qǐng)公布日 | 2019-01-22 |
分類號(hào) | H04L29/08 | 分類 | 電通信技術(shù); |
發(fā)明人 | 陳俊良;曾琰;屈銀川;黃志杰 | 申請(qǐng)(專利權(quán))人 | 湖南四方天箭信息科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100055 北京市西城區(qū)廣安門外大街248號(hào)1號(hào)樓1401室 | ||
法律狀態(tài) | - |
摘要
摘要 | 公開(kāi)了通過(guò)對(duì)網(wǎng)絡(luò)資源調(diào)度提高網(wǎng)絡(luò)爬蟲(chóng)抓取效率的方法和裝置。其通過(guò)從RMI遠(yuǎn)程爬蟲(chóng)客戶端接收請(qǐng)求參數(shù),并進(jìn)行封裝識(shí)別;把從RMI遠(yuǎn)程爬蟲(chóng)客戶端接收到的請(qǐng)求參數(shù)發(fā)送到RMI服務(wù)器內(nèi)部邏輯;對(duì)各個(gè)網(wǎng)絡(luò)線路進(jìn)行優(yōu)選,得到暢通的網(wǎng)絡(luò)線路;通過(guò)暢通的網(wǎng)絡(luò)線路,根據(jù)需求,進(jìn)行HTTP網(wǎng)絡(luò)資源封裝處理,得到封裝好的網(wǎng)絡(luò)資源;通過(guò)RMI遠(yuǎn)程接口把封裝好的網(wǎng)絡(luò)資源發(fā)送給RMI遠(yuǎn)程爬蟲(chóng)客戶端的請(qǐng)求端;RMI遠(yuǎn)程爬蟲(chóng)客戶端通過(guò)其請(qǐng)求端接收封裝好的網(wǎng)絡(luò)資源后,對(duì)網(wǎng)絡(luò)線路和HTTP請(qǐng)求進(jìn)行設(shè)置,并進(jìn)行數(shù)據(jù)的爬取和解析。其能夠使爬蟲(chóng)數(shù)據(jù)的抓取效率提高,不需要人工干預(yù)。實(shí)現(xiàn)網(wǎng)絡(luò)線路的負(fù)載均衡,并自動(dòng)識(shí)別目標(biāo)網(wǎng)站的封鎖、線路優(yōu)選和HTTP請(qǐng)求參數(shù)的設(shè)置來(lái)自動(dòng)解除封鎖。 |
