一種基于動(dòng)態(tài)IP的網(wǎng)頁(yè)正文獲取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201810760579.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN108900623A 公開(kāi)(公告)日 2018-11-27
申請(qǐng)公布號(hào) CN108900623A 申請(qǐng)公布日 2018-11-27
分類號(hào) H04L29/08;H04L29/12;G06F17/30 分類 電通信技術(shù);
發(fā)明人 董新建;董瑞朝;李貞 申請(qǐng)(專利權(quán))人 邦尼集團(tuán)有限公司
代理機(jī)構(gòu) 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 邦尼集團(tuán)有限公司;董新建
地址 250000 山東省濟(jì)南市高新區(qū)舜華路1號(hào)齊魯軟件園創(chuàng)業(yè)廣場(chǎng)B座三層
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于動(dòng)態(tài)IP的網(wǎng)頁(yè)正文獲取方法及裝置。該方法包括對(duì)網(wǎng)絡(luò)中的多個(gè)虛擬專用服務(wù)器vps對(duì)應(yīng)的第一IP地址以及滑塊代理服務(wù)器進(jìn)行監(jiān)控;若vps滿足切換條件則指示vps重新動(dòng)態(tài)生成一個(gè)第二IP地址,將vps對(duì)應(yīng)的第一IP地址切換為第二IP地址;若滑塊代理服務(wù)器滿足不可用條件則將滑塊代理服務(wù)器標(biāo)記為不可用,以使爬蟲(chóng)服務(wù)器通過(guò)第二IP地址和可用的滑塊代理服務(wù)器對(duì)進(jìn)行正文獲取。裝置用于執(zhí)行上述方法。本發(fā)明通過(guò)在動(dòng)態(tài)生成第二IP地址后對(duì)第二IP地址的可用性進(jìn)行校驗(yàn),若可用則將第一IP地址切換為第二IP地址,從而避免了生成的第二IP地址不能用于待爬取網(wǎng)頁(yè)進(jìn)行正文爬取的情況,提高了爬取效率。