一種通用的互聯(lián)網(wǎng)數(shù)據(jù)采集反反爬系統(tǒng)及方法
基本信息
申請(qǐng)?zhí)?/td> | CN201711037128.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109729044B | 公開(公告)日 | 2022-01-14 |
申請(qǐng)公布號(hào) | CN109729044B | 申請(qǐng)公布日 | 2022-01-14 |
分類號(hào) | H04L9/40(2022.01)I;H04L67/02(2022.01)I;鄭豪等.基于Java平臺(tái)的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)研究.《科技創(chuàng)新與應(yīng)用》.2017,(第1期),第112頁.;何俊杰.教育新聞平臺(tái)的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn).《中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫 信息科級(jí)輯》.2017,正文第3章第3.4節(jié).;路過你的苦.爬蟲間隔抓取服務(wù)器網(wǎng)頁.《https://www.cnblogs.com/siliconvalley/archive/2013/05/27/3102709.html》.2013,第1-5頁.;鄒科文等.網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究.《電腦知識(shí)與技術(shù)》.2016,第12卷(第7期),第61-63頁. | 分類 | 電通信技術(shù); |
發(fā)明人 | 白曉哲;尚林林 | 申請(qǐng)(專利權(quán))人 | 北京宸瑞科技股份有限公司 |
代理機(jī)構(gòu) | 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 劉冬梅;路永斌 |
地址 | 100190北京市海淀區(qū)中關(guān)村北二條13號(hào)46幢1層102 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種通用的互聯(lián)網(wǎng)數(shù)據(jù)采集反反爬方法及系統(tǒng),該方法通過UA驗(yàn)證單元(01)向服務(wù)器提供隨機(jī)UA頭、通過IP驗(yàn)證單元(02)向服務(wù)器提供隨機(jī)代理IP、通過間隔驗(yàn)證單元(03)有根據(jù)的隨機(jī)化請(qǐng)求間隔、通過授權(quán)狀態(tài)驗(yàn)證單元(04)模擬登錄、以及通過驗(yàn)證碼識(shí)別單元(05)進(jìn)行驗(yàn)證碼識(shí)別或通過上述組合以分別應(yīng)對(duì)互聯(lián)網(wǎng)反爬驗(yàn)證中的請(qǐng)求UA驗(yàn)證、請(qǐng)求IP驗(yàn)證、請(qǐng)求間隔驗(yàn)證、授權(quán)狀態(tài)驗(yàn)證、人工操作驗(yàn)證或其組合,上述方式可繞過對(duì)多種反爬驗(yàn)證手段組合的攔截,實(shí)現(xiàn)對(duì)網(wǎng)站信息的有效獲取。 |
