一種優(yōu)化定位精度及爬取效率的爬蟲方法

基本信息

申請?zhí)?/td> CN202010983424.X 申請日 -
公開(公告)號 CN112115330A 公開(公告)日 2020-12-22
申請公布號 CN112115330A 申請公布日 2020-12-22
分類號 G06F16/951(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 孫健;胡健龍;姚婷婷;趙書武;王彩洪 申請(專利權)人 電子科技大學成都研究院
代理機構 北京正華智誠專利代理事務所(普通合伙) 代理人 何凡
地址 610213四川省成都市雙流區(qū)公興街道華府大道四段999號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種優(yōu)化定位精度及爬取效率的爬蟲方法,包括以下步驟:S1:獲取目標網(wǎng)站和爬取關鍵詞;S2:根據(jù)目標網(wǎng)站的首頁判斷是否需要登錄驗證,若是則進入步驟S3,否則進入步驟S4;S3:通過提取Cookies和authenticity_token,構建Cookies池并識別驗證碼,進行模擬登錄;S4:采用Splash對象,對模擬登錄后目標網(wǎng)站中的多層動態(tài)渲染網(wǎng)頁進行定向爬取。本發(fā)明有效提高了應對目前主流網(wǎng)站的反爬機制的效率,有效提高了爬取內容的定向性與精確度,反應時間更快,容錯率更高,健壯性更強。??