一種優(yōu)化定位精度及爬取效率的爬蟲方法
基本信息
申請?zhí)?/td> | CN202010983424.X | 申請日 | - |
公開(公告)號 | CN112115330A | 公開(公告)日 | 2020-12-22 |
申請公布號 | CN112115330A | 申請公布日 | 2020-12-22 |
分類號 | G06F16/951(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 孫健;胡健龍;姚婷婷;趙書武;王彩洪 | 申請(專利權)人 | 電子科技大學成都研究院 |
代理機構 | 北京正華智誠專利代理事務所(普通合伙) | 代理人 | 何凡 |
地址 | 610213四川省成都市雙流區(qū)公興街道華府大道四段999號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種優(yōu)化定位精度及爬取效率的爬蟲方法,包括以下步驟:S1:獲取目標網(wǎng)站和爬取關鍵詞;S2:根據(jù)目標網(wǎng)站的首頁判斷是否需要登錄驗證,若是則進入步驟S3,否則進入步驟S4;S3:通過提取Cookies和authenticity_token,構建Cookies池并識別驗證碼,進行模擬登錄;S4:采用Splash對象,對模擬登錄后目標網(wǎng)站中的多層動態(tài)渲染網(wǎng)頁進行定向爬取。本發(fā)明有效提高了應對目前主流網(wǎng)站的反爬機制的效率,有效提高了爬取內容的定向性與精確度,反應時間更快,容錯率更高,健壯性更強。?? |
