爬取數(shù)據(jù)的方法、裝置、介質(zhì)及電子設(shè)備
基本信息
申請?zhí)?/td> | CN202110477953.7 | 申請日 | - |
公開(公告)號 | CN113190735A | 公開(公告)日 | 2021-07-30 |
申請公布號 | CN113190735A | 申請公布日 | 2021-07-30 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 楊光;周天星 | 申請(專利權(quán))人 | 北京精準(zhǔn)溝通傳媒科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100089北京市海淀區(qū)西三環(huán)北路50號院8號樓8層905 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及爬取數(shù)據(jù)的方法、裝置、介質(zhì)及電子設(shè)備。一種爬取數(shù)據(jù)的方法,包括:獲取本次請求URL,根據(jù)所述本次請求URL進(jìn)行數(shù)據(jù)爬取任務(wù);獲取組裝后續(xù)請求所需的配置數(shù)據(jù),后續(xù)請求配置數(shù)據(jù)包括累加參數(shù)和累加數(shù);讀取本次請求URL中包含的累加參數(shù)的參數(shù)值;將參數(shù)值與累加數(shù)相加,得到累加后的參數(shù)值;基于累加后的參數(shù)值,生成新的URL請求;將新的URL請求放入待請求隊(duì)列,從而依據(jù)待請求隊(duì)列中的URL請求執(zhí)行爬蟲任務(wù)。根據(jù)本發(fā)明的方案,不依賴于頁面中的鏈接而生成新的URL請求,可以實(shí)現(xiàn)內(nèi)容上連續(xù)的多個(gè)APP端請求的連續(xù)爬取,提高了APP端數(shù)據(jù)的爬取效率。 |
