爬取數(shù)據(jù)的方法、裝置、介質(zhì)及電子設(shè)備

基本信息

申請?zhí)?/td> CN202110477953.7 申請日 -
公開(公告)號 CN113190735A 公開(公告)日 2021-07-30
申請公布號 CN113190735A 申請公布日 2021-07-30
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 楊光;周天星 申請(專利權(quán))人 北京精準(zhǔn)溝通傳媒科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100089北京市海淀區(qū)西三環(huán)北路50號院8號樓8層905
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及爬取數(shù)據(jù)的方法、裝置、介質(zhì)及電子設(shè)備。一種爬取數(shù)據(jù)的方法,包括:獲取本次請求URL,根據(jù)所述本次請求URL進(jìn)行數(shù)據(jù)爬取任務(wù);獲取組裝后續(xù)請求所需的配置數(shù)據(jù),后續(xù)請求配置數(shù)據(jù)包括累加參數(shù)和累加數(shù);讀取本次請求URL中包含的累加參數(shù)的參數(shù)值;將參數(shù)值與累加數(shù)相加,得到累加后的參數(shù)值;基于累加后的參數(shù)值,生成新的URL請求;將新的URL請求放入待請求隊(duì)列,從而依據(jù)待請求隊(duì)列中的URL請求執(zhí)行爬蟲任務(wù)。根據(jù)本發(fā)明的方案,不依賴于頁面中的鏈接而生成新的URL請求,可以實(shí)現(xiàn)內(nèi)容上連續(xù)的多個(gè)APP端請求的連續(xù)爬取,提高了APP端數(shù)據(jù)的爬取效率。