一種參數化爬蟲下載方法、裝置、設備及存儲介質

基本信息

申請?zhí)?/td> CN202111225827.9 申請日 -
公開(公告)號 CN113965555A 公開(公告)日 2022-01-21
申請公布號 CN113965555A 申請公布日 2022-01-21
分類號 H04L67/02(2022.01)I;G06F16/951(2019.01)I 分類 電通信技術;
發(fā)明人 劉峰;呂成鈺;隋國棟;劉超 申請(專利權)人 北京值得買科技股份有限公司
代理機構 - 代理人 -
地址 100071北京市豐臺區(qū)汽車博物館東路1號院3號樓33層3801
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種參數化爬蟲下載方法、裝置、設備及存儲介質,包括:根據上游業(yè)務傳入的Http鏈接的數量決定需要啟動的下載庫;對所述下載庫進行二次開發(fā),增加Http反扒參數,分析Http鏈接的特性,啟動避免請求失敗功能;對所述下載庫進行二次開發(fā),增加請求參數,設定Http請求的默認請求頭,修改請求頭的信息的功能;根據設定的Http反扒參數中的關鍵字和服務端響應的請求狀態(tài)碼,識別當前請求;返回下載內容。本申請使整個下載過程通過傳參完成各種下載操作,自動啟動并發(fā)下載、簡單啟用各類代理、對下載結果進行標簽化驗證,在對有反扒策略的目標網站進行下載時增效明顯。