一種參數化爬蟲下載方法、裝置、設備及存儲介質
基本信息
申請?zhí)?/td> | CN202111225827.9 | 申請日 | - |
公開(公告)號 | CN113965555A | 公開(公告)日 | 2022-01-21 |
申請公布號 | CN113965555A | 申請公布日 | 2022-01-21 |
分類號 | H04L67/02(2022.01)I;G06F16/951(2019.01)I | 分類 | 電通信技術; |
發(fā)明人 | 劉峰;呂成鈺;隋國棟;劉超 | 申請(專利權)人 | 北京值得買科技股份有限公司 |
代理機構 | - | 代理人 | - |
地址 | 100071北京市豐臺區(qū)汽車博物館東路1號院3號樓33層3801 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種參數化爬蟲下載方法、裝置、設備及存儲介質,包括:根據上游業(yè)務傳入的Http鏈接的數量決定需要啟動的下載庫;對所述下載庫進行二次開發(fā),增加Http反扒參數,分析Http鏈接的特性,啟動避免請求失敗功能;對所述下載庫進行二次開發(fā),增加請求參數,設定Http請求的默認請求頭,修改請求頭的信息的功能;根據設定的Http反扒參數中的關鍵字和服務端響應的請求狀態(tài)碼,識別當前請求;返回下載內容。本申請使整個下載過程通過傳參完成各種下載操作,自動啟動并發(fā)下載、簡單啟用各類代理、對下載結果進行標簽化驗證,在對有反扒策略的目標網站進行下載時增效明顯。 |
