一種參數(shù)化爬蟲下載方法、裝置、設(shè)備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202111225827.9 | 申請日 | - |
公開(公告)號 | CN113965555A | 公開(公告)日 | 2022-01-21 |
申請公布號 | CN113965555A | 申請公布日 | 2022-01-21 |
分類號 | H04L67/02(2022.01)I;G06F16/951(2019.01)I | 分類 | 電通信技術(shù); |
發(fā)明人 | 劉峰;呂成鈺;隋國棟;劉超 | 申請(專利權(quán))人 | 北京值得買科技股份有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100071北京市豐臺區(qū)汽車博物館東路1號院3號樓33層3801 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種參數(shù)化爬蟲下載方法、裝置、設(shè)備及存儲介質(zhì),包括:根據(jù)上游業(yè)務(wù)傳入的Http鏈接的數(shù)量決定需要啟動的下載庫;對所述下載庫進(jìn)行二次開發(fā),增加Http反扒參數(shù),分析Http鏈接的特性,啟動避免請求失敗功能;對所述下載庫進(jìn)行二次開發(fā),增加請求參數(shù),設(shè)定Http請求的默認(rèn)請求頭,修改請求頭的信息的功能;根據(jù)設(shè)定的Http反扒參數(shù)中的關(guān)鍵字和服務(wù)端響應(yīng)的請求狀態(tài)碼,識別當(dāng)前請求;返回下載內(nèi)容。本申請使整個下載過程通過傳參完成各種下載操作,自動啟動并發(fā)下載、簡單啟用各類代理、對下載結(jié)果進(jìn)行標(biāo)簽化驗(yàn)證,在對有反扒策略的目標(biāo)網(wǎng)站進(jìn)行下載時增效明顯。 |
