爬蟲調度方法、裝置、終端設備和可讀存儲介質
基本信息
申請?zhí)?/td> | CN202010955778.3 | 申請日 | - |
公開(公告)號 | CN112100472A | 公開(公告)日 | 2020-12-18 |
申請公布號 | CN112100472A | 申請公布日 | 2020-12-18 |
分類號 | G06F16/951;G06F16/9537 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 夏凱軍;鄢宇 | 申請(專利權)人 | 深圳市科盾科技有限公司 |
代理機構 | 北京超凡宏宇專利代理事務所(特殊普通合伙) | 代理人 | 深圳市科盾科技有限公司 |
地址 | 518000 廣東省深圳市福田區(qū)益田路1006號益田花園二期20棟13樓1301室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例公開了爬蟲調度方法、裝置、終端設備和可讀存儲介質,該方法包括在調度爬蟲爬取目標網(wǎng)頁的數(shù)據(jù)時,將當前實際時間映射至預設的更新距離映射時間軸上以確定對應的當前映射時間;根據(jù)目標網(wǎng)頁的更新情況確定爬蟲下次調度的映射時間間隔;根據(jù)當前映射時間和映射時間間隔確定爬蟲下次調度的下次調度映射時間;將下次調度映射時間映射至實際時間軸上以確定對應的下次調度實際時間;根據(jù)下次調度實際時間調度爬蟲。本實施例的技術方案通過更新距離映射時間軸與實際時間軸之間的映射關系,將爬蟲的調度時間與網(wǎng)頁更新速度之間的關系進行量化,有效避免爬蟲資源過度浪費,保證對網(wǎng)頁更新的數(shù)據(jù)進行及時的爬取。 |
