自演進(jìn)的網(wǎng)絡(luò)自適應(yīng)爬蟲(chóng)方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201710798931.4 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107580052A | 公開(kāi)(公告)日 | 2018-01-12 |
申請(qǐng)公布號(hào) | CN107580052A | 申請(qǐng)公布日 | 2018-01-12 |
分類(lèi)號(hào) | H04L29/08;H04L29/12;G06F17/30;G06N5/02 | 分類(lèi) | 電通信技術(shù); |
發(fā)明人 | 何有樹(shù);莫默;唐東;周維軍 | 申請(qǐng)(專(zhuān)利權(quán))人 | 翼果(深圳)科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 518000 廣東省深圳市南山區(qū)粵海街道軟件產(chǎn)業(yè)基地4棟B座203 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實(shí)施例公開(kāi)了一種自演進(jìn)的網(wǎng)絡(luò)自適應(yīng)爬蟲(chóng)方法及系統(tǒng),所述爬蟲(chóng)方法包括:步驟1:接收采集任務(wù),若接收為IP地址進(jìn)入步驟4,接收為域名則查詢(xún)是否存在于自建的DNS系統(tǒng),若存在,則查詢(xún)記錄是否超時(shí),若未超時(shí)則進(jìn)入步驟4;步驟2:若不存在或超時(shí)則查詢(xún)目標(biāo)網(wǎng)站的所有IP地址;步驟3:探測(cè)IP地址并生成域名IP列表并更新;步驟4:探測(cè)IP地址的網(wǎng)絡(luò)環(huán)境,結(jié)合探測(cè)結(jié)果分配爬蟲(chóng)任務(wù);步驟5:預(yù)測(cè)采集模型并設(shè)置爬蟲(chóng),采集數(shù)據(jù)。本發(fā)明實(shí)施例通過(guò)自建DNS系統(tǒng)結(jié)合網(wǎng)絡(luò)環(huán)境生成負(fù)荷分擔(dān)任務(wù)以及通過(guò)預(yù)測(cè)采集模型,解決了爬蟲(chóng)采集能力差及需經(jīng)常修改配置參數(shù)問(wèn)題,進(jìn)而提高了爬蟲(chóng)的采集能力同時(shí)使爬蟲(chóng)能自動(dòng)適應(yīng)目標(biāo)網(wǎng)站的配置項(xiàng)。 |
