一種基于網(wǎng)頁(yè)爬取的爬蟲(chóng)技術(shù)

基本信息

申請(qǐng)?zhí)?/td> CN201310040090.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN103970788A 公開(kāi)(公告)日 2014-08-06
申請(qǐng)公布號(hào) CN103970788A 申請(qǐng)公布日 2014-08-06
分類(lèi)號(hào) G06F17/30(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 尹科 申請(qǐng)(專(zhuān)利權(quán))人 北京英富森軟件股份有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100190 北京市海淀區(qū)中關(guān)村東路66號(hào)一號(hào)樓世紀(jì)科貿(mào)大廈B座2509室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及技術(shù)領(lǐng)域,具體涉及一種基于網(wǎng)頁(yè)爬取的爬蟲(chóng)技術(shù),初始化URL鏈接地址后,包括:1)均衡分配爬蟲(chóng)線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址;2)判斷所述URL鏈接地址是否存在,是則停止爬取,否則,爬取所述URL鏈接地址放入完成隊(duì)列;3)對(duì)放入所述完成隊(duì)列的所述URL鏈接地址對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行提??;4)對(duì)所述提取的網(wǎng)頁(yè)中的URL鏈接地址過(guò)濾,留取有效URL鏈接地址寫(xiě)入運(yùn)行隊(duì)列,返回步驟1)重復(fù)以上步驟。本發(fā)明基于用戶設(shè)定的對(duì)象,根據(jù)用戶創(chuàng)建的任務(wù),從互聯(lián)網(wǎng)爬取對(duì)應(yīng)的資源、重寫(xiě)URL并進(jìn)行存儲(chǔ),實(shí)現(xiàn)有針對(duì)性的對(duì)互聯(lián)網(wǎng)信息進(jìn)行采集;同時(shí),能夠?qū)崿F(xiàn)多機(jī)并行爬取、多任務(wù)調(diào)度、斷點(diǎn)續(xù)抓、分布式爬蟲(chóng)管理以及爬蟲(chóng)控制。