一種基于網(wǎng)頁爬取的爬蟲技術(shù)
基本信息
申請(qǐng)?zhí)?/td> | CN201310040090.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN103970788A | 公開(公告)日 | 2014-08-06 |
申請(qǐng)公布號(hào) | CN103970788A | 申請(qǐng)公布日 | 2014-08-06 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 尹科 | 申請(qǐng)(專利權(quán))人 | 北京英富森軟件股份有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100190 北京市海淀區(qū)中關(guān)村東路66號(hào)一號(hào)樓世紀(jì)科貿(mào)大廈B座2509室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及技術(shù)領(lǐng)域,具體涉及一種基于網(wǎng)頁爬取的爬蟲技術(shù),初始化URL鏈接地址后,包括:1)均衡分配爬蟲線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址;2)判斷所述URL鏈接地址是否存在,是則停止爬取,否則,爬取所述URL鏈接地址放入完成隊(duì)列;3)對(duì)放入所述完成隊(duì)列的所述URL鏈接地址對(duì)應(yīng)的網(wǎng)頁進(jìn)行提??;4)對(duì)所述提取的網(wǎng)頁中的URL鏈接地址過濾,留取有效URL鏈接地址寫入運(yùn)行隊(duì)列,返回步驟1)重復(fù)以上步驟。本發(fā)明基于用戶設(shè)定的對(duì)象,根據(jù)用戶創(chuàng)建的任務(wù),從互聯(lián)網(wǎng)爬取對(duì)應(yīng)的資源、重寫URL并進(jìn)行存儲(chǔ),實(shí)現(xiàn)有針對(duì)性的對(duì)互聯(lián)網(wǎng)信息進(jìn)行采集;同時(shí),能夠?qū)崿F(xiàn)多機(jī)并行爬取、多任務(wù)調(diào)度、斷點(diǎn)續(xù)抓、分布式爬蟲管理以及爬蟲控制。 |
