www.AV.com-官网首页,久草青视频在线

請(qǐng)輸入想查詢的關(guān)鍵字

查詢

退出

會(huì)員

商務(wù)合作

瀏覽歷史

清除

首頁/ 北京英富森軟件股份有限公司/ 專利詳情

一種基于網(wǎng)頁爬取的爬蟲技術(shù)

基本信息

申請(qǐng)?zhí)?/td>	CN201310040090.2	申請(qǐng)日	-
公開（公告）號(hào)	CN103970788A	公開（公告）日	2014-08-06
申請(qǐng)公布號(hào)	CN103970788A	申請(qǐng)公布日	2014-08-06
分類號(hào)	G06F17/30(2006.01)I	分類	計(jì)算；推算；計(jì)數(shù);
發(fā)明人	尹科	申請(qǐng)（專利權(quán)）人	北京英富森軟件股份有限公司
代理機(jī)構(gòu)	-	代理人	-
地址	100190 北京市海淀區(qū)中關(guān)村東路66號(hào)一號(hào)樓世紀(jì)科貿(mào)大廈B座2509室
法律狀態(tài)	-

摘要

本發(fā)明涉及技術(shù)領(lǐng)域，具體涉及一種基于網(wǎng)頁爬取的爬蟲技術(shù)，初始化URL鏈接地址后，包括：1)均衡分配爬蟲線程從給定的入口起在運(yùn)行隊(duì)列讀取排列在隊(duì)首的URL鏈接地址；2)判斷所述URL鏈接地址是否存在，是則停止爬取，否則，爬取所述URL鏈接地址放入完成隊(duì)列；3)對(duì)放入所述完成隊(duì)列的所述URL鏈接地址對(duì)應(yīng)的網(wǎng)頁進(jìn)行提??；4)對(duì)所述提取的網(wǎng)頁中的URL鏈接地址過濾，留取有效URL鏈接地址寫入運(yùn)行隊(duì)列，返回步驟1)重復(fù)以上步驟。本發(fā)明基于用戶設(shè)定的對(duì)象，根據(jù)用戶創(chuàng)建的任務(wù)，從互聯(lián)網(wǎng)爬取對(duì)應(yīng)的資源、重寫URL并進(jìn)行存儲(chǔ)，實(shí)現(xiàn)有針對(duì)性的對(duì)互聯(lián)網(wǎng)信息進(jìn)行采集；同時(shí)，能夠?qū)崿F(xiàn)多機(jī)并行爬取、多任務(wù)調(diào)度、斷點(diǎn)續(xù)抓、分布式爬蟲管理以及爬蟲控制。

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩 内射 人妻

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻