一種增量更新與爬取技術

基本信息

申請?zhí)?/td> CN201310040088.5 申請日 -
公開(公告)號 CN103970787A 公開(公告)日 2014-08-06
申請公布號 CN103970787A 申請公布日 2014-08-06
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 尹科 申請(專利權)人 北京英富森軟件股份有限公司
代理機構 - 代理人 -
地址 100190 北京市海淀區(qū)中關村東路66號一號樓世紀科貿大廈B座2509室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種增量更新與爬取技術,包括:判斷待爬取網(wǎng)頁內容的UR是否為靜態(tài)頁面的鏈接地址;當待爬取網(wǎng)頁內容的URL為靜態(tài)頁面的鏈接地址時,判斷所述URL是否爬取過,是則用所述URL替換已存儲的URL;否則,根據(jù)爬取日期創(chuàng)建年/月/日/URL鏈接地址的文件夾,將待爬取網(wǎng)頁的內容存儲到所述文件夾中。本發(fā)明通過每次獲取待爬取網(wǎng)頁的URL時,判斷所述URL是屬于靜態(tài)頁面的還是動態(tài)頁面的鏈接地址。如果是靜態(tài)頁面的,則判斷所述URL是否已經(jīng)爬取過,如已經(jīng)爬取過則不進行爬取,直接將已經(jīng)爬取過的URL替換成現(xiàn)有的鏈接地址存儲,實現(xiàn)了靜態(tài)頁面的增量更新存儲的要求,從而減少爬蟲系統(tǒng)更新頁面的工作量,提升了頁面的新鮮度。