一種增量更新與爬取技術
基本信息
申請?zhí)?/td> | CN201310040088.5 | 申請日 | - |
公開(公告)號 | CN103970787A | 公開(公告)日 | 2014-08-06 |
申請公布號 | CN103970787A | 申請公布日 | 2014-08-06 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 尹科 | 申請(專利權)人 | 北京英富森軟件股份有限公司 |
代理機構 | - | 代理人 | - |
地址 | 100190 北京市海淀區(qū)中關村東路66號一號樓世紀科貿大廈B座2509室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種增量更新與爬取技術,包括:判斷待爬取網(wǎng)頁內容的UR是否為靜態(tài)頁面的鏈接地址;當待爬取網(wǎng)頁內容的URL為靜態(tài)頁面的鏈接地址時,判斷所述URL是否爬取過,是則用所述URL替換已存儲的URL;否則,根據(jù)爬取日期創(chuàng)建年/月/日/URL鏈接地址的文件夾,將待爬取網(wǎng)頁的內容存儲到所述文件夾中。本發(fā)明通過每次獲取待爬取網(wǎng)頁的URL時,判斷所述URL是屬于靜態(tài)頁面的還是動態(tài)頁面的鏈接地址。如果是靜態(tài)頁面的,則判斷所述URL是否已經(jīng)爬取過,如已經(jīng)爬取過則不進行爬取,直接將已經(jīng)爬取過的URL替換成現(xiàn)有的鏈接地址存儲,實現(xiàn)了靜態(tài)頁面的增量更新存儲的要求,從而減少爬蟲系統(tǒng)更新頁面的工作量,提升了頁面的新鮮度。 |
