一種網(wǎng)頁(yè)抓取周期調(diào)整方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN201310056627.4 申請(qǐng)日 -
公開(公告)號(hào) CN103092999B 公開(公告)日 2016-06-29
申請(qǐng)公布號(hào) CN103092999B 申請(qǐng)公布日 2016-06-29
分類號(hào) G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 崔世起;楊青 申請(qǐng)(專利權(quán))人 人民搜索網(wǎng)絡(luò)股份公司
代理機(jī)構(gòu) 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 代理人 王寶筠
地址 100026 北京市朝陽(yáng)區(qū)金臺(tái)西路2號(hào)[4-1]15幢3層370室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)?zhí)峁┝艘环N網(wǎng)頁(yè)抓取周期調(diào)整方法和裝置,該方法獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁(yè)中所包含的鏈接集合以及該鏈接集合中的鏈接所指向的信息頁(yè);確定該鏈接集合中屬于所述目標(biāo)網(wǎng)頁(yè)中新產(chǎn)生的鏈接,并將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁(yè)的面包屑導(dǎo)航中的網(wǎng)頁(yè)地址與所述第一網(wǎng)頁(yè)地址相同的鏈接作為待分析鏈接;依據(jù)指定時(shí)間內(nèi)在不同抓取時(shí)刻抓取到的所述目標(biāo)網(wǎng)頁(yè)中存在的待分析鏈接,調(diào)整對(duì)目標(biāo)網(wǎng)頁(yè)的抓取周期。該方法可以提高確定出的網(wǎng)頁(yè)抓取周期的精度,減少資源浪費(fèi)。