一種網(wǎng)頁(yè)抓取周期調(diào)整方法和裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201310056627.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN103092999B | 公開(公告)日 | 2016-06-29 |
申請(qǐng)公布號(hào) | CN103092999B | 申請(qǐng)公布日 | 2016-06-29 |
分類號(hào) | G06F17/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 崔世起;楊青 | 申請(qǐng)(專利權(quán))人 | 人民搜索網(wǎng)絡(luò)股份公司 |
代理機(jī)構(gòu) | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王寶筠 |
地址 | 100026 北京市朝陽(yáng)區(qū)金臺(tái)西路2號(hào)[4-1]15幢3層370室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)?zhí)峁┝艘环N網(wǎng)頁(yè)抓取周期調(diào)整方法和裝置,該方法獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁(yè)中所包含的鏈接集合以及該鏈接集合中的鏈接所指向的信息頁(yè);確定該鏈接集合中屬于所述目標(biāo)網(wǎng)頁(yè)中新產(chǎn)生的鏈接,并將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁(yè)的面包屑導(dǎo)航中的網(wǎng)頁(yè)地址與所述第一網(wǎng)頁(yè)地址相同的鏈接作為待分析鏈接;依據(jù)指定時(shí)間內(nèi)在不同抓取時(shí)刻抓取到的所述目標(biāo)網(wǎng)頁(yè)中存在的待分析鏈接,調(diào)整對(duì)目標(biāo)網(wǎng)頁(yè)的抓取周期。該方法可以提高確定出的網(wǎng)頁(yè)抓取周期的精度,減少資源浪費(fèi)。 |
