一種識別Hub頁中有效鏈接的方法和裝置

基本信息

申請?zhí)?/td> CN201310153447.8 申請日 -
公開(公告)號 CN103218452B 公開(公告)日 2016-08-10
申請公布號 CN103218452B 申請公布日 2016-08-10
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 孫鍵;崔世起;楊青 申請(專利權)人 人民搜索網(wǎng)絡股份公司
代理機構 北京集佳知識產(chǎn)權代理有限公司 代理人 王寶筠
地址 100020北京市朝陽區(qū)東三環(huán)中路1號環(huán)球金融中心西塔16層
法律狀態(tài) -

摘要

摘要 本申請公開了一種識別Hub頁中有效鏈接的方法和裝置,以及一種更新Hub頁中鏈接的方法和系統(tǒng)。識別Hub頁中有效鏈接的方法包括:抽取Hub頁中鏈接對應的內容頁,并獲取Hub頁的信息及所述內容頁的信息;從所述Hub頁的信息中提取所述Hub頁的面包屑路徑,并從所述內容頁的信息中提取所述內容頁的面包屑路徑;將內容頁面包屑路徑與Hub頁面包屑路徑相匹配的內容頁識別為所述Hub頁的有效內容頁,并將所述有效內容頁對應的鏈接識別為所述Hub頁的有效鏈接。通過本申請的技術方案,在Hub頁更新時可以識別出新產(chǎn)生的有效鏈接,從而可以根據(jù)新產(chǎn)生的有效鏈接來確定下一次抓取時間,去除了側邊欄鏈接的影響,從而使得Hub頁抓取速度減小,節(jié)約了系統(tǒng)資源并提升系統(tǒng)的性能。