一種識別Hub頁中有效鏈接的方法和裝置
基本信息
申請?zhí)?/td> | CN201310153447.8 | 申請日 | - |
公開(公告)號 | CN103218452B | 公開(公告)日 | 2016-08-10 |
申請公布號 | CN103218452B | 申請公布日 | 2016-08-10 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 孫鍵;崔世起;楊青 | 申請(專利權)人 | 人民搜索網(wǎng)絡股份公司 |
代理機構 | 北京集佳知識產(chǎn)權代理有限公司 | 代理人 | 王寶筠 |
地址 | 100020北京市朝陽區(qū)東三環(huán)中路1號環(huán)球金融中心西塔16層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了一種識別Hub頁中有效鏈接的方法和裝置,以及一種更新Hub頁中鏈接的方法和系統(tǒng)。識別Hub頁中有效鏈接的方法包括:抽取Hub頁中鏈接對應的內容頁,并獲取Hub頁的信息及所述內容頁的信息;從所述Hub頁的信息中提取所述Hub頁的面包屑路徑,并從所述內容頁的信息中提取所述內容頁的面包屑路徑;將內容頁面包屑路徑與Hub頁面包屑路徑相匹配的內容頁識別為所述Hub頁的有效內容頁,并將所述有效內容頁對應的鏈接識別為所述Hub頁的有效鏈接。通過本申請的技術方案,在Hub頁更新時可以識別出新產(chǎn)生的有效鏈接,從而可以根據(jù)新產(chǎn)生的有效鏈接來確定下一次抓取時間,去除了側邊欄鏈接的影響,從而使得Hub頁抓取速度減小,節(jié)約了系統(tǒng)資源并提升系統(tǒng)的性能。 |
