一種抓取網(wǎng)頁內(nèi)容的方法及裝置

基本信息

申請?zhí)?/td> CN201410843691.1 申請日 -
公開(公告)號 CN104866517A 公開(公告)日 2015-08-26
申請公布號 CN104866517A 申請公布日 2015-08-26
分類號 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 狄東杰;孫德山;姚臻 申請(專利權(quán))人 智慧城市信息技術(shù)有限公司
代理機構(gòu) 北京同達信恒知識產(chǎn)權(quán)代理有限公司 代理人 黃志華
地址 201209 上海市浦東新區(qū)金海路3288號4幢二樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種抓取網(wǎng)頁內(nèi)容的方法及裝置,用于解決目前在對不同類型網(wǎng)頁內(nèi)容進行抓取的過程中,存在網(wǎng)頁內(nèi)容抓取復雜度高,以及網(wǎng)頁內(nèi)容抓取效率低的問題。本發(fā)明實施例中,當檢測到待抓取網(wǎng)頁時,即從預設(shè)的抓取規(guī)則庫中查找上述待抓取網(wǎng)頁的URL,當該抓取規(guī)則庫中不存在URL對應的抓取規(guī)則時,對待抓取網(wǎng)頁中的內(nèi)容進行分析,并對滿足條件的待抓取網(wǎng)頁生成抓取規(guī)則。采用本發(fā)明技術(shù)方案,對待抓取網(wǎng)頁中的內(nèi)容進行分析,根據(jù)分析結(jié)果自動生成待抓取網(wǎng)頁對應的抓取規(guī)則,無須人工設(shè)置抓取規(guī)則,有效降低了網(wǎng)頁內(nèi)容抓取的復雜度,提高了網(wǎng)頁內(nèi)容抓取的效率。