一種抓取網(wǎng)頁內(nèi)容的方法及裝置
基本信息
申請?zhí)?/td> | CN201410843691.1 | 申請日 | - |
公開(公告)號 | CN104866517A | 公開(公告)日 | 2015-08-26 |
申請公布號 | CN104866517A | 申請公布日 | 2015-08-26 |
分類號 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 狄東杰;孫德山;姚臻 | 申請(專利權(quán))人 | 智慧城市信息技術(shù)有限公司 |
代理機構(gòu) | 北京同達信恒知識產(chǎn)權(quán)代理有限公司 | 代理人 | 黃志華 |
地址 | 201209 上海市浦東新區(qū)金海路3288號4幢二樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種抓取網(wǎng)頁內(nèi)容的方法及裝置,用于解決目前在對不同類型網(wǎng)頁內(nèi)容進行抓取的過程中,存在網(wǎng)頁內(nèi)容抓取復雜度高,以及網(wǎng)頁內(nèi)容抓取效率低的問題。本發(fā)明實施例中,當檢測到待抓取網(wǎng)頁時,即從預設(shè)的抓取規(guī)則庫中查找上述待抓取網(wǎng)頁的URL,當該抓取規(guī)則庫中不存在URL對應的抓取規(guī)則時,對待抓取網(wǎng)頁中的內(nèi)容進行分析,并對滿足條件的待抓取網(wǎng)頁生成抓取規(guī)則。采用本發(fā)明技術(shù)方案,對待抓取網(wǎng)頁中的內(nèi)容進行分析,根據(jù)分析結(jié)果自動生成待抓取網(wǎng)頁對應的抓取規(guī)則,無須人工設(shè)置抓取規(guī)則,有效降低了網(wǎng)頁內(nèi)容抓取的復雜度,提高了網(wǎng)頁內(nèi)容抓取的效率。 |
