業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN201310325804.4 | 申請日 | - |
公開(公告)號(hào) | CN103399908B | 公開(公告)日 | 2017-02-08 |
申請公布號(hào) | CN103399908B | 申請公布日 | 2017-02-08 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李正勇;曹東;李建濤 | 申請(專利權(quán))人 | 北京北緯通信科技股份有限公司 |
代理機(jī)構(gòu) | 北京博雅睿泉專利代理事務(wù)所(特殊普通合伙) | 代理人 | 馬佑平 |
地址 | 100166 北京市豐臺(tái)區(qū)西四環(huán)南路19號(hào)九號(hào)樓247室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng),該方法為:配置抓取操作時(shí)所需要的規(guī)則數(shù)據(jù);讀取所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲(chǔ);針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML文檔獲取需要的資源URI,同時(shí)過濾數(shù)據(jù)不完整的資源;建立資源下載任務(wù),對解析獲取到的所述資源URI使用斷點(diǎn)續(xù)傳的方式下載,獲得所述資源數(shù)據(jù);根據(jù)采集到的所述資源數(shù)據(jù)的完整性進(jìn)行存儲(chǔ)或重新抓取,并在所述抓取操作無法正常結(jié)束時(shí)發(fā)送報(bào)告信息。本申請解決了數(shù)據(jù)采集時(shí)花費(fèi)大量的資源而且不能通過配置相關(guān)的信息獲取業(yè)務(wù)數(shù)據(jù)的問題。 |
