業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN201310325804.4 申請日 -
公開(公告)號(hào) CN103399908B 公開(公告)日 2017-02-08
申請公布號(hào) CN103399908B 申請公布日 2017-02-08
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李正勇;曹東;李建濤 申請(專利權(quán))人 北京北緯通信科技股份有限公司
代理機(jī)構(gòu) 北京博雅睿泉專利代理事務(wù)所(特殊普通合伙) 代理人 馬佑平
地址 100166 北京市豐臺(tái)區(qū)西四環(huán)南路19號(hào)九號(hào)樓247室
法律狀態(tài) -

摘要

摘要 本申請公開了業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng),該方法為:配置抓取操作時(shí)所需要的規(guī)則數(shù)據(jù);讀取所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲(chǔ);針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML文檔獲取需要的資源URI,同時(shí)過濾數(shù)據(jù)不完整的資源;建立資源下載任務(wù),對解析獲取到的所述資源URI使用斷點(diǎn)續(xù)傳的方式下載,獲得所述資源數(shù)據(jù);根據(jù)采集到的所述資源數(shù)據(jù)的完整性進(jìn)行存儲(chǔ)或重新抓取,并在所述抓取操作無法正常結(jié)束時(shí)發(fā)送報(bào)告信息。本申請解決了數(shù)據(jù)采集時(shí)花費(fèi)大量的資源而且不能通過配置相關(guān)的信息獲取業(yè)務(wù)數(shù)據(jù)的問題。