基于云計算技術(shù)的數(shù)據(jù)采集系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201710416326.6 申請日 -
公開(公告)號 CN107317724A 公開(公告)日 2017-11-03
申請公布號 CN107317724A 申請公布日 2017-11-03
分類號 H04L12/26(2006.01)I;H04L12/24(2006.01)I;H04L29/08(2006.01)I 分類 電通信技術(shù);
發(fā)明人 劉剛;譚煥云;姜志剛;黃元慶;張振海 申請(專利權(quán))人 中證信用增進(jìn)股份有限公司
代理機構(gòu) - 代理人 -
地址 518038 廣東省深圳市福田區(qū)深南大道2012號深圳證券交易所44樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于云計算技術(shù)的數(shù)據(jù)采集系統(tǒng)及方法,系統(tǒng)采用分布式分層協(xié)作、可水平擴(kuò)展的異步隊列方案,包括任務(wù)調(diào)度器、生成器、下載器及解析器;任務(wù)調(diào)度器根據(jù)每一個數(shù)據(jù)采集任務(wù)調(diào)度所述生成器、下載器及解析器,以采集到與每一個數(shù)據(jù)采集任務(wù)相關(guān)的數(shù)據(jù);生成器根據(jù)所述任務(wù)調(diào)度器的調(diào)度以生成與該數(shù)據(jù)采集任務(wù)對應(yīng)的每一個待采集網(wǎng)站相關(guān)頁面的URI;下載器用于根據(jù)所述任務(wù)調(diào)度器的調(diào)度以下載每一個待采集網(wǎng)站相關(guān)頁面的URI所對應(yīng)的原始數(shù)據(jù);解析器用于根據(jù)任務(wù)調(diào)度器的調(diào)度以對所述下載器下載的原始數(shù)據(jù)解析為結(jié)構(gòu)化數(shù)據(jù)。采集系統(tǒng)可以根據(jù)任務(wù)量及負(fù)載情況,通過快速部署功能實現(xiàn)分布式的彈性拓展,快速提高系統(tǒng)的負(fù)載能力。