基于云計算技術(shù)的數(shù)據(jù)采集系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN201710416326.6 | 申請日 | - |
公開(公告)號 | CN107317724A | 公開(公告)日 | 2017-11-03 |
申請公布號 | CN107317724A | 申請公布日 | 2017-11-03 |
分類號 | H04L12/26(2006.01)I;H04L12/24(2006.01)I;H04L29/08(2006.01)I | 分類 | 電通信技術(shù); |
發(fā)明人 | 劉剛;譚煥云;姜志剛;黃元慶;張振海 | 申請(專利權(quán))人 | 中證信用增進(jìn)股份有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 518038 廣東省深圳市福田區(qū)深南大道2012號深圳證券交易所44樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于云計算技術(shù)的數(shù)據(jù)采集系統(tǒng)及方法,系統(tǒng)采用分布式分層協(xié)作、可水平擴(kuò)展的異步隊列方案,包括任務(wù)調(diào)度器、生成器、下載器及解析器;任務(wù)調(diào)度器根據(jù)每一個數(shù)據(jù)采集任務(wù)調(diào)度所述生成器、下載器及解析器,以采集到與每一個數(shù)據(jù)采集任務(wù)相關(guān)的數(shù)據(jù);生成器根據(jù)所述任務(wù)調(diào)度器的調(diào)度以生成與該數(shù)據(jù)采集任務(wù)對應(yīng)的每一個待采集網(wǎng)站相關(guān)頁面的URI;下載器用于根據(jù)所述任務(wù)調(diào)度器的調(diào)度以下載每一個待采集網(wǎng)站相關(guān)頁面的URI所對應(yīng)的原始數(shù)據(jù);解析器用于根據(jù)任務(wù)調(diào)度器的調(diào)度以對所述下載器下載的原始數(shù)據(jù)解析為結(jié)構(gòu)化數(shù)據(jù)。采集系統(tǒng)可以根據(jù)任務(wù)量及負(fù)載情況,通過快速部署功能實現(xiàn)分布式的彈性拓展,快速提高系統(tǒng)的負(fù)載能力。 |
