基于云計(jì)算技術(shù)的數(shù)據(jù)采集系統(tǒng)及方法

基本信息

申請(qǐng)?zhí)?/td> CN201710416326.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107317724B 公開(kāi)(公告)日 2017-11-03
申請(qǐng)公布號(hào) CN107317724B 申請(qǐng)公布日 2017-11-03
分類(lèi)號(hào) H04L12/26(2006.01)I 分類(lèi) 電通信技術(shù);
發(fā)明人 劉剛;譚煥云;姜志剛;黃元慶;張振海 申請(qǐng)(專(zhuān)利權(quán))人 中證信用增進(jìn)股份有限公司
代理機(jī)構(gòu) - 代理人 -
地址 518038廣東省深圳市福田區(qū)深南大道2012號(hào)深圳證券交易所44樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于云計(jì)算技術(shù)的數(shù)據(jù)采集系統(tǒng)及方法,系統(tǒng)采用分布式分層協(xié)作、可水平擴(kuò)展的異步隊(duì)列方案,包括任務(wù)調(diào)度器、生成器、下載器及解析器;任務(wù)調(diào)度器根據(jù)每一個(gè)數(shù)據(jù)采集任務(wù)調(diào)度所述生成器、下載器及解析器,以采集到與每一個(gè)數(shù)據(jù)采集任務(wù)相關(guān)的數(shù)據(jù);生成器根據(jù)所述任務(wù)調(diào)度器的調(diào)度以生成與該數(shù)據(jù)采集任務(wù)對(duì)應(yīng)的每一個(gè)待采集網(wǎng)站相關(guān)頁(yè)面的URI;下載器用于根據(jù)所述任務(wù)調(diào)度器的調(diào)度以下載每一個(gè)待采集網(wǎng)站相關(guān)頁(yè)面的URI所對(duì)應(yīng)的原始數(shù)據(jù);解析器用于根據(jù)任務(wù)調(diào)度器的調(diào)度以對(duì)所述下載器下載的原始數(shù)據(jù)解析為結(jié)構(gòu)化數(shù)據(jù)。采集系統(tǒng)可以根據(jù)任務(wù)量及負(fù)載情況,通過(guò)快速部署功能實(shí)現(xiàn)分布式的彈性拓展,快速提高系統(tǒng)的負(fù)載能力。??