兼容多種大數(shù)據(jù)存儲的數(shù)據(jù)處理方法、系統(tǒng)及其建模方法

基本信息

申請?zhí)?/td> CN201710501658.4 申請日 -
公開(公告)號 CN107247799A 公開(公告)日 2017-10-13
申請公布號 CN107247799A 申請公布日 2017-10-13
分類號 G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 殷晉 申請(專利權(quán))人 北京天機(jī)數(shù)測數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100125 北京市朝陽區(qū)霞光里9號16層1601室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種兼容多種大數(shù)據(jù)存儲的數(shù)據(jù)處理方法、系統(tǒng)及其建模方法,該建模方法是基于JSON格式書寫及開發(fā)數(shù)據(jù)建模語言,包括在根下建立dataSource、query、mapping、outputTable、sql和partition六個(gè)子結(jié)點(diǎn),采用數(shù)據(jù)處理系統(tǒng)處理數(shù)據(jù)時(shí),可以通過數(shù)源接入系統(tǒng)接入相應(yīng)數(shù)據(jù)源的源數(shù)據(jù),再利用數(shù)據(jù)抽取單元對接入的源數(shù)據(jù)進(jìn)行抽取,再將抽取得到的RDD數(shù)據(jù)集交由Spark數(shù)據(jù)引擎根據(jù)需要進(jìn)行多次計(jì)算和迭代,最后通過數(shù)據(jù)輸出格式轉(zhuǎn)換器統(tǒng)一或定制數(shù)據(jù)輸出格式。借此,可以實(shí)現(xiàn)各種不同數(shù)據(jù)的存儲與分析平臺間的統(tǒng)一數(shù)據(jù)查詢、統(tǒng)一數(shù)據(jù)分析、統(tǒng)一數(shù)據(jù)輸出,降低數(shù)據(jù)分析的難度與復(fù)雜度。