兼容多種大數(shù)據(jù)存儲的數(shù)據(jù)處理方法、系統(tǒng)及其建模方法
基本信息
申請?zhí)?/td> | CN201710501658.4 | 申請日 | - |
公開(公告)號 | CN107247799A | 公開(公告)日 | 2017-10-13 |
申請公布號 | CN107247799A | 申請公布日 | 2017-10-13 |
分類號 | G06F17/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 殷晉 | 申請(專利權(quán))人 | 北京天機(jī)數(shù)測數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100125 北京市朝陽區(qū)霞光里9號16層1601室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種兼容多種大數(shù)據(jù)存儲的數(shù)據(jù)處理方法、系統(tǒng)及其建模方法,該建模方法是基于JSON格式書寫及開發(fā)數(shù)據(jù)建模語言,包括在根下建立dataSource、query、mapping、outputTable、sql和partition六個(gè)子結(jié)點(diǎn),采用數(shù)據(jù)處理系統(tǒng)處理數(shù)據(jù)時(shí),可以通過數(shù)源接入系統(tǒng)接入相應(yīng)數(shù)據(jù)源的源數(shù)據(jù),再利用數(shù)據(jù)抽取單元對接入的源數(shù)據(jù)進(jìn)行抽取,再將抽取得到的RDD數(shù)據(jù)集交由Spark數(shù)據(jù)引擎根據(jù)需要進(jìn)行多次計(jì)算和迭代,最后通過數(shù)據(jù)輸出格式轉(zhuǎn)換器統(tǒng)一或定制數(shù)據(jù)輸出格式。借此,可以實(shí)現(xiàn)各種不同數(shù)據(jù)的存儲與分析平臺間的統(tǒng)一數(shù)據(jù)查詢、統(tǒng)一數(shù)據(jù)分析、統(tǒng)一數(shù)據(jù)輸出,降低數(shù)據(jù)分析的難度與復(fù)雜度。 |
