一種ETL流程在Spark集群中運(yùn)行的方法和裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201911320034.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111159268B | 公開(公告)日 | 2022-01-04 |
申請(qǐng)公布號(hào) | CN111159268B | 申請(qǐng)公布日 | 2022-01-04 |
分類號(hào) | G06F16/25(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 梅綱;袁松彪 | 申請(qǐng)(專利權(quán))人 | 武漢達(dá)夢(mèng)數(shù)據(jù)庫(kù)股份有限公司 |
代理機(jī)構(gòu) | 深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 向彬 |
地址 | 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)高新大道999號(hào)未來(lái)科技大廈C3棟16-19層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域,提供了一種ETL流程在Spark集群中運(yùn)行的方法和裝置。方法包括從所述元數(shù)據(jù)庫(kù)里獲取被執(zhí)行流程的元數(shù)據(jù)信息,包括ETL功能組件、組件屬性信息、連接和連接屬性信息;在Spark應(yīng)用程序里建立一個(gè)有向圖結(jié)構(gòu)SparkGraph對(duì)象,所述SparkGraph對(duì)象由多個(gè)SparkNode對(duì)象構(gòu)成,并且,所述SparkNode對(duì)象之間由SparkEdge對(duì)象關(guān)聯(lián)。本發(fā)明在Spark應(yīng)用程序里引入圖結(jié)構(gòu)蘊(yùn)含RDD之間變換的血緣關(guān)系,方便的實(shí)現(xiàn)了ETL流程在Spark集群上的執(zhí)行,并且,利用Spark集群的并行執(zhí)行特性,提高了對(duì)大數(shù)據(jù)遷移轉(zhuǎn)換的ETL流程執(zhí)行速度。 |
