一種ETL流程在Spark集群中運(yùn)行的方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN201911320034.8 申請(qǐng)日 -
公開(公告)號(hào) CN111159268B 公開(公告)日 2022-01-04
申請(qǐng)公布號(hào) CN111159268B 申請(qǐng)公布日 2022-01-04
分類號(hào) G06F16/25(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 梅綱;袁松彪 申請(qǐng)(專利權(quán))人 武漢達(dá)夢(mèng)數(shù)據(jù)庫(kù)股份有限公司
代理機(jī)構(gòu) 深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 代理人 向彬
地址 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)高新大道999號(hào)未來(lái)科技大廈C3棟16-19層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域,提供了一種ETL流程在Spark集群中運(yùn)行的方法和裝置。方法包括從所述元數(shù)據(jù)庫(kù)里獲取被執(zhí)行流程的元數(shù)據(jù)信息,包括ETL功能組件、組件屬性信息、連接和連接屬性信息;在Spark應(yīng)用程序里建立一個(gè)有向圖結(jié)構(gòu)SparkGraph對(duì)象,所述SparkGraph對(duì)象由多個(gè)SparkNode對(duì)象構(gòu)成,并且,所述SparkNode對(duì)象之間由SparkEdge對(duì)象關(guān)聯(lián)。本發(fā)明在Spark應(yīng)用程序里引入圖結(jié)構(gòu)蘊(yùn)含RDD之間變換的血緣關(guān)系,方便的實(shí)現(xiàn)了ETL流程在Spark集群上的執(zhí)行,并且,利用Spark集群的并行執(zhí)行特性,提高了對(duì)大數(shù)據(jù)遷移轉(zhuǎn)換的ETL流程執(zhí)行速度。