一種基于python腳本的分布式大數(shù)據(jù)清洗方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010938368.8 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112115127A | 公開(kāi)(公告)日 | 2020-12-22 |
申請(qǐng)公布號(hào) | CN112115127A | 申請(qǐng)公布日 | 2020-12-22 |
分類號(hào) | G06F16/215(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 魯紅軍 | 申請(qǐng)(專利權(quán))人 | 云基華海信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 北京市浩東律師事務(wù)所 | 代理人 | 李雁 |
地址 | 710000陜西省西安市高新區(qū)高新三路2號(hào)海佳云頂商住樓10603室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于python腳本的分布式大數(shù)據(jù)清洗方法,該方法包括如下步驟,首先對(duì)待清洗的數(shù)據(jù)的加載,再對(duì)加載后的待清洗的數(shù)據(jù)進(jìn)行分片操作,對(duì)待清洗的數(shù)據(jù)進(jìn)行分布式調(diào)度以及執(zhí)行操作,對(duì)待清洗的數(shù)據(jù)進(jìn)行請(qǐng)求以及對(duì)清洗結(jié)果進(jìn)行回填,其中,步驟一具體分為如下步驟,數(shù)據(jù)加載,首先從HBase列存數(shù)據(jù)庫(kù)加載所需要進(jìn)行清洗的數(shù)據(jù),制定清洗策略,設(shè)置數(shù)據(jù)清洗策略。本發(fā)明基于大數(shù)據(jù)技術(shù),基于HBase列存儲(chǔ)數(shù)據(jù)庫(kù)做數(shù)據(jù)清洗,解決了海量數(shù)據(jù)清洗問(wèn)題,采用python引擎及腳本做數(shù)據(jù)清洗,解決了傳統(tǒng)SQL清洗規(guī)則少的問(wèn)題和jar包清洗靜態(tài)編碼的問(wèn)題,基于Spark的分布式計(jì)算引擎,并行執(zhí)行腳本,解決了大數(shù)據(jù)清洗算力不足的問(wèn)題。?? |
