一種大數(shù)據(jù)清洗方法

基本信息

申請?zhí)?/td> CN201710622180.0 申請日 -
公開(公告)號 CN110019152A 公開(公告)日 2019-07-16
申請公布號 CN110019152A 申請公布日 2019-07-16
分類號 G06F16/215 分類 計算;推算;計數(shù);
發(fā)明人 李笠 申請(專利權(quán))人 潤澤科技發(fā)展有限公司
代理機構(gòu) 北京東方芊悅知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李巖
地址 065001 河北省廊坊市廊坊經(jīng)濟技術(shù)開發(fā)區(qū)樓莊路9號潤澤國際信息港
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種大數(shù)據(jù)清洗方法,先對清洗流程進行配置定義,再對清洗流程進行解析并轉(zhuǎn)換為Spark的原子操作。將清洗任務(wù)提交至大數(shù)據(jù)分析框架Spark集群后,由Spark集群進行數(shù)據(jù)清洗,因為每個清洗流程中的每個步驟都已轉(zhuǎn)換為Spark的原子操作,所以在Spark集群中進行的各個清洗步驟均可以分布式并行執(zhí)行,從而能夠顯著提高數(shù)據(jù)清洗的清洗速度,實現(xiàn)高速度和高效率的數(shù)據(jù)清洗,更加適用于當前的大數(shù)據(jù)環(huán)境。