一種大數(shù)據(jù)清洗方法
基本信息
申請?zhí)?/td> | CN201710622180.0 | 申請日 | - |
公開(公告)號 | CN110019152A | 公開(公告)日 | 2019-07-16 |
申請公布號 | CN110019152A | 申請公布日 | 2019-07-16 |
分類號 | G06F16/215 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李笠 | 申請(專利權(quán))人 | 潤澤科技發(fā)展有限公司 |
代理機構(gòu) | 北京東方芊悅知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 李巖 |
地址 | 065001 河北省廊坊市廊坊經(jīng)濟技術(shù)開發(fā)區(qū)樓莊路9號潤澤國際信息港 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種大數(shù)據(jù)清洗方法,先對清洗流程進行配置定義,再對清洗流程進行解析并轉(zhuǎn)換為Spark的原子操作。將清洗任務(wù)提交至大數(shù)據(jù)分析框架Spark集群后,由Spark集群進行數(shù)據(jù)清洗,因為每個清洗流程中的每個步驟都已轉(zhuǎn)換為Spark的原子操作,所以在Spark集群中進行的各個清洗步驟均可以分布式并行執(zhí)行,從而能夠顯著提高數(shù)據(jù)清洗的清洗速度,實現(xiàn)高速度和高效率的數(shù)據(jù)清洗,更加適用于當前的大數(shù)據(jù)環(huán)境。 |
