批量數(shù)據(jù)處理方法、裝置、終端設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202010015112.X 申請日 -
公開(公告)號 CN111241051A 公開(公告)日 2020-06-05
申請公布號 CN111241051A 申請公布日 2020-06-05
分類號 G06F16/182(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 楊陽;賀璟璐;陳旭 申請(專利權(quán))人 深圳迅策科技有限公司
代理機構(gòu) 深圳金偉創(chuàng)新專利代理事務所(普通合伙) 代理人 韋永吉
地址 518000廣東省深圳市南山區(qū)粵海街道高新園粵興一道9號香港科技大學產(chǎn)學研大樓118A室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種批量數(shù)據(jù)處理方法、裝置、終端設(shè)備及存儲介質(zhì),屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域。本發(fā)明通過在kafka消息隊列中創(chuàng)建一個空的Topic,在spark主函數(shù)中創(chuàng)建directStream,通過所述directStream從內(nèi)存數(shù)據(jù)庫中批量讀取數(shù)據(jù),并將讀取的數(shù)據(jù)寫入所述Topic,在將所述內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)讀取完成后,對所述Topic中的數(shù)據(jù)進行處理,并將處理結(jié)果寫入到kafka消息隊列中,由于spark從內(nèi)存數(shù)據(jù)庫中讀取批量數(shù)據(jù),并行轉(zhuǎn)換成DataSet,解決了使用Spark結(jié)合kafka不能解決的業(yè)務需求,從而大批量數(shù)據(jù)同步轉(zhuǎn)換成Spark DataSet。??