基于Spark的Cassandra數(shù)據(jù)導(dǎo)入方法、裝置、設(shè)備及介質(zhì)

基本信息

申請?zhí)?/td> CN201911379699.6 申請日 -
公開(公告)號 CN111143456A 公開(公告)日 2020-05-12
申請公布號 CN111143456A 申請公布日 2020-05-12
分類號 G06F16/25;G06F16/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 程萬勝 申請(專利權(quán))人 同盾(廣州)科技有限公司
代理機(jī)構(gòu) 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張迪
地址 511457 廣東省廣州市南沙區(qū)南沙街進(jìn)港大道8號905房
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于Spark的Cassandra數(shù)據(jù)導(dǎo)入方法,涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,用于解決現(xiàn)有通過Spark導(dǎo)入數(shù)據(jù)到Cassandra時(shí),Cassandra性能降低的問題,該方法包括以下步驟:獲取待導(dǎo)入數(shù)據(jù)的數(shù)據(jù)量及SSTable單文件大小,并根據(jù)所述數(shù)據(jù)量及SSTable單文件大小計(jì)算所需分區(qū)數(shù)量N;根據(jù)所述數(shù)據(jù)的Key計(jì)算token值;根據(jù)所述token值,將所述數(shù)據(jù)分配到所述N個(gè)分區(qū)中,并排序;使用CQLSSTableWriter讀取排序后的所述數(shù)據(jù),生成SSTable文件;并行處理所述SSTable文件,通過SSTableload將所述SSTable文件導(dǎo)入Cassandra集群。本發(fā)明還公開了一種基于Spark的Cassandra數(shù)據(jù)導(dǎo)入裝置、電子設(shè)備和計(jì)算機(jī)存儲介質(zhì)。本發(fā)明通過Spark對數(shù)據(jù)進(jìn)行分區(qū),進(jìn)而提高數(shù)據(jù)導(dǎo)入時(shí),Cassandra的處理性能。