一種電商大數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202111237956.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113672687B 公開(kāi)(公告)日 2022-02-15
申請(qǐng)公布號(hào) CN113672687B 申請(qǐng)公布日 2022-02-15
分類號(hào) G06F16/27(2019.01)I;G06F16/25(2019.01)I;G06F16/2457(2019.01)I;G06F9/54(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 隋國(guó)棟;高景洋;劉峰;劉超 申請(qǐng)(專利權(quán))人 北京值得買科技股份有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100071北京市豐臺(tái)區(qū)汽車博物館東路1號(hào)院3號(hào)樓33層3801
法律狀態(tài) -

摘要

摘要 本發(fā)明是關(guān)于一種電商大數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。該方法包括:通過(guò)Spark程序讀取Hbase中的商品數(shù)據(jù),生成彈性分布式數(shù)據(jù)集RDD;將RDD轉(zhuǎn)換成DataFrame;通過(guò)電商網(wǎng)站ID及上下架條件,過(guò)濾DataFrame中的數(shù)據(jù);將過(guò)濾數(shù)據(jù)后的DataFrame重新轉(zhuǎn)換成RDD;通過(guò)RDD的MapPartitions操作,將重新轉(zhuǎn)換的RDD的每條數(shù)據(jù)與預(yù)先配置的采集方案和采集任務(wù)做匹配,生成最優(yōu)調(diào)度項(xiàng);將生成的最優(yōu)調(diào)度項(xiàng),按任務(wù)頻次推入到不同的鏈接池中。本發(fā)明提供的技術(shù)方案,大大提高商品數(shù)據(jù)的調(diào)度速度,且調(diào)度商品數(shù)據(jù)量穩(wěn)定,大大減少了取分區(qū)數(shù)據(jù)讀取失敗的情況。