一種電商大數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202111237956.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113672687B | 公開(kāi)(公告)日 | 2022-02-15 |
申請(qǐng)公布號(hào) | CN113672687B | 申請(qǐng)公布日 | 2022-02-15 |
分類號(hào) | G06F16/27(2019.01)I;G06F16/25(2019.01)I;G06F16/2457(2019.01)I;G06F9/54(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 隋國(guó)棟;高景洋;劉峰;劉超 | 申請(qǐng)(專利權(quán))人 | 北京值得買科技股份有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100071北京市豐臺(tái)區(qū)汽車博物館東路1號(hào)院3號(hào)樓33層3801 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明是關(guān)于一種電商大數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。該方法包括:通過(guò)Spark程序讀取Hbase中的商品數(shù)據(jù),生成彈性分布式數(shù)據(jù)集RDD;將RDD轉(zhuǎn)換成DataFrame;通過(guò)電商網(wǎng)站ID及上下架條件,過(guò)濾DataFrame中的數(shù)據(jù);將過(guò)濾數(shù)據(jù)后的DataFrame重新轉(zhuǎn)換成RDD;通過(guò)RDD的MapPartitions操作,將重新轉(zhuǎn)換的RDD的每條數(shù)據(jù)與預(yù)先配置的采集方案和采集任務(wù)做匹配,生成最優(yōu)調(diào)度項(xiàng);將生成的最優(yōu)調(diào)度項(xiàng),按任務(wù)頻次推入到不同的鏈接池中。本發(fā)明提供的技術(shù)方案,大大提高商品數(shù)據(jù)的調(diào)度速度,且調(diào)度商品數(shù)據(jù)量穩(wěn)定,大大減少了取分區(qū)數(shù)據(jù)讀取失敗的情況。 |
