一種公司用戶畫像的生成方法

基本信息

申請(qǐng)?zhí)?/td> CN201811622697.0 申請(qǐng)日 -
公開(公告)號(hào) CN109710697A 公開(公告)日 2019-05-03
申請(qǐng)公布號(hào) CN109710697A 申請(qǐng)公布日 2019-05-03
分類號(hào) G06F16/27(2019.01)I; G06F16/215(2019.01)I; G06F16/2458(2019.01)I; G06F16/23(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 孫錦彬; 吳承霖; 周津 申請(qǐng)(專利權(quán))人 廈門笨鳥電子商務(wù)有限公司
代理機(jī)構(gòu) 廈門市新華專利商標(biāo)代理有限公司 代理人 廈門笨鳥電子商務(wù)有限公司
地址 361000 福建省廈門市思明區(qū)前埔路506、508號(hào)國金廣場B座6層01、02單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種公司用戶畫像的生成方法,其步驟包括離線畫像和實(shí)時(shí)畫像,離線畫像通過spark搭建畫像系統(tǒng),并將數(shù)據(jù)同步到hdfs,進(jìn)行定時(shí)更新,通過同步數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)和gbdt算法預(yù)測(cè)特征,生成離線畫像;實(shí)時(shí)畫像通過kafka將用戶的實(shí)時(shí)信息發(fā)送至spark streaming,根據(jù)用戶行為更新畫像,并將每個(gè)窗口的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并預(yù)測(cè),更新到用戶的畫像列表中。本發(fā)明采用同步的形式,定時(shí)將數(shù)據(jù)源的數(shù)據(jù)同步到hdfs中,與spark更好地結(jié)合,提高效率并減少服務(wù)器壓力,確保畫像具有時(shí)效性;并進(jìn)行多時(shí)間串口的滑動(dòng),通過用戶實(shí)時(shí)信息更新畫像,保證畫像的實(shí)時(shí)性,使特征以及畫像不會(huì)受太久前的數(shù)據(jù)干擾,使畫像更加符合用戶本身,提高畫像的準(zhǔn)確性。