一種自動對業(yè)務(wù)數(shù)據(jù)信息進行處理的方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201811612300.X 申請日 -
公開(公告)號 CN109785099B 公開(公告)日 2021-07-06
申請公布號 CN109785099B 申請公布日 2021-07-06
分類號 G06Q40/00;G06Q50/26;G06F9/50 分類 計算;推算;計數(shù);
發(fā)明人 陳懿;李澤然;張澤;李浩浩;尤培海;白光佩;蘇瑞文 申請(專利權(quán))人 大象慧云信息技術(shù)有限公司
代理機構(gòu) 北京工信聯(lián)合知識產(chǎn)權(quán)代理有限公司 代理人 商琛
地址 100086 北京市海淀區(qū)中關(guān)村南大街2號A座31層3106室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種自動對業(yè)務(wù)數(shù)據(jù)信息進行處理的方法及系統(tǒng),包括:利用分布式計算框架mapreduce對獲取的原始業(yè)務(wù)數(shù)據(jù)進行數(shù)據(jù)清洗,以獲取物品信息數(shù)據(jù)文件和品牌信息數(shù)據(jù)文件;按照預(yù)設(shè)的轉(zhuǎn)換規(guī)則對所述品牌信息數(shù)據(jù)文件中的字段信息進行信息轉(zhuǎn)換,以獲取經(jīng)過信息轉(zhuǎn)換的品牌信息數(shù)據(jù)文件;將所述物品信息數(shù)據(jù)文件和經(jīng)過信息轉(zhuǎn)換的品牌信息數(shù)據(jù)文件進行關(guān)聯(lián),并根據(jù)需求基于品牌信息進行數(shù)據(jù)抽取,以獲取第二物品信息文件;獲取每個物品的關(guān)鍵字信息增加到所述第二物品信息文件中,并對所述關(guān)鍵字信息進行詞性標注;根據(jù)預(yù)設(shè)的關(guān)鍵字信息過濾規(guī)則對第二物品信息文件進行過濾,并將經(jīng)過過濾處理的物品信息文件作為完整物品信息文件存儲到索引庫中。