基于電商用戶行為數(shù)據(jù)的近義詞識別方法

基本信息

申請?zhí)?/td> CN201510129041.5 申請日 -
公開(公告)號 CN104657514A 公開(公告)日 2015-05-27
申請公布號 CN104657514A 申請公布日 2015-05-27
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王軍;甘駿;彭中正;王磊;張迪;肖琴 申請(專利權(quán))人 成都知數(shù)科技有限公司
代理機構(gòu) - 代理人 -
地址 610000 四川省成都市高新西區(qū)西芯大道4號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于電商用戶行為數(shù)據(jù)的近義詞識別方法,解決了現(xiàn)有技術(shù)中如何識別商品標題關(guān)鍵詞的命名實體和對命名實體的近義詞識別的問題。該識別方法包括:(1)將原始數(shù)據(jù)進行數(shù)據(jù)預處理;(2)隨機選擇部分商品描述數(shù)據(jù)分詞并進行標注;(3)返回標注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓練集數(shù)據(jù);(4)通過訓練集數(shù)據(jù)訓練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模型,得到結(jié)果數(shù)據(jù)有效實體詞庫;(5)過濾用戶行為數(shù)據(jù);(6)組成多個相似詞類數(shù)據(jù)集;(7)組成與相似詞類數(shù)據(jù)集數(shù)量對應的近義詞組;(8)整理匯總所有近義詞組,計算詞與詞之間的相似度;(9)輸出近義詞識別結(jié)果。