基于電商用戶行為數(shù)據(jù)的近義詞識別方法
基本信息
申請?zhí)?/td> | CN201510129041.5 | 申請日 | - |
公開(公告)號 | CN104657514A | 公開(公告)日 | 2015-05-27 |
申請公布號 | CN104657514A | 申請公布日 | 2015-05-27 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王軍;甘駿;彭中正;王磊;張迪;肖琴 | 申請(專利權(quán))人 | 成都知數(shù)科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 610000 四川省成都市高新西區(qū)西芯大道4號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于電商用戶行為數(shù)據(jù)的近義詞識別方法,解決了現(xiàn)有技術(shù)中如何識別商品標題關(guān)鍵詞的命名實體和對命名實體的近義詞識別的問題。該識別方法包括:(1)將原始數(shù)據(jù)進行數(shù)據(jù)預處理;(2)隨機選擇部分商品描述數(shù)據(jù)分詞并進行標注;(3)返回標注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓練集數(shù)據(jù);(4)通過訓練集數(shù)據(jù)訓練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模型,得到結(jié)果數(shù)據(jù)有效實體詞庫;(5)過濾用戶行為數(shù)據(jù);(6)組成多個相似詞類數(shù)據(jù)集;(7)組成與相似詞類數(shù)據(jù)集數(shù)量對應的近義詞組;(8)整理匯總所有近義詞組,計算詞與詞之間的相似度;(9)輸出近義詞識別結(jié)果。 |
