基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN201510129041.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104657514B 公開(kāi)(公告)日 2018-05-25
申請(qǐng)公布號(hào) CN104657514B 申請(qǐng)公布日 2018-05-25
分類號(hào) G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王軍;甘駿;彭中正;王磊;張迪;肖琴 申請(qǐng)(專利權(quán))人 成都知數(shù)科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 610000 四川省成都市高新西區(qū)西芯大道4號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,解決了現(xiàn)有技術(shù)中如何識(shí)別商品標(biāo)題關(guān)鍵詞的命名實(shí)體和對(duì)命名實(shí)體的近義詞識(shí)別的問(wèn)題。該識(shí)別方法包括:(1)將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;(2)隨機(jī)選擇部分商品描述數(shù)據(jù)分詞并進(jìn)行標(biāo)注;(3)返回標(biāo)注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓(xùn)練集數(shù)據(jù);(4)通過(guò)訓(xùn)練集數(shù)據(jù)訓(xùn)練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模型,得到結(jié)果數(shù)據(jù)有效實(shí)體詞庫(kù);(5)過(guò)濾用戶行為數(shù)據(jù);(6)組成多個(gè)相似詞類數(shù)據(jù)集;(7)組成與相似詞類數(shù)據(jù)集數(shù)量對(duì)應(yīng)的近義詞組;(8)整理匯總所有近義詞組,計(jì)算詞與詞之間的相似度;(9)輸出近義詞識(shí)別結(jié)果。