一種基于哈希算法的中文分詞方法

基本信息

申請?zhí)?/td> CN201910312465.3 申請日 -
公開(公告)號 CN110046219A 公開(公告)日 2019-07-23
申請公布號 CN110046219A 申請公布日 2019-07-23
分類號 G06F16/31;G06F16/36 分類 計算;推算;計數(shù);
發(fā)明人 汪齊順 申請(專利權(quán))人 合肥天毅網(wǎng)絡(luò)傳媒有限公司
代理機構(gòu) 上海精晟知識產(chǎn)權(quán)代理有限公司 代理人 合肥天毅網(wǎng)絡(luò)傳媒有限公司
地址 230000 安徽省合肥市高新區(qū)信息產(chǎn)業(yè)基地桑夏1#綜合樓323室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于哈希算法的中文分詞方法,涉及自然語言處理領(lǐng)域。本發(fā)明包括如下步驟:S1:在搜索引擎上配置分詞器并建立字典結(jié)構(gòu);S2:監(jiān)測到用戶回車,獲取輸入框中首個字;S3:首個字輸入字典進行初次查找篩選;S4:將字典中所有首字相同的詞構(gòu)成一棵樹;S5:將詞語中的第二個字放在樹的第二層并創(chuàng)建哈希索引表;S6:對剩下的字進行Hash查找;S7:IK讀取到新的詞庫后通知搜索引擎更新;S8:搜索引擎對內(nèi)存中的字典信息進行更新。本發(fā)明通過創(chuàng)建詞典存儲機制對首字進行Hash查找,建立樹形結(jié)果對剩下的字進行Hash查找的詞典結(jié)構(gòu)和算法,并利用IK分詞更新搜索引擎,提高了中文分詞效率,降低了系統(tǒng)的復(fù)雜程度,減少了索引的冗余程度。