一種基于哈希算法的中文分詞方法
基本信息
申請?zhí)?/td> | CN201910312465.3 | 申請日 | - |
公開(公告)號 | CN110046219A | 公開(公告)日 | 2019-07-23 |
申請公布號 | CN110046219A | 申請公布日 | 2019-07-23 |
分類號 | G06F16/31;G06F16/36 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 汪齊順 | 申請(專利權(quán))人 | 合肥天毅網(wǎng)絡(luò)傳媒有限公司 |
代理機構(gòu) | 上海精晟知識產(chǎn)權(quán)代理有限公司 | 代理人 | 合肥天毅網(wǎng)絡(luò)傳媒有限公司 |
地址 | 230000 安徽省合肥市高新區(qū)信息產(chǎn)業(yè)基地桑夏1#綜合樓323室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于哈希算法的中文分詞方法,涉及自然語言處理領(lǐng)域。本發(fā)明包括如下步驟:S1:在搜索引擎上配置分詞器并建立字典結(jié)構(gòu);S2:監(jiān)測到用戶回車,獲取輸入框中首個字;S3:首個字輸入字典進行初次查找篩選;S4:將字典中所有首字相同的詞構(gòu)成一棵樹;S5:將詞語中的第二個字放在樹的第二層并創(chuàng)建哈希索引表;S6:對剩下的字進行Hash查找;S7:IK讀取到新的詞庫后通知搜索引擎更新;S8:搜索引擎對內(nèi)存中的字典信息進行更新。本發(fā)明通過創(chuàng)建詞典存儲機制對首字進行Hash查找,建立樹形結(jié)果對剩下的字進行Hash查找的詞典結(jié)構(gòu)和算法,并利用IK分詞更新搜索引擎,提高了中文分詞效率,降低了系統(tǒng)的復(fù)雜程度,減少了索引的冗余程度。 |
