分詞詞庫的構(gòu)建方法、分詞方法、裝置及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202010218109.8 | 申請日 | - |
公開(公告)號 | CN111428475A | 公開(公告)日 | 2020-07-17 |
申請公布號 | CN111428475A | 申請公布日 | 2020-07-17 |
分類號 | G06F40/242;G06F40/289;G06N3/04;G06N3/08 | 分類 | - |
發(fā)明人 | 齊全;陳道遠(yuǎn);王博 | 申請(專利權(quán))人 | 蘇州藍(lán)海彤翔系統(tǒng)科技有限公司 |
代理機(jī)構(gòu) | 北京三友知識產(chǎn)權(quán)代理有限公司 | 代理人 | 周達(dá);劉飛 |
地址 | 215000 江蘇省蘇州市高新區(qū)科技城錦峰路158號101park8幢 | ||
法律狀態(tài) | - |
摘要
摘要 | 本說明書實施例提供一種分詞詞庫的構(gòu)建方法、分詞方法、裝置及存儲介質(zhì)。所述方法包括:將待分詞文本劃分為多個子文本;獲取第一候選字符串集合;其中,所述第一候選字符串集合包括所述多個子文本中長度小于預(yù)設(shè)值的字符串;根據(jù)通用詞庫對所述第一候選字符串集合中的字符串進(jìn)行篩選,得到第二候選字符串集合;將所述第二候選字符串集合輸入至預(yù)設(shè)的模型中,得到候選分詞詞庫;其中,所述候選分詞詞庫包括多個候選詞和所述多個候選詞對應(yīng)的權(quán)值;根據(jù)所述候選分詞詞庫構(gòu)建分詞詞庫,從而提高未登錄詞和歧義識別的準(zhǔn)確性,提高分詞的準(zhǔn)確率。 |
