一種中文的分詞方法及裝置

基本信息

申請?zhí)?/td> CN201711115252.9 申請日 -
公開(公告)號 CN107918604B 公開(公告)日 2021-06-25
申請公布號 CN107918604B 申請公布日 2021-06-25
分類號 G06F40/289 分類 計算;推算;計數(shù);
發(fā)明人 楊良志;汪志新;丁德平;王向軍 申請(專利權(quán))人 彩訊科技股份有限公司
代理機構(gòu) 北京品源專利代理有限公司 代理人 孟金喆
地址 518000 廣東省深圳市南山區(qū)粵海街道高新區(qū)社區(qū)科苑南路3176號彩訊科技大廈三十一層
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開了一種中文的分詞方法及裝置。所述方法包括:獲取待分詞文本的特征信息,其中,所述特征信息包括段落劃分、標點符號或空格符中至少之一;根據(jù)特征信息,確定待分詞文本中的所有自然區(qū)間;將自然區(qū)間劃分為歧義區(qū)間和非歧義區(qū)間;確定歧義區(qū)間中的候選詞,并將候選詞與非歧義區(qū)間中的文本進行匹配;根據(jù)匹配結(jié)果確定候選詞的分詞規(guī)則,并按照分詞規(guī)則對所述歧義區(qū)間的文本進行分詞處理。通過采用上述技術(shù)方案,有效提高了分詞結(jié)果與待分詞文本語境之間的關(guān)聯(lián)性,使得分詞的準確度得到提升。相對于現(xiàn)有技術(shù)提供的分詞方案,本發(fā)明實施例提供的技術(shù)方案計算量較小,在一定程度上也可以提高分詞的快速性。