一種中文的分詞方法及裝置
基本信息
申請?zhí)?/td> | CN201711115252.9 | 申請日 | - |
公開(公告)號 | CN107918604B | 公開(公告)日 | 2021-06-25 |
申請公布號 | CN107918604B | 申請公布日 | 2021-06-25 |
分類號 | G06F40/289 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 楊良志;汪志新;丁德平;王向軍 | 申請(專利權(quán))人 | 彩訊科技股份有限公司 |
代理機構(gòu) | 北京品源專利代理有限公司 | 代理人 | 孟金喆 |
地址 | 518000 廣東省深圳市南山區(qū)粵海街道高新區(qū)社區(qū)科苑南路3176號彩訊科技大廈三十一層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例公開了一種中文的分詞方法及裝置。所述方法包括:獲取待分詞文本的特征信息,其中,所述特征信息包括段落劃分、標點符號或空格符中至少之一;根據(jù)特征信息,確定待分詞文本中的所有自然區(qū)間;將自然區(qū)間劃分為歧義區(qū)間和非歧義區(qū)間;確定歧義區(qū)間中的候選詞,并將候選詞與非歧義區(qū)間中的文本進行匹配;根據(jù)匹配結(jié)果確定候選詞的分詞規(guī)則,并按照分詞規(guī)則對所述歧義區(qū)間的文本進行分詞處理。通過采用上述技術(shù)方案,有效提高了分詞結(jié)果與待分詞文本語境之間的關(guān)聯(lián)性,使得分詞的準確度得到提升。相對于現(xiàn)有技術(shù)提供的分詞方案,本發(fā)明實施例提供的技術(shù)方案計算量較小,在一定程度上也可以提高分詞的快速性。 |
