一種語句分詞方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN201710161440.9 | 申請日 | - |
公開(公告)號 | CN107092590A | 公開(公告)日 | 2017-08-25 |
申請公布號 | CN107092590A | 申請公布日 | 2017-08-25 |
分類號 | G06F17/27;G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李嘉 | 申請(專利權(quán))人 | 貴州恒昊軟件科技有限公司 |
代理機(jī)構(gòu) | 北京輕創(chuàng)知識產(chǎn)權(quán)代理有限公司 | 代理人 | 楊立;付倩 |
地址 | 550007 貴州省貴陽市觀山湖區(qū)六盤水路啟林創(chuàng)客小鎮(zhèn)B501 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種語句分詞方法和系統(tǒng),其方法包括:由句尾向句頭方向以逐字遞增的方式對目標(biāo)語句中的字符進(jìn)行提取,每次提取得到一個目標(biāo)字段;將目標(biāo)字段與預(yù)存的標(biāo)準(zhǔn)字段進(jìn)行匹配,并根據(jù)匹配結(jié)果來確定是否在目標(biāo)字段中設(shè)置斷點(diǎn),如果未設(shè)置斷點(diǎn)則將該目標(biāo)字段進(jìn)行保存,并提取下一目標(biāo)字段進(jìn)行匹配,如果設(shè)置了斷點(diǎn)則對目標(biāo)字段進(jìn)行拆分,并將斷點(diǎn)之前的字符以及未判斷的目標(biāo)語句合并作為新的目標(biāo)語句重復(fù)執(zhí)行分詞處理,直至將整個目標(biāo)語句全部分詞完成,得到目標(biāo)語句的分詞結(jié)果。本發(fā)明從句尾向句頭方向采用逆向匹配算法以逐字遞增的方式對語句進(jìn)行分詞,可以以最大程度消除歧義,把語句劃分的更準(zhǔn)確,能夠更好的實(shí)現(xiàn)信息的匹配及檢索。 |
