一種對文本序列進(jìn)行分詞的方法、裝置和電子設(shè)備
基本信息
申請?zhí)?/td> | CN201711364208.1 | 申請日 | - |
公開(公告)號 | CN108038103B | 公開(公告)日 | 2021-08-10 |
申請公布號 | CN108038103B | 申請公布日 | 2021-08-10 |
分類號 | G06F40/289;G06N3/04 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 蘇海波;劉鈺;劉譯璟;楊哲銘;楊中亮 | 申請(專利權(quán))人 | 沈陽智能大數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司 | 代理人 | 李瀟 |
地址 | 110623 遼寧省沈陽市渾南區(qū)創(chuàng)新路155-5號888室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種文本的分詞方法、裝置和電子設(shè)備,所述方法包括:確定與所述文本序列對應(yīng)的概率矩陣,所述概率矩陣記錄有所述文本序列中的每個字符與預(yù)設(shè)的每個標(biāo)注字符相匹配的概率值,所述標(biāo)注字符用于對所述文本序列進(jìn)行分詞;確定與所述概率矩陣對應(yīng)的轉(zhuǎn)移矩陣,所述轉(zhuǎn)移矩陣記錄了所述每個標(biāo)注字符之間的轉(zhuǎn)移概率;根據(jù)所述概率矩陣和轉(zhuǎn)移矩陣,對所述文本序列進(jìn)行分詞。本發(fā)明可以避免在中文分詞過程中,存在分詞特征抽取受限以及領(lǐng)域適應(yīng)性較差的問題。 |
