一種對文本序列進(jìn)行分詞的方法、裝置和電子設(shè)備

基本信息

申請?zhí)?/td> CN201711364208.1 申請日 -
公開(公告)號 CN108038103B 公開(公告)日 2021-08-10
申請公布號 CN108038103B 申請公布日 2021-08-10
分類號 G06F40/289;G06N3/04 分類 計算;推算;計數(shù);
發(fā)明人 蘇海波;劉鈺;劉譯璟;楊哲銘;楊中亮 申請(專利權(quán))人 沈陽智能大數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 北京國昊天誠知識產(chǎn)權(quán)代理有限公司 代理人 李瀟
地址 110623 遼寧省沈陽市渾南區(qū)創(chuàng)新路155-5號888室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本的分詞方法、裝置和電子設(shè)備,所述方法包括:確定與所述文本序列對應(yīng)的概率矩陣,所述概率矩陣記錄有所述文本序列中的每個字符與預(yù)設(shè)的每個標(biāo)注字符相匹配的概率值,所述標(biāo)注字符用于對所述文本序列進(jìn)行分詞;確定與所述概率矩陣對應(yīng)的轉(zhuǎn)移矩陣,所述轉(zhuǎn)移矩陣記錄了所述每個標(biāo)注字符之間的轉(zhuǎn)移概率;根據(jù)所述概率矩陣和轉(zhuǎn)移矩陣,對所述文本序列進(jìn)行分詞。本發(fā)明可以避免在中文分詞過程中,存在分詞特征抽取受限以及領(lǐng)域適應(yīng)性較差的問題。