一種基于雙通道文本卷積神經(jīng)網(wǎng)絡(luò)的帶噪非法短文本識別方法

基本信息

申請?zhí)?/td> CN201811446969.6 申請日 -
公開(公告)號 CN109670041A 公開(公告)日 2019-04-23
申請公布號 CN109670041A 申請公布日 2019-04-23
分類號 G06F16/35;G06F17/27;G06F17/21;G06F17/22;G06F17/26;G06F40/191 分類 計算;推算;計數(shù);
發(fā)明人 周建政;姚金良;黃金海;明建華;俞月倫 申請(專利權(quán))人 天格科技(杭州)有限公司
代理機構(gòu) 杭州求是專利事務(wù)所有限公司 代理人 鄭海峰
地址 310005 浙江省杭州市拱墅區(qū)湖墅南路186號3層3A09室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于雙通道文本卷積神經(jīng)網(wǎng)絡(luò)的帶噪非法短文本識別方法。包括帶噪短文本的預(yù)處理、雙通道文本卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建,以及模型的訓練和實時識別。帶噪短文本的預(yù)處理用于噪聲字符的標準化,消除噪聲的影響,提高卷積神經(jīng)網(wǎng)絡(luò)模型的學習能力。雙通道文本卷積神經(jīng)網(wǎng)絡(luò)模型是一個可以同時輸入預(yù)處理后字符序列和拼音序列的文本卷積神經(jīng)網(wǎng)絡(luò)模型。由于增加了拼音序列的輸入和建模能力,因此該模型可消除同音字符替換對分類性能影響。本發(fā)明能夠處理同音字符替換、形狀相似的英文字符替換、各種語義相同的數(shù)字符號替換等帶來的影響,實驗結(jié)果顯示本發(fā)明方法對帶噪聲的非法短文本的識別具有較高的識別準確率和較低的誤檢率。