一種基于深度學(xué)習(xí)的空中管制語(yǔ)音指令識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN201910619285.X 申請(qǐng)日 -
公開(公告)號(hào) CN110415683A 公開(公告)日 2019-11-05
申請(qǐng)公布號(hào) CN110415683A 申請(qǐng)公布日 2019-11-05
分類號(hào) G10L15/02(2006.01)I; G10L15/04(2013.01)I; G10L15/06(2013.01)I; G10L15/16(2006.01)I; G10L15/26(2006.01)I 分類 樂器;聲學(xué);
發(fā)明人 王耀彬 申請(qǐng)(專利權(quán))人 上海麥圖信息科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 200000 上海市徐匯區(qū)桂平路680號(hào)32幢527-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學(xué)習(xí)的空中管制語(yǔ)音指令識(shí)別方法,包括以下步驟:獲取待識(shí)別的語(yǔ)音信號(hào),并將其轉(zhuǎn)換為16bit 16kHz的PCM音頻數(shù)據(jù);建立深度網(wǎng)絡(luò)模型;利用訓(xùn)練數(shù)據(jù)訓(xùn)深度網(wǎng)絡(luò)模型得到語(yǔ)音識(shí)別引擎;對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音切分;將語(yǔ)音切分得到的有效音頻片段輸入語(yǔ)音識(shí)別引擎,輸出文字識(shí)別結(jié)果。其中,深度網(wǎng)絡(luò)模型使用卷積模塊作為特征提取器,并由reshape層和全連接層對(duì)提取的特征數(shù)據(jù)進(jìn)行處理,利用門控循環(huán)單元進(jìn)行序列學(xué)習(xí),最終通過全連接層進(jìn)行分類學(xué)習(xí)與決策,獲得預(yù)測(cè)結(jié)果。本發(fā)明采用以人工智能深度學(xué)習(xí)引擎為核心,具有極強(qiáng)的專業(yè)適用性和口音泛化能力,數(shù)據(jù)量依賴程度更低的有點(diǎn),在空管語(yǔ)音的識(shí)別上顯著優(yōu)于通用語(yǔ)音識(shí)別系統(tǒng)。