一種基于深度學習的空中管制語音指令識別方法

基本信息

申請?zhí)?/td> CN201910619285.X 申請日 -
公開(公告)號 CN110415683A 公開(公告)日 2019-11-05
申請公布號 CN110415683A 申請公布日 2019-11-05
分類號 G10L15/02(2006.01)I; G10L15/04(2013.01)I; G10L15/06(2013.01)I; G10L15/16(2006.01)I; G10L15/26(2006.01)I 分類 樂器;聲學;
發(fā)明人 王耀彬 申請(專利權)人 上海麥圖信息科技有限公司
代理機構 - 代理人 -
地址 200000 上海市徐匯區(qū)桂平路680號32幢527-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學習的空中管制語音指令識別方法,包括以下步驟:獲取待識別的語音信號,并將其轉換為16bit 16kHz的PCM音頻數據;建立深度網絡模型;利用訓練數據訓深度網絡模型得到語音識別引擎;對所述音頻數據進行語音切分;將語音切分得到的有效音頻片段輸入語音識別引擎,輸出文字識別結果。其中,深度網絡模型使用卷積模塊作為特征提取器,并由reshape層和全連接層對提取的特征數據進行處理,利用門控循環(huán)單元進行序列學習,最終通過全連接層進行分類學習與決策,獲得預測結果。本發(fā)明采用以人工智能深度學習引擎為核心,具有極強的專業(yè)適用性和口音泛化能力,數據量依賴程度更低的有點,在空管語音的識別上顯著優(yōu)于通用語音識別系統(tǒng)。