端到端架構(gòu)的通用場景中文普通話語音識別方法

基本信息

申請?zhí)?/td> CN202010690798.2 申請日 -
公開(公告)號 CN111681646A 公開(公告)日 2020-09-18
申請公布號 CN111681646A 申請公布日 2020-09-18
分類號 G10L15/06(2013.01)I 分類 樂器;聲學;
發(fā)明人 沈宜;代龍翔;張家亮;賈宇 申請(專利權(quán))人 成都三零凱天通信實業(yè)有限公司
代理機構(gòu) 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 代理人 成都三零凱天通信實業(yè)有限公司
地址 610041四川省成都市高新區(qū)云華路333號1棟5單元4至8層
法律狀態(tài) -

摘要

摘要 本發(fā)明的端到端架構(gòu)的通用場景中文普通話語音識別方法是一種綜合性的語音識別方法。該方法中,在前端加入了深度模型的語音增強模型針對于強噪音環(huán)境和背景音較大的場景的干擾進行過濾掉,在后端使用的是現(xiàn)在流行的端到端語音識別模型,其中分為語音識別聲學模型和語音識別語言模型,語音識別聲學模型使用的是混合CTC和注意力聯(lián)合解碼方式,具有更精準的解碼和更清晰的語義邏輯;語音識別語言模型模型使用的是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型常適用于文本處理,處理上下文密切相關(guān)語意。由此本發(fā)明的端到端架構(gòu)的通用場景中文普通話語音識別方法具有較強魯棒性,具有抗噪音的特性;并且在語音識別完成后能夠正確糾錯,可以對語音內(nèi)容進行完整提取。??