端到端架構(gòu)的通用場景中文普通話語音識別方法
基本信息
申請?zhí)?/td> | CN202010690798.2 | 申請日 | - |
公開(公告)號 | CN111681646A | 公開(公告)日 | 2020-09-18 |
申請公布號 | CN111681646A | 申請公布日 | 2020-09-18 |
分類號 | G10L15/06(2013.01)I | 分類 | 樂器;聲學; |
發(fā)明人 | 沈宜;代龍翔;張家亮;賈宇 | 申請(專利權(quán))人 | 成都三零凱天通信實業(yè)有限公司 |
代理機構(gòu) | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 | 代理人 | 成都三零凱天通信實業(yè)有限公司 |
地址 | 610041四川省成都市高新區(qū)云華路333號1棟5單元4至8層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明的端到端架構(gòu)的通用場景中文普通話語音識別方法是一種綜合性的語音識別方法。該方法中,在前端加入了深度模型的語音增強模型針對于強噪音環(huán)境和背景音較大的場景的干擾進行過濾掉,在后端使用的是現(xiàn)在流行的端到端語音識別模型,其中分為語音識別聲學模型和語音識別語言模型,語音識別聲學模型使用的是混合CTC和注意力聯(lián)合解碼方式,具有更精準的解碼和更清晰的語義邏輯;語音識別語言模型模型使用的是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型常適用于文本處理,處理上下文密切相關(guān)語意。由此本發(fā)明的端到端架構(gòu)的通用場景中文普通話語音識別方法具有較強魯棒性,具有抗噪音的特性;并且在語音識別完成后能夠正確糾錯,可以對語音內(nèi)容進行完整提取。?? |
