基于連接時(shí)序分類和自注意力機(jī)制的端到端語音識別方法
基本信息
申請?zhí)?/td> | CN202011101902.6 | 申請日 | - |
公開(公告)號 | CN112509564A | 公開(公告)日 | 2021-03-16 |
申請公布號 | CN112509564A | 申請公布日 | 2021-03-16 |
分類號 | G10L15/183(2013.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/08(2006.01)I | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 龐偉;王亮;陸生禮;狄敏;姚志強(qiáng) | 申請(專利權(quán))人 | 江蘇南大電子信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) | 代理人 | 彭雄 |
地址 | 210019江蘇省南京市建鄴區(qū)嘉陵江東街18號06棟7層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于連接時(shí)序分類和自注意力機(jī)制的端到端語音識別方法,使用連接時(shí)序分類CTC和自注意力機(jī)制SA混合機(jī)制對英文單詞或漢字直接進(jìn)行建模,無需前處理或后處理,輸出結(jié)果直接對應(yīng)正確的英文序列或漢字序列。該方法共享同一個(gè)編碼器網(wǎng)絡(luò),編碼器的輸出使用CTC訓(xùn)練準(zhǔn)則,同時(shí)編碼器的輸出也作為解碼器的輸入,實(shí)現(xiàn)編碼器與解碼器之間的注意力關(guān)系,解碼器使用交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練,最后以加權(quán)的方式賦予兩種訓(xùn)練準(zhǔn)則分配不同的權(quán)重。本發(fā)明不僅可以加快模型的收斂速度,獲得更加準(zhǔn)確的對齊屬性,還可以獲取輸入之間的內(nèi)部聯(lián)系,提升語音識別系統(tǒng)的準(zhǔn)確率及魯棒性。?? |
