基于連接時(shí)序分類和自注意力機(jī)制的端到端語音識別方法

基本信息

申請?zhí)?/td> CN202011101902.6 申請日 -
公開(公告)號 CN112509564A 公開(公告)日 2021-03-16
申請公布號 CN112509564A 申請公布日 2021-03-16
分類號 G10L15/183(2013.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/08(2006.01)I 分類 樂器;聲學(xué);
發(fā)明人 龐偉;王亮;陸生禮;狄敏;姚志強(qiáng) 申請(專利權(quán))人 江蘇南大電子信息技術(shù)股份有限公司
代理機(jī)構(gòu) 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 代理人 彭雄
地址 210019江蘇省南京市建鄴區(qū)嘉陵江東街18號06棟7層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于連接時(shí)序分類和自注意力機(jī)制的端到端語音識別方法,使用連接時(shí)序分類CTC和自注意力機(jī)制SA混合機(jī)制對英文單詞或漢字直接進(jìn)行建模,無需前處理或后處理,輸出結(jié)果直接對應(yīng)正確的英文序列或漢字序列。該方法共享同一個(gè)編碼器網(wǎng)絡(luò),編碼器的輸出使用CTC訓(xùn)練準(zhǔn)則,同時(shí)編碼器的輸出也作為解碼器的輸入,實(shí)現(xiàn)編碼器與解碼器之間的注意力關(guān)系,解碼器使用交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練,最后以加權(quán)的方式賦予兩種訓(xùn)練準(zhǔn)則分配不同的權(quán)重。本發(fā)明不僅可以加快模型的收斂速度,獲得更加準(zhǔn)確的對齊屬性,還可以獲取輸入之間的內(nèi)部聯(lián)系,提升語音識別系統(tǒng)的準(zhǔn)確率及魯棒性。??