一種基于CTC的聲學(xué)模型訓(xùn)練方法
基本信息
申請(qǐng)?zhí)?/td> | CN201710002096.9 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108269568B | 公開(公告)日 | 2021-07-30 |
申請(qǐng)公布號(hào) | CN108269568B | 申請(qǐng)公布日 | 2021-07-30 |
分類號(hào) | G10L15/14(2006.01)I;G10L15/16(2006.01)I;G10L15/02(2006.01)I | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 張鵬遠(yuǎn);王智超;潘接林;顏永紅 | 申請(qǐng)(專利權(quán))人 | 北京中科信利技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京方安思達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王宇楊;楊青 |
地址 | 100190北京市海淀區(qū)北四環(huán)西路21號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于CTC的聲學(xué)模型訓(xùn)練的方法,該方法包括:步驟1、訓(xùn)練一個(gè)初始的GMM模型,用該GMM模型對(duì)訓(xùn)練數(shù)據(jù)的文本標(biāo)注進(jìn)行時(shí)間點(diǎn)強(qiáng)制對(duì)齊,得到每個(gè)音素所對(duì)應(yīng)的時(shí)間區(qū)域;步驟2、在每個(gè)音素后插入一個(gè)與該音素相關(guān)的“空白”符號(hào),每個(gè)音素?fù)碛幸粋€(gè)特有的“空白”符號(hào);步驟3、采用有限狀態(tài)機(jī),對(duì)加入“空白”符號(hào)后的音素標(biāo)注序列構(gòu)建一個(gè)CTC前后向計(jì)算的搜索路徑圖;步驟4、根據(jù)時(shí)間對(duì)齊結(jié)果,對(duì)每個(gè)音素出現(xiàn)的時(shí)間范圍進(jìn)行限制,并對(duì)該搜索路徑圖進(jìn)行剪枝,將音素位置超出時(shí)間限制的路徑減掉,得到最終CTC計(jì)算網(wǎng)絡(luò)誤差時(shí)所需的搜索路徑圖;步驟5、采用延時(shí)神經(jīng)網(wǎng)絡(luò)(Time?delay Neural Network,TDNN)結(jié)構(gòu)結(jié)合CTC方法進(jìn)行聲學(xué)模型訓(xùn)練,得到最終的TDNN?CTC聲學(xué)模型。 |
