一種提高語(yǔ)音合成自然度的方法

基本信息

申請(qǐng)?zhí)?/td> CN202110906779.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113488021A 公開(kāi)(公告)日 2021-10-08
申請(qǐng)公布號(hào) CN113488021A 申請(qǐng)公布日 2021-10-08
分類號(hào) G10L13/02;G10L13/08 分類 樂(lè)器;聲學(xué);
發(fā)明人 盛樂(lè)園 申請(qǐng)(專利權(quán))人 杭州小影創(chuàng)新科技股份有限公司
代理機(jī)構(gòu) 杭州中港知識(shí)產(chǎn)權(quán)代理有限公司 代理人 張曉紅
地址 310000 浙江省杭州市西湖區(qū)文三路478號(hào)華星時(shí)代廣場(chǎng)A座22層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種提高語(yǔ)音合成自然度的方法。它包括如下步驟:將文本通過(guò)字形到音素的工具得到與文本對(duì)應(yīng)的音素,所有的音素組成一個(gè)音素字典,音素字典的個(gè)數(shù)作為嵌入層的維度,對(duì)文本的音素進(jìn)行表征,由CBHG模塊對(duì)表征的特征進(jìn)行編碼;將文本編碼的結(jié)果作為輸入,對(duì)每個(gè)音素的持續(xù)時(shí)間進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與真實(shí)的標(biāo)簽作比對(duì),對(duì)時(shí)長(zhǎng)模型進(jìn)行優(yōu)化;將經(jīng)過(guò)時(shí)長(zhǎng)模型擴(kuò)充后的特征進(jìn)行解碼,解碼出的結(jié)果組合成一個(gè)復(fù)數(shù)的特征,解碼出的復(fù)數(shù)特征經(jīng)原始音頻中短時(shí)傅里葉逆變換,還原為語(yǔ)音波形。本發(fā)明的有益效果是:可以降低模型的復(fù)雜度,減少計(jì)算量,節(jié)約計(jì)算及部署成本;提高合成語(yǔ)音的自然度,發(fā)音更加像真人。