一種音色克隆方法、系統(tǒng)、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110408975.8 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112992162B 公開(kāi)(公告)日 2021-08-20
申請(qǐng)公布號(hào) CN112992162B 申請(qǐng)公布日 2021-08-20
分類(lèi)號(hào) G10L19/16(2013.01)I;G10L25/30(2013.01)I 分類(lèi) 樂(lè)器;聲學(xué);
發(fā)明人 黃一鳴;李一夫;陳哲乾 申請(qǐng)(專(zhuān)利權(quán))人 杭州一知智能科技有限公司
代理機(jī)構(gòu) 杭州智財(cái)黑馬知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張勇
地址 311215浙江省杭州市蕭山區(qū)蕭山經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)啟迪路198號(hào)F座7層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種音色克隆方法、系統(tǒng)、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),方法包括以下步驟:制作多說(shuō)話人數(shù)據(jù)集并處理;訓(xùn)練對(duì)齊模型;制作目標(biāo)說(shuō)話人數(shù)據(jù)集并處理;訓(xùn)練多說(shuō)話人語(yǔ)音合成模型;訓(xùn)練多說(shuō)話人聲碼器模型;獲取具有目標(biāo)說(shuō)話人音色的目標(biāo)人語(yǔ)音合成模型;將待合成文本輸入至目標(biāo)人語(yǔ)音合成模型完成語(yǔ)音合成。本發(fā)明的有益效果是:目標(biāo)說(shuō)話人的風(fēng)格和音色能夠被更好的學(xué)習(xí);可以通過(guò)指定韻律標(biāo)簽的方式來(lái)指定韻律節(jié)奏;使用時(shí)長(zhǎng)預(yù)測(cè)模型來(lái)進(jìn)行發(fā)音序列與頻譜序列的對(duì)齊,加快語(yǔ)音生成的推理速度;在解碼階段添加音高和能量的預(yù)測(cè)和編碼,目標(biāo)人語(yǔ)音合成模型添加了音高和能量的預(yù)測(cè)與編碼,有效的提高語(yǔ)音合成的效果。