一種音色克隆方法、系統(tǒng)、裝置及計算機可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202110408975.8 | 申請日 | - |
公開(公告)號 | CN112992162A | 公開(公告)日 | 2021-06-18 |
申請公布號 | CN112992162A | 申請公布日 | 2021-06-18 |
分類號 | G10L19/16;G10L25/30 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 黃一鳴;李一夫;陳哲乾 | 申請(專利權(quán))人 | 杭州一知智能科技有限公司 |
代理機構(gòu) | 杭州智財黑馬知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張勇 |
地址 | 311215 浙江省杭州市蕭山區(qū)蕭山經(jīng)濟(jì)技術(shù)開發(fā)區(qū)啟迪路198號F座7層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種音色克隆方法、系統(tǒng)、裝置及計算機可讀存儲介質(zhì),方法包括以下步驟:制作多說話人數(shù)據(jù)集并處理;訓(xùn)練對齊模型;制作目標(biāo)說話人數(shù)據(jù)集并處理;訓(xùn)練多說話人語音合成模型;訓(xùn)練多說話人聲碼器模型;獲取具有目標(biāo)說話人音色的目標(biāo)人語音合成模型;將待合成文本輸入至目標(biāo)人語音合成模型完成語音合成。本發(fā)明的有益效果是:目標(biāo)說話人的風(fēng)格和音色能夠被更好的學(xué)習(xí);可以通過指定韻律標(biāo)簽的方式來指定韻律節(jié)奏;使用時長預(yù)測模型來進(jìn)行發(fā)音序列與頻譜序列的對齊,加快語音生成的推理速度;在解碼階段添加音高和能量的預(yù)測和編碼,目標(biāo)人語音合成模型添加了音高和能量的預(yù)測與編碼,有效的提高語音合成的效果。 |
