一種可將任意語音轉(zhuǎn)換成多個語音的轉(zhuǎn)換方法及裝置
基本信息
申請?zhí)?/td> | CN202111035937.9 | 申請日 | - |
公開(公告)號 | CN113470622A | 公開(公告)日 | 2021-10-01 |
申請公布號 | CN113470622A | 申請公布日 | 2021-10-01 |
分類號 | G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/16(2006.01)I | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 曹艷艷;陳佩云;高君效 | 申請(專利權(quán))人 | 成都啟英泰倫科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 610041四川省成都市高新區(qū)天府五街200號菁蓉匯4號樓A座12層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種可將任意語音轉(zhuǎn)換成多個語音的轉(zhuǎn)換方法及裝置,所述轉(zhuǎn)換方法包括以下步驟:準備多個目標發(fā)音人的語料作為訓(xùn)練語料;提取各個訓(xùn)練語料的ppg特征;得到綜合特征;獲取訓(xùn)練集里目標發(fā)音人的發(fā)音人編碼特征,得到均值模擬特征γ和方差模擬特征β;訓(xùn)練可將綜合特征轉(zhuǎn)為梅爾特征的轉(zhuǎn)換模型;均值模擬特征γ和方差模擬特征β作為轉(zhuǎn)換模型風(fēng)格輸入,綜合特征作為轉(zhuǎn)換模型內(nèi)容輸入,解碼出不同發(fā)音人的梅爾頻譜,實現(xiàn)不同聲音的合成。本發(fā)明能夠更好的解耦出說話內(nèi)容信息,降低語音識別模型提取的ppg特征不準確對語音轉(zhuǎn)換的影響。 |
