一種基于聲學后驗概率的任意說話人語音轉換系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN202011057900.1 申請日 -
公開(公告)號 CN112634918A 公開(公告)日 2021-04-09
申請公布號 CN112634918A 申請公布日 2021-04-09
分類號 G10L21/013;G10L15/06;G10L13/02;G10L19/16 分類 樂器;聲學;
發(fā)明人 宋丹丹;歐陽鵬;尹首一 申請(專利權)人 江蘇清微智能科技有限公司
代理機構 北京索睿邦知識產權代理有限公司 代理人 李根
地址 211100 江蘇省南京市江寧區(qū)麒麟科技創(chuàng)新園創(chuàng)研路266號人工智能產業(yè)園8號樓3層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種基于聲學后驗概率的任意說話人語音轉換系統(tǒng)及方法,屬于基于深度學習的語音轉換的技術技術領域。包括:一個語音識別模型、一個多說話人數據集、一個語音轉換模型、一個目標說話人數據集和一個LPCNet聲碼器;預訓練一個語音轉換模型,自適應訓練所述語音轉換模型,通過LPCNet聲碼器完成所述聲學特征到目標說話人對應轉換語音的合成。本發(fā)明解決了現有技術中語音轉換只能完成特定說話人之間且質量較低的問題。