語音轉(zhuǎn)換方法、裝置和系統(tǒng)及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011609526.1 申請日 -
公開(公告)號 CN112750445A 公開(公告)日 2021-05-04
申請公布號 CN112750445A 申請公布日 2021-05-04
分類號 G10L21/013;G10L25/27;G10L15/20 分類 樂器;聲學(xué);
發(fā)明人 武劍桃;李秀林 申請(專利權(quán))人 標(biāo)貝(北京)科技有限公司
代理機構(gòu) 北京睿邦知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 徐丁峰;戴亞南
地址 100192 北京市海淀區(qū)西小口路66號中關(guān)村東升科技園·北領(lǐng)地B-2號樓2層A203A(東升地區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種語音轉(zhuǎn)換方法、裝置和系統(tǒng)及存儲介質(zhì)。方法包括:獲取源說話者的源語音;對源語音進行特征提?。粚⒃凑f話者的聲學(xué)特征輸入語音識別模型,以獲得PPG;從PPG中檢測概率分布存在問題的至少一個時間幀集,每個時間幀集包括多個連續(xù)的時間幀,概率分布存在問題的時間幀集是指該時間幀集中的所有時間幀所對應(yīng)的預(yù)測語音類別的一致性不滿足預(yù)設(shè)要求,預(yù)測語音類別是對應(yīng)時間幀下后驗概率最大的語音類別;對至少一個時間幀集所對應(yīng)的后驗概率向量進行修正;將經(jīng)修正的PPG輸入特征轉(zhuǎn)換模型,以獲得目標(biāo)說話者的聲學(xué)特征;基于目標(biāo)說話者的聲學(xué)特征進行語音合成。修正PPG中概率分布異常進而導(dǎo)致所識別的語音內(nèi)容有誤的部分,提升語音轉(zhuǎn)換的效果。