語音轉(zhuǎn)換方法、裝置和系統(tǒng)及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202011609526.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112750445A | 公開(公告)日 | 2021-05-04 |
申請(qǐng)公布號(hào) | CN112750445A | 申請(qǐng)公布日 | 2021-05-04 |
分類號(hào) | G10L21/013;G10L25/27;G10L15/20 | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 武劍桃;李秀林 | 申請(qǐng)(專利權(quán))人 | 標(biāo)貝(北京)科技有限公司 |
代理機(jī)構(gòu) | 北京睿邦知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 徐丁峰;戴亞南 |
地址 | 100192 北京市海淀區(qū)西小口路66號(hào)中關(guān)村東升科技園·北領(lǐng)地B-2號(hào)樓2層A203A(東升地區(qū)) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種語音轉(zhuǎn)換方法、裝置和系統(tǒng)及存儲(chǔ)介質(zhì)。方法包括:獲取源說話者的源語音;對(duì)源語音進(jìn)行特征提?。粚⒃凑f話者的聲學(xué)特征輸入語音識(shí)別模型,以獲得PPG;從PPG中檢測(cè)概率分布存在問題的至少一個(gè)時(shí)間幀集,每個(gè)時(shí)間幀集包括多個(gè)連續(xù)的時(shí)間幀,概率分布存在問題的時(shí)間幀集是指該時(shí)間幀集中的所有時(shí)間幀所對(duì)應(yīng)的預(yù)測(cè)語音類別的一致性不滿足預(yù)設(shè)要求,預(yù)測(cè)語音類別是對(duì)應(yīng)時(shí)間幀下后驗(yàn)概率最大的語音類別;對(duì)至少一個(gè)時(shí)間幀集所對(duì)應(yīng)的后驗(yàn)概率向量進(jìn)行修正;將經(jīng)修正的PPG輸入特征轉(zhuǎn)換模型,以獲得目標(biāo)說話者的聲學(xué)特征;基于目標(biāo)說話者的聲學(xué)特征進(jìn)行語音合成。修正PPG中概率分布異常進(jìn)而導(dǎo)致所識(shí)別的語音內(nèi)容有誤的部分,提升語音轉(zhuǎn)換的效果。 |
