語音合成的發(fā)音穩(wěn)定性評價方法、裝置和系統(tǒng)及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011451192.X | 申請日 | - |
公開(公告)號 | CN112397048A | 公開(公告)日 | 2021-02-23 |
申請公布號 | CN112397048A | 申請公布日 | 2021-02-23 |
分類號 | G10L13/02(2013.01)I; | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 黃志強;李秀林 | 申請(專利權(quán))人 | 標(biāo)貝(北京)科技有限公司 |
代理機構(gòu) | 北京睿邦知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 徐丁峰;戴亞南 |
地址 | 100192北京市海淀區(qū)西小口路66號中關(guān)村東升科技園·北領(lǐng)地B-2號樓2層A203A(東升地區(qū)) | ||
法律狀態(tài) | - |
摘要
摘要 | 提供一種語音合成的發(fā)音穩(wěn)定性評價方法、裝置和系統(tǒng)及存儲介質(zhì)。方法包括:獲取待合成文本的音子序列;將音子序列輸入語音合成模型進(jìn)行語音合成,以獲得注意力矩陣和用于表示合成語音的聲學(xué)參數(shù)序列,語音合成模型是基于注意力機制的序列到序列模型,聲學(xué)參數(shù)序列包括與合成語音所包括的n個語音幀集一一對應(yīng)相關(guān)的聲學(xué)參數(shù),n個語音幀集中的每個語音幀集包括多個語音幀,注意力矩陣用于表示音子序列與聲學(xué)參數(shù)序列之間的相關(guān)度,n是大于或等于1的整數(shù);基于注意力矩陣中的元素計算穩(wěn)定性評分,穩(wěn)定性評分用于反映音子序列與聲學(xué)參數(shù)序列之間的相關(guān)度相對于正常注意力矩陣中的相關(guān)度的偏離情況;基于穩(wěn)定性評分確定合成語音的發(fā)音穩(wěn)定性。?? |
