用于語音合成語料庫的建立方法、裝置、設備和介質(zhì)

基本信息

申請?zhí)?/td> CN202110616148.8 申請日 -
公開(公告)號 CN113362800A 公開(公告)日 2021-09-07
申請公布號 CN113362800A 申請公布日 2021-09-07
分類號 G10L13/02(2013.01)I;G10L13/04(2013.01)I;G10L15/26(2006.01)I 分類 樂器;聲學;
發(fā)明人 石強;孫見青;梁家恩 申請(專利權(quán))人 深圳云知聲信息技術有限公司
代理機構(gòu) - 代理人 -
地址 518057廣東省深圳市南山區(qū)西麗街道朗山路11號同方信息港C棟6A
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種用于語音合成語料庫的建立方法、裝置、設備和介質(zhì),該方法包括:獲取第一文本以及第一文本對應的語音數(shù)據(jù);切分語音數(shù)據(jù)得到分割語料;所述分割語料得到第二文本;對比第二文本和第一文本,篩選得到篩選文本;根據(jù)篩選文本確定篩選音頻;提取篩選音頻的基頻值;計算基頻值的均值和方差;聚類均值和方差得到聚類結(jié)果;根據(jù)聚類結(jié)果將篩選文本及其對應的語音數(shù)據(jù)分成k個語料庫。本申請實施例中采取先切分后識別的方式,可以提高文本識別準確率,并且將獲取得到的第一文本作為參考去除識別錯誤的情況;由于基頻與語音風格和音色具有強相關性,使用句子級的基頻均值方差進行分類,有效的保證類內(nèi)語音風格與音色的一致性。