用于語音合成語料庫的建立方法、裝置、設備和介質(zhì)
基本信息
申請?zhí)?/td> | CN202110616148.8 | 申請日 | - |
公開(公告)號 | CN113362800A | 公開(公告)日 | 2021-09-07 |
申請公布號 | CN113362800A | 申請公布日 | 2021-09-07 |
分類號 | G10L13/02(2013.01)I;G10L13/04(2013.01)I;G10L15/26(2006.01)I | 分類 | 樂器;聲學; |
發(fā)明人 | 石強;孫見青;梁家恩 | 申請(專利權(quán))人 | 深圳云知聲信息技術有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 518057廣東省深圳市南山區(qū)西麗街道朗山路11號同方信息港C棟6A | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種用于語音合成語料庫的建立方法、裝置、設備和介質(zhì),該方法包括:獲取第一文本以及第一文本對應的語音數(shù)據(jù);切分語音數(shù)據(jù)得到分割語料;所述分割語料得到第二文本;對比第二文本和第一文本,篩選得到篩選文本;根據(jù)篩選文本確定篩選音頻;提取篩選音頻的基頻值;計算基頻值的均值和方差;聚類均值和方差得到聚類結(jié)果;根據(jù)聚類結(jié)果將篩選文本及其對應的語音數(shù)據(jù)分成k個語料庫。本申請實施例中采取先切分后識別的方式,可以提高文本識別準確率,并且將獲取得到的第一文本作為參考去除識別錯誤的情況;由于基頻與語音風格和音色具有強相關性,使用句子級的基頻均值方差進行分類,有效的保證類內(nèi)語音風格與音色的一致性。 |
