語音合成數(shù)據(jù)的質(zhì)檢方法以及裝置
基本信息
申請?zhí)?/td> | CN202110562516.5 | 申請日 | - |
公開(公告)號 | CN113035236A | 公開(公告)日 | 2021-06-25 |
申請公布號 | CN113035236A | 申請公布日 | 2021-06-25 |
分類號 | G10L25/51;G10L15/26;G10L15/16;G10L13/02 | 分類 | 樂器;聲學; |
發(fā)明人 | 張晴晴;朱冬;張雪璐;賈艷明 | 申請(專利權(quán))人 | 北京愛數(shù)智慧科技有限公司 |
代理機構(gòu) | 北京智沃律師事務(wù)所 | 代理人 | 吳志宏 |
地址 | 100088 北京市海淀區(qū)北三環(huán)中路44號4號樓4層411 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了一種語音合成數(shù)據(jù)的質(zhì)檢方法以及裝置,屬于語音合成領(lǐng)域,質(zhì)檢方法包括:根據(jù)原始文本,使用不同的語音合成方式合成多條目標音頻;通過ASR模型對多條目標音頻進行識別,得到各自的識別文本;在識別文本與原始文本不一致的情況下,判斷識別文本對應(yīng)的目標音頻不合格;在識別文本與原始文本一致的情況下,判斷識別文本對應(yīng)的目標音頻初步合格;通過端到端的判別模型輸出每個初步合格的目標音頻的對齊后的音素的概率值;根據(jù)音素的概率值進行音素的發(fā)音打分;通過回歸模型將音素的得分轉(zhuǎn)化為相應(yīng)的句子的得分;在句子的得分高于閾值的情況下,判斷句子對應(yīng)的目標音頻合格,并將得分最高的句子對應(yīng)的目標音頻判斷為最佳音頻。 |
