一種音色分類方法、裝置、設備和介質(zhì)
基本信息
申請?zhí)?/td> | CN202011565974.6 | 申請日 | - |
公開(公告)號 | CN112712820A | 公開(公告)日 | 2021-04-27 |
申請公布號 | CN112712820A | 申請公布日 | 2021-04-27 |
分類號 | G10L25/24;G10L25/51;G10L25/30;G06K9/62;G06K9/46;G06N3/04;G06N3/08 | 分類 | 樂器;聲學; |
發(fā)明人 | 汪暾;馬金龍;熊佳;羅簫;焦南凱;徐志堅;謝睿;陳光堯 | 申請(專利權(quán))人 | 廣州歡城文化傳媒有限公司 |
代理機構(gòu) | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人 | 王寶筠 |
地址 | 510000 廣東省廣州市天河區(qū)黃埔大道西122號之二1901房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了一種音色分類方法、裝置、設備和介質(zhì),方法包括:獲取待分類音頻文件;提取待分類音頻文件的第一特征參數(shù)和第二特征參數(shù);對待分類音頻文件的第一特征參數(shù)和第二特征參數(shù)進行特征融合,并將融合后得到的特征參數(shù)轉(zhuǎn)換為圖像,得到待分類圖像;將待分類圖像輸入到預置卷積神經(jīng)網(wǎng)絡模型進行音色分類,輸出待分類音頻文件的音色分類結(jié)果。本申請解決了現(xiàn)有技術(shù)通過提取單一特征參數(shù)進行音色分類,存在對于某一特定的音色分類任務,很難通過單一特征參數(shù)對不同類別音色進行有效區(qū)分,以及面對語調(diào)語速發(fā)生變化或者出現(xiàn)噪音干擾時,容易發(fā)生誤分類的情況,導致音色分類準確率較低的技術(shù)問題。 |
