基于集成學習和卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境聲音識別方法

基本信息

申請?zhí)?/td> CN202011020706.6 申請日 -
公開(公告)號 CN112216287A 公開(公告)日 2021-01-12
申請公布號 CN112216287A 申請公布日 2021-01-12
分類號 G10L17/26;G10L25/45;G10L25/30;G10L25/18;G10L17/04;G06N3/04 分類 樂器;聲學;
發(fā)明人 陳俊;謝維;王震宇;郭宏成 申請(專利權(quán))人 江蘇聆世科技有限公司
代理機構(gòu) 南京鑫之航知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 汪慶朋
地址 211500 江蘇省南京市江北新區(qū)星火路17號創(chuàng)智大廈B座632室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于集成學習和卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境聲音識別方法,包括:S1、特征提取,對原始音頻進行分幀和加窗,利用梅爾濾波器組得到聲音的梅爾能量頻譜,最終得到最后的梅爾能量頻譜特征,作為數(shù)據(jù)集;S2、模型訓練,采用k折交叉驗證和使用mixup數(shù)據(jù)增強方法對于所述數(shù)據(jù)集進行模型訓練,得到K個卷積神經(jīng)網(wǎng)絡(luò)模型;S3、聲音測試,對待測聲音樣本通過卷積神經(jīng)網(wǎng)絡(luò)模型進行識別。本發(fā)明能夠利用k折交叉驗證訓練k個模型并結(jié)合k個模型進行聲音識別,大大增強了模型的泛化能力,有效緩解了過擬合的現(xiàn)象,此外針對數(shù)據(jù)量不大的情況,使用mixup數(shù)據(jù)增強對原始樣本進行混合以進一步增強模型的泛化能力。