一種基于深度學(xué)習(xí)雙模型的語(yǔ)音連續(xù)事件提取方法

基本信息

申請(qǐng)?zhí)?/td> CN202111071939.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113870866A 公開(kāi)(公告)日 2021-12-31
申請(qǐng)公布號(hào) CN113870866A 申請(qǐng)公布日 2021-12-31
分類(lèi)號(hào) G10L17/10(2013.01)I;G10L17/04(2013.01)I;G10L17/02(2013.01)I;G10L17/14(2013.01)I;G10L17/18(2013.01)I 分類(lèi) 樂(lè)器;聲學(xué);
發(fā)明人 王圣川;王珂;景亮;陽(yáng)承毅;張俊 申請(qǐng)(專利權(quán))人 電信科學(xué)技術(shù)第五研究所有限公司
代理機(jī)構(gòu) 成都九鼎天元知識(shí)產(chǎn)權(quán)代理有限公司 代理人 徐靜
地址 610021四川省成都市錦江區(qū)大慈寺路22號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于深度學(xué)習(xí)雙模型的語(yǔ)音連續(xù)事件提取方法,包括:對(duì)用于訓(xùn)練的語(yǔ)音信號(hào)文件進(jìn)行相應(yīng)的預(yù)處理分別得到VOC格式數(shù)據(jù)集和三元組數(shù)據(jù)集;采用VOC格式數(shù)據(jù)集訓(xùn)練YOLOV3深度學(xué)習(xí)模型;采用三元組數(shù)據(jù)集訓(xùn)練構(gòu)建的深度學(xué)習(xí)人聲分類(lèi)網(wǎng)絡(luò)模型;利用訓(xùn)練好的YOLOV3深度學(xué)習(xí)模型和深度學(xué)習(xí)人聲分類(lèi)網(wǎng)絡(luò)模型對(duì)待預(yù)測(cè)語(yǔ)音信號(hào)文件進(jìn)行預(yù)測(cè)得到特征向量;利用特征向量判斷對(duì)應(yīng)的語(yǔ)音事件是否是相同人聲,并合并相同人聲的語(yǔ)音事件后從原始的待預(yù)測(cè)語(yǔ)音信號(hào)文件中提取語(yǔ)音事件。本發(fā)明通過(guò)深度學(xué)習(xí)雙模型的方式提取語(yǔ)音事件,抗噪聲能力強(qiáng),靈敏度高,即使在語(yǔ)音信號(hào)較弱的情況下效果依然顯著。