一種采用感知聽覺場景分析的缺失數(shù)據(jù)特征說話人識別方法

基本信息

申請?zhí)?/td> CN201610114968.6 申請日 -
公開(公告)號 CN106448680B 公開(公告)日 2019-11-12
申請公布號 CN106448680B 申請公布日 2019-11-12
分類號 G10L17/02(2013.01)I; G10L17/20(2013.01)I 分類 樂器;聲學(xué);
發(fā)明人 吳迪; 陶智; 趙鶴鳴; 張曉俊; 肖仲喆; 馮哲 申請(專利權(quán))人 常熟蘇大低碳應(yīng)用技術(shù)研究院有限公司
代理機構(gòu) 南京知識律師事務(wù)所 代理人 汪旭東
地址 215500 江蘇省蘇州市常熟市東南經(jīng)濟開發(fā)區(qū)東南大道68號1幢
法律狀態(tài) -

摘要

摘要 本發(fā)明針對現(xiàn)有的缺失數(shù)據(jù)特征方法在低信噪比環(huán)境下魯棒性較差的問題,提出了一種感知聽覺場景分析(Perception Auditory Scene Analysis,PASA)的MDF提取方法,進一步提高MDF方法的魯棒性。PASA方法解決了兩個關(guān)鍵問題。一,由oracle掩碼估計出的可靠語音并不完全正確,特別在低信噪比的情況下,噪聲的隨機特性導(dǎo)致很多噪聲特征譜被估計成語音特征譜。二,在低信噪比的情況下,缺失數(shù)據(jù)特征的方法在提取特征時,有一些語音的場景,被估計出的可靠部分很少,不可靠部分很多。這種語音幀的不可靠部分全部由補償?shù)闹荡?,由此估計出的特征譜的魯棒性較差。本發(fā)明解決了這兩個問題。