人聲激活檢測方法、裝置、計算機設備和存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202110425564.X | 申請日 | - |
公開(公告)號 | CN113113001A | 公開(公告)日 | 2021-07-13 |
申請公布號 | CN113113001A | 申請公布日 | 2021-07-13 |
分類號 | G10L15/16(2006.01)I;G10L21/0272(2013.01)I | 分類 | 樂器;聲學; |
發(fā)明人 | 徐泓洋;王廣新;楊漢丹 | 申請(專利權)人 | 深圳市友杰智新科技有限公司 |
代理機構 | 深圳市明日今典知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 王杰輝;曹勇 |
地址 | 518000廣東省深圳市南山區(qū)招商街道蛇口南海大道1079號花園城數(shù)碼大廈A座402 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N人聲激活檢測方法、裝置、計算機設備和存儲介質(zhì),其中方法包括:實時采集語音數(shù)據(jù);提取所述語音數(shù)據(jù)中每一幀音頻數(shù)據(jù)對應的語音特征向量;依序?qū)㈩A設幀音頻數(shù)據(jù)對應的語音特征向量輸入至預設的人聲激活檢測模型中;其中,所述預設的人聲激活檢測模型基于時延神經(jīng)網(wǎng)絡訓練得到,輸入的所述預設幀音頻數(shù)據(jù)對應的語音特征向量包括當前幀及其上下文的多幀音頻數(shù)據(jù)分別對應的語音特征向量;基于所述人聲激活檢測模型,檢測所述預設幀音頻數(shù)據(jù)中是否包括人聲。本申請基于時延神經(jīng)網(wǎng)絡訓練得到的人聲激活檢測模型檢測人聲,不僅檢測速度快,且模型結合了當前幀及其上下文的語音,檢測效果好。 |
