一種基于姿態(tài)傳感器的語音活動(dòng)檢測(cè)方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110646290.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113327589A | 公開(公告)日 | 2021-08-31 |
申請(qǐng)公布號(hào) | CN113327589A | 申請(qǐng)公布日 | 2021-08-31 |
分類號(hào) | G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/16(2006.01)I;G10L15/24(2013.01)I;G10L19/02(2013.01)I;G10L21/0232(2013.01)I;G10L25/18(2013.01)I | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 王蒙;胡奎;姜黎 | 申請(qǐng)(專利權(quán))人 | 杭州芯聲智能科技有限公司 |
代理機(jī)構(gòu) | 成都知都云專利代理事務(wù)所(普通合伙) | 代理人 | 趙正寅 |
地址 | 310000浙江省杭州市杭州經(jīng)濟(jì)技術(shù)開發(fā)區(qū)白楊街道科技園路20號(hào)14幢3層02室-15 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供的一種基于姿態(tài)傳感器的語音活動(dòng)檢測(cè)方法,涉及人機(jī)交互技術(shù)領(lǐng)域。本發(fā)明通過將姿態(tài)特征數(shù)據(jù)與聲音特征數(shù)據(jù)進(jìn)行特征拼接,得到混合特征數(shù)據(jù);通過混合特征數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,能實(shí)現(xiàn)在不同姿態(tài)下對(duì)語音活動(dòng)進(jìn)行準(zhǔn)確檢測(cè),解決了用戶姿態(tài)會(huì)影響語音活動(dòng)檢測(cè)準(zhǔn)確度的問題;通過量化壓縮方法中的三值量化方法對(duì)訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)量進(jìn)行量化壓縮,將32bit浮點(diǎn)型權(quán)值量化為2bit定點(diǎn)型權(quán)值,進(jìn)一步減少其占用內(nèi)存大小的同時(shí)還極大地減小了對(duì)于計(jì)算空間和時(shí)間的消耗;使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型來構(gòu)建前后幀的數(shù)據(jù)聯(lián)系,以提高模型效果;且循環(huán)神經(jīng)網(wǎng)絡(luò)模型參數(shù)量較少,進(jìn)一步減少其占用內(nèi)存大小。 |
