基于有監(jiān)督機(jī)器學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè)方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201710957669.3 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107799126B | 公開(kāi)(公告)日 | 2018-03-13 |
申請(qǐng)公布號(hào) | CN107799126B | 申請(qǐng)公布日 | 2018-03-13 |
分類號(hào) | G10L25/87(2013.01)I;G10L15/04(2013.01)I | 分類 | 樂(lè)器;聲學(xué); |
發(fā)明人 | 宋亞楠;邱楠;王昊奮 | 申請(qǐng)(專利權(quán))人 | 上海瓦歌智能科技有限公司 |
代理機(jī)構(gòu) | 北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 安娜 |
地址 | 215000 江蘇省蘇州市姑蘇區(qū)人民路239號(hào)39幢301室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于有監(jiān)督機(jī)器學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè)方法及裝置,所述方法包括:從獲取的音頻中檢測(cè)出靜音段、過(guò)度段和結(jié)束段;將靜音段和結(jié)束段輸入預(yù)先構(gòu)建的背景噪聲模型,識(shí)別所述音頻所屬的當(dāng)前場(chǎng)景;將待識(shí)別語(yǔ)音段用向量表示,其中,待識(shí)別語(yǔ)音段為除去所述靜音段、所述過(guò)度段和所述結(jié)束段的音頻;將識(shí)別的所述當(dāng)前場(chǎng)景和向量化后的待識(shí)別語(yǔ)音段輸入預(yù)先構(gòu)建的RNN模型,識(shí)別語(yǔ)音端點(diǎn),其中,語(yǔ)音端點(diǎn)包括語(yǔ)音段的起始點(diǎn)、語(yǔ)音段的終點(diǎn)。本發(fā)明提供的一種基于有監(jiān)督機(jī)器學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè)方法及裝置,通過(guò)判斷當(dāng)前所處的場(chǎng)景,將場(chǎng)景作為RNN模型的輸入?yún)?shù)之一,提升RNN模型的判斷的準(zhǔn)確性,提高了語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性和效率。?? |
