基于有監(jiān)督機(jī)器學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè)方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201710957669.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107799126B 公開(kāi)(公告)日 2018-03-13
申請(qǐng)公布號(hào) CN107799126B 申請(qǐng)公布日 2018-03-13
分類號(hào) G10L25/87(2013.01)I;G10L15/04(2013.01)I 分類 樂(lè)器;聲學(xué);
發(fā)明人 宋亞楠;邱楠;王昊奮 申請(qǐng)(專利權(quán))人 上海瓦歌智能科技有限公司
代理機(jī)構(gòu) 北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理有限公司 代理人 安娜
地址 215000 江蘇省蘇州市姑蘇區(qū)人民路239號(hào)39幢301室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于有監(jiān)督機(jī)器學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè)方法及裝置,所述方法包括:從獲取的音頻中檢測(cè)出靜音段、過(guò)度段和結(jié)束段;將靜音段和結(jié)束段輸入預(yù)先構(gòu)建的背景噪聲模型,識(shí)別所述音頻所屬的當(dāng)前場(chǎng)景;將待識(shí)別語(yǔ)音段用向量表示,其中,待識(shí)別語(yǔ)音段為除去所述靜音段、所述過(guò)度段和所述結(jié)束段的音頻;將識(shí)別的所述當(dāng)前場(chǎng)景和向量化后的待識(shí)別語(yǔ)音段輸入預(yù)先構(gòu)建的RNN模型,識(shí)別語(yǔ)音端點(diǎn),其中,語(yǔ)音端點(diǎn)包括語(yǔ)音段的起始點(diǎn)、語(yǔ)音段的終點(diǎn)。本發(fā)明提供的一種基于有監(jiān)督機(jī)器學(xué)習(xí)的語(yǔ)音端點(diǎn)檢測(cè)方法及裝置,通過(guò)判斷當(dāng)前所處的場(chǎng)景,將場(chǎng)景作為RNN模型的輸入?yún)?shù)之一,提升RNN模型的判斷的準(zhǔn)確性,提高了語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性和效率。??