基于有監(jiān)督機(jī)器學(xué)習(xí)的語音端點(diǎn)檢測方法及裝置

基本信息

申請?zhí)?/td> CN201710957669.3 申請日 -
公開(公告)號(hào) CN107799126A 公開(公告)日 2018-03-13
申請公布號(hào) CN107799126A 申請公布日 2018-03-13
分類號(hào) G10L25/87;G10L15/04 分類 樂器;聲學(xué);
發(fā)明人 宋亞楠;邱楠;王昊奮 申請(專利權(quán))人 上海瓦歌智能科技有限公司
代理機(jī)構(gòu) 北京酷愛智慧知識(shí)產(chǎn)權(quán)代理有限公司 代理人 安娜
地址 215000 江蘇省蘇州市姑蘇區(qū)人民路239號(hào)39幢301室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于有監(jiān)督機(jī)器學(xué)習(xí)的語音端點(diǎn)檢測方法及裝置,所述方法包括:從獲取的音頻中檢測出靜音段、過度段和結(jié)束段;將靜音段和結(jié)束段輸入預(yù)先構(gòu)建的背景噪聲模型,識(shí)別所述音頻所屬的當(dāng)前場景;將待識(shí)別語音段用向量表示,其中,待識(shí)別語音段為除去所述靜音段、所述過度段和所述結(jié)束段的音頻;將識(shí)別的所述當(dāng)前場景和向量化后的待識(shí)別語音段輸入預(yù)先構(gòu)建的RNN模型,識(shí)別語音端點(diǎn),其中,語音端點(diǎn)包括語音段的起始點(diǎn)、語音段的終點(diǎn)。本發(fā)明提供的一種基于有監(jiān)督機(jī)器學(xué)習(xí)的語音端點(diǎn)檢測方法及裝置,通過判斷當(dāng)前所處的場景,將場景作為RNN模型的輸入?yún)?shù)之一,提升RNN模型的判斷的準(zhǔn)確性,提高了語音端點(diǎn)檢測的準(zhǔn)確性和效率。