多模態(tài)語音喚醒方法、裝置及計算機可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202210098130.8 申請日 -
公開(公告)號 CN114220420A 公開(公告)日 2022-03-22
申請公布號 CN114220420A 申請公布日 2022-03-22
分類號 G10L15/02(2006.01)I;G10L15/22(2006.01)I;G10L15/25(2013.01)I 分類 樂器;聲學;
發(fā)明人 俞瑞華;陳鋮彬;郭永利;柳文斌 申請(專利權(quán))人 廣汽豐田汽車有限公司
代理機構(gòu) 深圳市世紀恒程知識產(chǎn)權(quán)代理事務所 代理人 王徑武
地址 510000廣東省廣州市南沙區(qū)黃閣鎮(zhèn)市南大道8號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種多模態(tài)語音喚醒方法、裝置及計算機可讀存儲介質(zhì),所述多模態(tài)語音喚醒方法包括以下步驟:獲取用戶的臉部圖像特征,獲取來自用戶的語音信息;基于所述臉部圖像特征或語音信息,判斷所述用戶是否有語音交互意圖;若所述臉部圖像特征和語音信息中的任一項滿足預設交互條件,則判定所述用戶有語音交互意圖,并喚醒預設語音助手。通過實施本發(fā)明,能夠識別用戶的臉部圖像特征,結(jié)合用戶發(fā)出的語音信息,在收音環(huán)境嘈雜的情況下也能判斷出用戶是否有交互意圖,從而可以選擇是否喚醒語音助手,在人機交互的過程中減少了外界環(huán)境的干擾,增強了人機交互的體驗,保證了語音交互時的高喚醒率。