多模態(tài)語音喚醒方法、裝置及計算機可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202210098130.8 | 申請日 | - |
公開(公告)號 | CN114220420A | 公開(公告)日 | 2022-03-22 |
申請公布號 | CN114220420A | 申請公布日 | 2022-03-22 |
分類號 | G10L15/02(2006.01)I;G10L15/22(2006.01)I;G10L15/25(2013.01)I | 分類 | 樂器;聲學; |
發(fā)明人 | 俞瑞華;陳鋮彬;郭永利;柳文斌 | 申請(專利權(quán))人 | 廣汽豐田汽車有限公司 |
代理機構(gòu) | 深圳市世紀恒程知識產(chǎn)權(quán)代理事務所 | 代理人 | 王徑武 |
地址 | 510000廣東省廣州市南沙區(qū)黃閣鎮(zhèn)市南大道8號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種多模態(tài)語音喚醒方法、裝置及計算機可讀存儲介質(zhì),所述多模態(tài)語音喚醒方法包括以下步驟:獲取用戶的臉部圖像特征,獲取來自用戶的語音信息;基于所述臉部圖像特征或語音信息,判斷所述用戶是否有語音交互意圖;若所述臉部圖像特征和語音信息中的任一項滿足預設交互條件,則判定所述用戶有語音交互意圖,并喚醒預設語音助手。通過實施本發(fā)明,能夠識別用戶的臉部圖像特征,結(jié)合用戶發(fā)出的語音信息,在收音環(huán)境嘈雜的情況下也能判斷出用戶是否有交互意圖,從而可以選擇是否喚醒語音助手,在人機交互的過程中減少了外界環(huán)境的干擾,增強了人機交互的體驗,保證了語音交互時的高喚醒率。 |
