一種用于音視頻人物的命名方法及相關(guān)裝置

基本信息

申請?zhí)?/td> CN202110604453.5 申請日 -
公開(公告)號 CN113362832A 公開(公告)日 2021-09-07
申請公布號 CN113362832A 申請公布日 2021-09-07
分類號 G10L17/08(2013.01)I;G10L15/26(2006.01)I;G10L15/25(2013.01)I;G06K9/00(2006.01)I 分類 樂器;聲學(xué);
發(fā)明人 徐波 申請(專利權(quán))人 廣東利為網(wǎng)絡(luò)科技有限公司
代理機構(gòu) 北京集佳知識產(chǎn)權(quán)代理有限公司 代理人 劉曉娟
地址 510000廣東省廣州市蘿崗區(qū)伴河路90號自編一棟305房
法律狀態(tài) -

摘要

摘要 本申請公開了一種用于音視頻人物的命名方法及相關(guān)裝置,方法包括:對獲取的音視頻進行分離處理,得到音頻數(shù)據(jù)和視頻數(shù)據(jù);對音頻數(shù)據(jù)進行人聲語音檢測,得到若干語音片段,并對視頻數(shù)據(jù)依次進行人臉跟蹤和人臉識別,得到若干攜帶有人臉身份信息的人臉視頻片段;基于各語音片段的聲紋特征對各語音片段添加初始人物名稱,并將各語音片段的初始人物名稱關(guān)聯(lián)到對應(yīng)的人臉視頻片段;對各語音片段進行語音識別,得到語音文本信息,對人臉視頻片段進行唇語識別,得到唇語文本信息;根據(jù)語音文本信息、唇語文本信息和人臉身份信息對人臉視頻片段關(guān)聯(lián)的初始人物名稱進行修正,得到修正后人物名稱,改善了現(xiàn)有的命名方法存在的準確性低的技術(shù)問題。