一種字幕生成方法和裝置

基本信息

申請?zhí)?/td> CN202111142783.3 申請日 -
公開(公告)號 CN113660537A 公開(公告)日 2021-11-16
申請公布號 CN113660537A 申請公布日 2021-11-16
分類號 H04N21/488(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/00(2006.01)I 分類 電通信技術(shù);
發(fā)明人 殷元江;高發(fā)寶;徐立 申請(專利權(quán))人 北京七維視覺科技有限公司
代理機構(gòu) 北京集佳知識產(chǎn)權(quán)代理有限公司 代理人 付麗
地址 100013北京市東城區(qū)和平里東街11號3號樓2-A1號
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┝艘环N字幕生成方法和裝置,其中,方法包括:檢測目標視頻中所包含人物的狀態(tài)和/或目標視頻的音頻波形幅值,根據(jù)目標視頻中所包含人物的狀態(tài)和/或目標視頻的音頻波形幅值,判斷目標視頻中是否有在說話的目標人物,若判定目標視頻中有在說話的目標人物,則開始獲取目標視頻的語音識別結(jié)果,直至根據(jù)目標人物的狀態(tài)和/或目標視頻的音頻波形幅值判定目標人物不再說話,最后根據(jù)獲取的語音識別結(jié)果生成目標人物對應(yīng)的字幕信息。本申請能夠基于目標視頻中所包含人物的狀態(tài)和/或目標視頻的音頻波形幅值,生成目標視頻所包含的各個人物分別對應(yīng)的字幕信息,生成的字幕信息效果更好。