一種生成視頻字幕的方法、裝置、電子設備和存儲介質

基本信息

申請?zhí)?/td> CN202110616946.0 申請日 -
公開(公告)號 CN113365109A 公開(公告)日 2021-09-07
申請公布號 CN113365109A 申請公布日 2021-09-07
分類號 H04N21/2343(2011.01)I;H04N21/4402(2011.01)I;H04N21/488(2011.01)I;H04N21/8547(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/34(2006.01)I 分類 電通信技術;
發(fā)明人 蔣瑩;范紅亮;梁家恩 申請(專利權)人 深圳云知聲信息技術有限公司
代理機構 - 代理人 -
地址 518057廣東省深圳市南山區(qū)西麗街道朗山路11號同方信息港C棟6A
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及生成視頻字幕的方法、裝置、電子設備和存儲介質,該方法包括:獲取需要生成視頻字幕的視頻和音頻流;識別視頻的圖片流中每一幀圖片的目標區(qū)域的文本信息;根據(jù)文本信息識別音頻流得到語音識別結果和對應的時間戳;根據(jù)語音識別結果、時間戳和圖片幀數(shù)生成視頻字幕。本申請實施例中通過從視頻圖片流中的目標區(qū)域提取文本信息,即先利用圖像識別技術確定目標區(qū)域,后確定目標區(qū)域的文本信息,可降低其他文字信息對于用戶話術焦點的干擾,為自動語音識別提供實時、準確的語言信息,能夠實現(xiàn)快速定位當前談話主題,從而提升語音識別準確率,另外基于音頻流確定的語音識別結果和時間戳,可以實時生成視頻字幕,因此能夠大大提升視頻字幕的準確率,改善用戶體驗。