一種生成視頻字幕的方法、裝置、電子設備和存儲介質
基本信息
申請?zhí)?/td> | CN202110616946.0 | 申請日 | - |
公開(公告)號 | CN113365109A | 公開(公告)日 | 2021-09-07 |
申請公布號 | CN113365109A | 申請公布日 | 2021-09-07 |
分類號 | H04N21/2343(2011.01)I;H04N21/4402(2011.01)I;H04N21/488(2011.01)I;H04N21/8547(2011.01)I;G10L15/26(2006.01)I;G06K9/32(2006.01)I;G06K9/34(2006.01)I | 分類 | 電通信技術; |
發(fā)明人 | 蔣瑩;范紅亮;梁家恩 | 申請(專利權)人 | 深圳云知聲信息技術有限公司 |
代理機構 | - | 代理人 | - |
地址 | 518057廣東省深圳市南山區(qū)西麗街道朗山路11號同方信息港C棟6A | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及生成視頻字幕的方法、裝置、電子設備和存儲介質,該方法包括:獲取需要生成視頻字幕的視頻和音頻流;識別視頻的圖片流中每一幀圖片的目標區(qū)域的文本信息;根據(jù)文本信息識別音頻流得到語音識別結果和對應的時間戳;根據(jù)語音識別結果、時間戳和圖片幀數(shù)生成視頻字幕。本申請實施例中通過從視頻圖片流中的目標區(qū)域提取文本信息,即先利用圖像識別技術確定目標區(qū)域,后確定目標區(qū)域的文本信息,可降低其他文字信息對于用戶話術焦點的干擾,為自動語音識別提供實時、準確的語言信息,能夠實現(xiàn)快速定位當前談話主題,從而提升語音識別準確率,另外基于音頻流確定的語音識別結果和時間戳,可以實時生成視頻字幕,因此能夠大大提升視頻字幕的準確率,改善用戶體驗。 |
