一種視頻字幕生成方法、系統(tǒng)、裝置和存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201911000368.7 | 申請日 | - |
公開(公告)號 | CN110933485A | 公開(公告)日 | 2020-03-27 |
申請公布號 | CN110933485A | 申請公布日 | 2020-03-27 |
分類號 | H04N21/439;H04N21/44;H04N21/4402;H04N21/488;G10L15/26 | 分類 | 電通信技術(shù); |
發(fā)明人 | 張金良 | 申請(專利權(quán))人 | 天脈聚源(杭州)傳媒科技有限公司 |
代理機(jī)構(gòu) | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 | 代理人 | 天脈聚源(杭州)傳媒科技有限公司 |
地址 | 310000 浙江省杭州市西湖區(qū)轉(zhuǎn)塘科技經(jīng)濟(jì)區(qū)塊16號3幢650室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種視頻字幕生成方法、系統(tǒng)、裝置和存儲介質(zhì),所述方法包括獲取視頻的畫面數(shù)據(jù)流和聲音數(shù)據(jù)流,對所述畫面數(shù)據(jù)流和聲音數(shù)據(jù)流均進(jìn)行相同的分段處理,分別對各所述聲音數(shù)據(jù)段進(jìn)行語音識別以及根據(jù)各所述文本段,分別在相應(yīng)的畫面數(shù)據(jù)段生成同步的字幕等步驟。本發(fā)明可以將視頻信號中的聲音數(shù)據(jù)流自動轉(zhuǎn)換成字幕,并疊加到畫面數(shù)據(jù)流,免去了現(xiàn)有技術(shù)中人工打字的過程,降低了使用成本和出錯率,而且具有很低的時延,減少對直播的影響;通過對畫面數(shù)據(jù)流和聲音數(shù)據(jù)流進(jìn)行分段處理,并對分段處理所得的多個聲音數(shù)據(jù)段同時進(jìn)行語音識別,可以成倍地提高語音識別的效率,進(jìn)一步降低時延。本發(fā)明廣泛應(yīng)用于計算機(jī)技術(shù)領(lǐng)域。 |
