一種用于直播流實(shí)時(shí)生成字幕的方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202011072549.3 申請(qǐng)日 -
公開(公告)號(hào) CN112188241A 公開(公告)日 2021-01-05
申請(qǐng)公布號(hào) CN112188241A 申請(qǐng)公布日 2021-01-05
分類號(hào) H04N21/235(2011.01)I 分類 電通信技術(shù);
發(fā)明人 唐杰;王遙遠(yuǎn);李慶瑜;戴立言 申請(qǐng)(專利權(quán))人 上海網(wǎng)達(dá)軟件股份有限公司
代理機(jī)構(gòu) 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 代理人 上海網(wǎng)達(dá)軟件股份有限公司
地址 201206上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)川橋路409號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及音視頻直播技術(shù)領(lǐng)域,提供了一種用于直播流實(shí)時(shí)生成字幕的方法及系統(tǒng),其方法包括:對(duì)直播信源解碼得到視頻幀和音頻幀;建立AI語音翻譯引擎與轉(zhuǎn)碼引擎之間的通信;AI語音翻譯引擎向轉(zhuǎn)碼引擎獲取音頻幀,并對(duì)音頻幀實(shí)時(shí)翻譯,輸出翻譯內(nèi)容;轉(zhuǎn)碼引擎實(shí)時(shí)向AI語音翻譯引擎獲取翻譯內(nèi)容,通過將翻譯內(nèi)容使用通過包括將翻譯內(nèi)容燒入視頻幀中、將翻譯內(nèi)容填充打包成字幕幀在內(nèi)的任意一種方式與原始的視頻幀與音頻幀共同封裝輸出直播流。在直播時(shí)對(duì)音頻流進(jìn)行實(shí)時(shí)翻譯生成字幕,實(shí)現(xiàn)真正的字幕與音視頻同步,并同時(shí)輸出多國(guó)語言的字幕,同時(shí)滿足不同直播流推送協(xié)議的帶字幕直播流,并且滿足播放器自由選擇不同語言的字幕顯示。??