基于解耦譯碼的視頻字幕生成方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202110967808.7 申請日 -
公開(公告)號 CN113423004A 公開(公告)日 2021-09-21
申請公布號 CN113423004A 申請公布日 2021-09-21
分類號 H04N21/435(2011.01)I;H04N21/44(2011.01)I;H04N21/488(2011.01)I;G06K9/00(2006.01)I 分類 電通信技術(shù);
發(fā)明人 張?zhí)祚?趙洲 申請(專利權(quán))人 杭州一知智能科技有限公司
代理機(jī)構(gòu) 杭州求是專利事務(wù)所有限公司 代理人 鄭海峰
地址 311200浙江省杭州市蕭山區(qū)啟迪路198號杭州灣信息港F座7樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于解耦譯碼的視頻字幕生成方法和系統(tǒng),屬于視頻字幕生成領(lǐng)域。1)獲取視頻的三種模態(tài)特征,在每一種模態(tài)特征的開頭添加“[CLS]”標(biāo)記;2)利用一個(gè)三通道跨模態(tài)編碼器分別對三種模態(tài)特征進(jìn)行編碼;將所有編碼塊的輸出結(jié)合在一起作為最終輸出,并在最終輸出結(jié)果中引入重構(gòu)約束;3)從編碼后的模態(tài)特征序列的首位“[CLS]”標(biāo)記提取到三種模態(tài)的全局特征,結(jié)合歷史預(yù)測詞序列獲得細(xì)粒度三階張量,解耦三階張量得到每種模態(tài)下的注意權(quán)重;將編碼器輸出的三種編碼后的模態(tài)特征與對應(yīng)模態(tài)下的注意權(quán)重的乘積作為語境序列特征,引入到解碼器的解碼過程中,生成新的預(yù)測詞。