基于解耦譯碼的視頻字幕生成方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110967808.7 | 申請日 | - |
公開(公告)號 | CN113423004A | 公開(公告)日 | 2021-09-21 |
申請公布號 | CN113423004A | 申請公布日 | 2021-09-21 |
分類號 | H04N21/435(2011.01)I;H04N21/44(2011.01)I;H04N21/488(2011.01)I;G06K9/00(2006.01)I | 分類 | 電通信技術(shù); |
發(fā)明人 | 張?zhí)祚?趙洲 | 申請(專利權(quán))人 | 杭州一知智能科技有限公司 |
代理機(jī)構(gòu) | 杭州求是專利事務(wù)所有限公司 | 代理人 | 鄭海峰 |
地址 | 311200浙江省杭州市蕭山區(qū)啟迪路198號杭州灣信息港F座7樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于解耦譯碼的視頻字幕生成方法和系統(tǒng),屬于視頻字幕生成領(lǐng)域。1)獲取視頻的三種模態(tài)特征,在每一種模態(tài)特征的開頭添加“[CLS]”標(biāo)記;2)利用一個(gè)三通道跨模態(tài)編碼器分別對三種模態(tài)特征進(jìn)行編碼;將所有編碼塊的輸出結(jié)合在一起作為最終輸出,并在最終輸出結(jié)果中引入重構(gòu)約束;3)從編碼后的模態(tài)特征序列的首位“[CLS]”標(biāo)記提取到三種模態(tài)的全局特征,結(jié)合歷史預(yù)測詞序列獲得細(xì)粒度三階張量,解耦三階張量得到每種模態(tài)下的注意權(quán)重;將編碼器輸出的三種編碼后的模態(tài)特征與對應(yīng)模態(tài)下的注意權(quán)重的乘積作為語境序列特征,引入到解碼器的解碼過程中,生成新的預(yù)測詞。 |
