基于解耦譯碼的視頻字幕生成方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202110967808.7 申請日 -
公開(公告)號 CN113423004A 公開(公告)日 2021-09-21
申請公布號 CN113423004A 申請公布日 2021-09-21
分類號 H04N21/435(2011.01)I;H04N21/44(2011.01)I;H04N21/488(2011.01)I;G06K9/00(2006.01)I 分類 電通信技術;
發(fā)明人 張?zhí)祚?趙洲 申請(專利權)人 杭州一知智能科技有限公司
代理機構 杭州求是專利事務所有限公司 代理人 鄭海峰
地址 311200浙江省杭州市蕭山區(qū)啟迪路198號杭州灣信息港F座7樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于解耦譯碼的視頻字幕生成方法和系統(tǒng),屬于視頻字幕生成領域。1)獲取視頻的三種模態(tài)特征,在每一種模態(tài)特征的開頭添加“[CLS]”標記;2)利用一個三通道跨模態(tài)編碼器分別對三種模態(tài)特征進行編碼;將所有編碼塊的輸出結合在一起作為最終輸出,并在最終輸出結果中引入重構約束;3)從編碼后的模態(tài)特征序列的首位“[CLS]”標記提取到三種模態(tài)的全局特征,結合歷史預測詞序列獲得細粒度三階張量,解耦三階張量得到每種模態(tài)下的注意權重;將編碼器輸出的三種編碼后的模態(tài)特征與對應模態(tài)下的注意權重的乘積作為語境序列特征,引入到解碼器的解碼過程中,生成新的預測詞。