利用幀-字幕自監(jiān)督進(jìn)行多模態(tài)視頻問答的方法

基本信息

申請?zhí)?/td> CN202110017595.1 申請日 -
公開(公告)號 CN112860945B 公開(公告)日 2022-07-08
申請公布號 CN112860945B 申請公布日 2022-07-08
分類號 G06F16/783(2019.01)I;G06V10/80(2022.01)I;G06V10/82(2022.01)I;G06V10/771(2022.01)I;G06K9/62(2022.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張宏達(dá);胡若云;沈然;葉上維;丁麒;王慶娟;陳金威;熊劍峰;丁瑩;趙洲;陳哲乾;李一夫;丁丹翔;姜偉昊 申請(專利權(quán))人 國網(wǎng)浙江省電力有限公司
代理機(jī)構(gòu) 杭州華鼎知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 -
地址 310000浙江省杭州市黃龍路8號
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于視頻問答領(lǐng)域,具體涉及利用幀?字幕自監(jiān)督進(jìn)行多模態(tài)視頻問答的方法。包括以下步驟:提取視頻幀特征、問答特征、字幕特征、字幕建議特征;得到帶注意力幀特征、帶注意力字幕特征,得到融合特征;基于融合特征計(jì)算得到時(shí)間注意力得分;利用時(shí)間注意力得分計(jì)算得到問題的時(shí)間邊界;利用融合特征與時(shí)間注意力得分計(jì)算得到問題答案;利用問題的時(shí)間邊界和問題答案訓(xùn)練神經(jīng)網(wǎng)絡(luò);優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),利用最優(yōu)神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻問答并劃定時(shí)間邊界。本發(fā)明沒有使用標(biāo)注代價(jià)昂貴的時(shí)間標(biāo)注,而是根據(jù)自行設(shè)計(jì)的時(shí)間注意分?jǐn)?shù)生成問題相關(guān)的時(shí)間邊界。另外本發(fā)明通過挖掘字幕與對應(yīng)視頻內(nèi)容之間的聯(lián)系,得到更為精準(zhǔn)的答案。