利用幀-字幕自監(jiān)督進(jìn)行多模態(tài)視頻問答的方法
基本信息
申請?zhí)?/td> | CN202110017595.1 | 申請日 | - |
公開(公告)號 | CN112860945B | 公開(公告)日 | 2022-07-08 |
申請公布號 | CN112860945B | 申請公布日 | 2022-07-08 |
分類號 | G06F16/783(2019.01)I;G06V10/80(2022.01)I;G06V10/82(2022.01)I;G06V10/771(2022.01)I;G06K9/62(2022.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張宏達(dá);胡若云;沈然;葉上維;丁麒;王慶娟;陳金威;熊劍峰;丁瑩;趙洲;陳哲乾;李一夫;丁丹翔;姜偉昊 | 申請(專利權(quán))人 | 國網(wǎng)浙江省電力有限公司 |
代理機(jī)構(gòu) | 杭州華鼎知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | - |
地址 | 310000浙江省杭州市黃龍路8號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于視頻問答領(lǐng)域,具體涉及利用幀?字幕自監(jiān)督進(jìn)行多模態(tài)視頻問答的方法。包括以下步驟:提取視頻幀特征、問答特征、字幕特征、字幕建議特征;得到帶注意力幀特征、帶注意力字幕特征,得到融合特征;基于融合特征計(jì)算得到時(shí)間注意力得分;利用時(shí)間注意力得分計(jì)算得到問題的時(shí)間邊界;利用融合特征與時(shí)間注意力得分計(jì)算得到問題答案;利用問題的時(shí)間邊界和問題答案訓(xùn)練神經(jīng)網(wǎng)絡(luò);優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),利用最優(yōu)神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻問答并劃定時(shí)間邊界。本發(fā)明沒有使用標(biāo)注代價(jià)昂貴的時(shí)間標(biāo)注,而是根據(jù)自行設(shè)計(jì)的時(shí)間注意分?jǐn)?shù)生成問題相關(guān)的時(shí)間邊界。另外本發(fā)明通過挖掘字幕與對應(yīng)視頻內(nèi)容之間的聯(lián)系,得到更為精準(zhǔn)的答案。 |
