基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法

基本信息

申請?zhí)?/td> CN202110447506.7 申請日 -
公開(公告)號 CN113111836A 公開(公告)日 2021-07-13
申請公布號 CN113111836A 申請公布日 2021-07-13
分類號 G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 賈永坡;申培;胡宇鵬;甘甜;吳建龍;高贊;聶禮強 申請(專利權(quán))人 河鋼集團有限公司
代理機構(gòu) 濟南泉城專利商標事務(wù)所 代理人 支文彬
地址 250013山東省濟南市歷下區(qū)科院路19號
法律狀態(tài) -

摘要

摘要 一種基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,實現(xiàn)多模態(tài)特征向漢明共空間的特征映射與融合,并利用漢明距離對具有語義相似性的視頻片段?查詢語句對,進行高效檢索。一方面引入雙向時序卷積網(wǎng)絡(luò)模型,深刻理解視頻單元的上下文信息,以及視頻內(nèi)部的長期語義依賴;另一方面,引入基于多頭注意力機制的文本語義理解模型,對給定查詢語句進行有效表征,從而提高了視頻定位的精度。本發(fā)的特征編碼模型是相互獨立的,即視頻片段候選集的生成與查詢語句特征集的表征,可以分開獨立運行。因此,當我們對給定視頻完成相應(yīng)的候選集生成之后,可以根據(jù)不同用戶的多樣性需求,對當前視頻反復(fù)進行基于漢明距離度量的高效視頻定位。