基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法
基本信息
申請?zhí)?/td> | CN202110447506.7 | 申請日 | - |
公開(公告)號 | CN113111836A | 公開(公告)日 | 2021-07-13 |
申請公布號 | CN113111836A | 申請公布日 | 2021-07-13 |
分類號 | G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 賈永坡;申培;胡宇鵬;甘甜;吳建龍;高贊;聶禮強 | 申請(專利權(quán))人 | 河鋼集團有限公司 |
代理機構(gòu) | 濟南泉城專利商標事務(wù)所 | 代理人 | 支文彬 |
地址 | 250013山東省濟南市歷下區(qū)科院路19號 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,實現(xiàn)多模態(tài)特征向漢明共空間的特征映射與融合,并利用漢明距離對具有語義相似性的視頻片段?查詢語句對,進行高效檢索。一方面引入雙向時序卷積網(wǎng)絡(luò)模型,深刻理解視頻單元的上下文信息,以及視頻內(nèi)部的長期語義依賴;另一方面,引入基于多頭注意力機制的文本語義理解模型,對給定查詢語句進行有效表征,從而提高了視頻定位的精度。本發(fā)的特征編碼模型是相互獨立的,即視頻片段候選集的生成與查詢語句特征集的表征,可以分開獨立運行。因此,當我們對給定視頻完成相應(yīng)的候選集生成之后,可以根據(jù)不同用戶的多樣性需求,對當前視頻反復(fù)進行基于漢明距離度量的高效視頻定位。 |
