一種基于自注意力機(jī)制的圖像分類方法

基本信息

申請?zhí)?/td> CN202110723547.4 申請日 -
公開(公告)號 CN113378973A 公開(公告)日 2021-09-10
申請公布號 CN113378973A 申請公布日 2021-09-10
分類號 G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 楊木潤;趙闖 申請(專利權(quán))人 沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司
代理機(jī)構(gòu) 沈陽新科知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 李曉光
地址 110004遼寧省沈陽市和平區(qū)三好街78號東軟電腦城C座11層
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于自注意力機(jī)制的圖像分類方法,步驟為:構(gòu)建包含自注意力機(jī)制的Transformer模型,針對圖像分類任務(wù)添加分類器單元;處理公開數(shù)據(jù)集ImageNet,調(diào)整原圖片至合適大??;將調(diào)整后的圖片劃分成固定大小的子圖,連接各子圖后進(jìn)行維度調(diào)整,得到圖片嵌入向量;進(jìn)行二維位置編碼,得到二維位置編碼向量,和圖片嵌入向量連接,作為模型輸入;將連接后向量送入Transformer模型,提取圖片特征,最終解碼時(shí)通過分類器單元將模型輸出的向量轉(zhuǎn)換成概率表示,完成圖像分類。本發(fā)明通過自注意力機(jī)制的使用,能夠有效地從圖片中提取全局信息,即傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)所提取的圖片特征,基于提取的特征能夠有效地完成對圖片的分類。