一種基于哈希編碼的圖像聲音檢索方法
基本信息
申請(qǐng)?zhí)?/td> | CN202111599825.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114328991A | 公開(公告)日 | 2022-04-12 |
申請(qǐng)公布號(hào) | CN114328991A | 申請(qǐng)公布日 | 2022-04-12 |
分類號(hào) | G06F16/432(2019.01)I;G06F16/483(2019.01)I;G06F16/45(2019.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李若塵;張世雄;黎俊良;魏文應(yīng);龍仕強(qiáng);安欣賞 | 申請(qǐng)(專利權(quán))人 | 深圳龍崗智能視聽研究院 |
代理機(jī)構(gòu) | 北京京萬(wàn)通知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 萬(wàn)學(xué)堂;王躍交 |
地址 | 518116廣東省深圳市龍崗區(qū)龍城街道騰飛路龍崗創(chuàng)投大廈37樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于哈希編碼的圖像聲音檢索方法。在預(yù)處理階段,首先將聲音通過(guò)快速傅里葉變換轉(zhuǎn)化為語(yǔ)譜圖,同時(shí)對(duì)轉(zhuǎn)化后的語(yǔ)譜圖以及原始的人臉圖像進(jìn)行旋轉(zhuǎn)、對(duì)比度變換等數(shù)據(jù)增強(qiáng)操作;在訓(xùn)練階段,將之前處理好的人臉圖像以及語(yǔ)譜圖傳入一個(gè)經(jīng)由ImageNet預(yù)訓(xùn)練的基于內(nèi)容分類的神經(jīng)網(wǎng)絡(luò)中,自動(dòng)將人臉和語(yǔ)譜圖傳遞到各自模態(tài)的特征提取網(wǎng)絡(luò)中。相比于傳統(tǒng)方法,哈希編碼大幅降低了檢索消耗的時(shí)間,提升了系統(tǒng)執(zhí)行效率;同時(shí),對(duì)語(yǔ)譜圖進(jìn)行對(duì)比度增強(qiáng)可以抑制低頻噪聲,以及采用一個(gè)基于內(nèi)容的樣本分類器可以減少人為區(qū)分樣本出錯(cuò)的概率,本方法在目前公開的測(cè)試數(shù)據(jù)集上,取得了領(lǐng)先的檢測(cè)水平。 |
