一種圖像描述模型的訓(xùn)練方法及訓(xùn)練裝置

基本信息

申請(qǐng)?zhí)?/td> CN202111341668.9 申請(qǐng)日 -
公開(公告)號(hào) CN114090815A 公開(公告)日 2022-02-25
申請(qǐng)公布號(hào) CN114090815A 申請(qǐng)公布日 2022-02-25
分類號(hào) G06F16/583(2019.01)I;G06F40/126(2020.01)I;G06F40/194(2020.01)I;G06K9/62(2022.01)I;G06V10/74(2022.01)I;G06V10/774(2022.01)I;G06V10/82(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 曹晚霞;朱飛 申請(qǐng)(專利權(quán))人 海信電子科技(武漢)有限公司
代理機(jī)構(gòu) 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 逯長(zhǎng)明;許偉群
地址 430073湖北省武漢市東湖新技術(shù)開發(fā)區(qū)軟件園東路1號(hào)軟件產(chǎn)業(yè)4.1期B2棟13層02號(hào)-2
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開了一種圖像描述模型的訓(xùn)練方法及訓(xùn)練裝置。所述訓(xùn)練方法包括:針對(duì)圖文對(duì)訓(xùn)練集中任一候選圖像,首先輸入詞粒度訓(xùn)練后的圖像描述模型得到候選預(yù)測(cè)文本,然后將候選圖像和候選預(yù)測(cè)文本輸入預(yù)訓(xùn)練的圖文匹配模型確定圖文相似度后,再將候選預(yù)測(cè)文本和候選標(biāo)注文本的CIDEr與圖文相似度按照預(yù)設(shè)比例相加,得到當(dāng)前獎(jiǎng)勵(lì)值,根據(jù)當(dāng)前獎(jiǎng)勵(lì)值獲取參數(shù)更新梯度,進(jìn)而完成詞粒度訓(xùn)練后的圖像描述模型在句子級(jí)別的微調(diào)。整個(gè)訓(xùn)練方法利用強(qiáng)化學(xué)習(xí)的方法把預(yù)訓(xùn)練的圖文匹配模型與圖像描述模型聯(lián)系起來,使得訓(xùn)練后的圖像描述模型能夠生成與實(shí)際圖像匹配程度較高的預(yù)測(cè)描述文本,可以提高圖像描述模型的預(yù)測(cè)精度。