一種適用于移動(dòng)機(jī)械臂的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)方法

基本信息

申請(qǐng)?zhí)?/td> CN202010487548.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111515961A 公開(kāi)(公告)日 2020-08-11
申請(qǐng)公布號(hào) CN111515961A 申請(qǐng)公布日 2020-08-11
分類號(hào) B25J9/16(2006.01)I 分類 -
發(fā)明人 辛博;朱冰清;程旭;陳春林;馬晶 申請(qǐng)(專利權(quán))人 南京南欣醫(yī)藥技術(shù)研究院有限公司
代理機(jī)構(gòu) 南京華恒專利代理事務(wù)所(普通合伙) 代理人 南京大學(xué);南京南欣醫(yī)藥技術(shù)研究院有限公司
地址 210000江蘇省南京市棲霞區(qū)仙林大道163號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)一種適用于移動(dòng)機(jī)械臂的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)方法,包括如下步驟:S1、設(shè)計(jì)任務(wù)場(chǎng)景,初始化算法和移動(dòng)機(jī)械臂的各項(xiàng)參數(shù)以及算法對(duì)應(yīng)的深度網(wǎng)絡(luò)模型;S2、重構(gòu)并柵格化移動(dòng)機(jī)械臂上信息采集設(shè)備發(fā)送的環(huán)境信息,明確移動(dòng)機(jī)械臂的起始位置和目標(biāo)位置;S3、與環(huán)境交互,收集訓(xùn)練數(shù)據(jù)存放于經(jīng)驗(yàn)池;S4、從經(jīng)驗(yàn)池中采樣一個(gè)批次的數(shù)據(jù),通過(guò)獎(jiǎng)勵(lì)函數(shù)的處理得到額外設(shè)計(jì)的反思獎(jiǎng)勵(lì)用于后續(xù)的訓(xùn)練;S5、結(jié)合原始獎(jiǎng)勵(lì)和額外獎(jiǎng)勵(lì),使用深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練移動(dòng)機(jī)械臂在規(guī)劃空間內(nèi)完成目標(biāo)任務(wù);S6、記錄相關(guān)訓(xùn)練數(shù)據(jù)和最后訓(xùn)練完成的模型參數(shù),得到相對(duì)應(yīng)的最優(yōu)策略。??