基于合作式強(qiáng)化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對(duì)抗決策方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010748266.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111695690A | 公開(公告)日 | 2020-09-22 |
申請(qǐng)公布號(hào) | CN111695690A | 申請(qǐng)公布日 | 2020-09-22 |
分類號(hào) | G06N5/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 冷立雄;馬占國(guó);宮業(yè)國(guó) | 申請(qǐng)(專利權(quán))人 | 航天歐華信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 深圳市輝泓專利代理有限公司 | 代理人 | 航天歐華信息技術(shù)有限公司 |
地址 | 518000廣東省深圳市南山區(qū)桃源街道學(xué)苑大道1001號(hào)南山智園A5棟8層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出一種基于合作式強(qiáng)化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對(duì)抗決策方法,其特征在于,包括如下步驟:定義智能體的狀態(tài)空間S={s1,s2,...,sn};設(shè)定其動(dòng)作空間?。絳a1,a2,...,an};設(shè)定智能體強(qiáng)化學(xué)習(xí)模型的值函數(shù)矩陣;使用動(dòng)作評(píng)估器計(jì)算當(dāng)前狀態(tài)st對(duì)應(yīng)的值函數(shù)序列通過基于模擬退火與softmax策略的動(dòng)作選擇器選擇相應(yīng)的動(dòng)作at;同時(shí),智能體的狀態(tài)發(fā)生變化,轉(zhuǎn)移到下一狀態(tài)st+1。在執(zhí)行動(dòng)作at后,智能體從環(huán)境中獲得獎(jiǎng)勵(lì)信號(hào)rt;通過權(quán)重共享的方式可以降低經(jīng)驗(yàn)存儲(chǔ)的損耗,提高對(duì)抗決策效率。通過基于衰減函數(shù)的遷移學(xué)習(xí)方法使得智能體以逐漸遞減的概率復(fù)用先前經(jīng)驗(yàn),遷移學(xué)習(xí)將先前訓(xùn)練得到的動(dòng)作評(píng)估器權(quán)重遷移到更多的對(duì)抗決策場(chǎng)景,提高了學(xué)習(xí)模型的泛化性。?? |
