夜夜嗨性色av一区二区,国产精品久久久久久久久人妻

請(qǐng)輸入想查詢的關(guān)鍵字

查詢

退出

會(huì)員

商務(wù)合作

瀏覽歷史

清除

首頁(yè)/ 航天歐華信息技術(shù)有限公司/ 專利詳情

基于合作式強(qiáng)化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對(duì)抗決策方法

基本信息

申請(qǐng)?zhí)?/td>	CN202010748266.X	申請(qǐng)日	-
公開（公告）號(hào)	CN111695690A	公開（公告）日	2020-09-22
申請(qǐng)公布號(hào)	CN111695690A	申請(qǐng)公布日	2020-09-22
分類號(hào)	G06N5/04(2006.01)I;G06N3/08(2006.01)I	分類	計(jì)算；推算；計(jì)數(shù);
發(fā)明人	冷立雄;馬占國(guó);宮業(yè)國(guó)	申請(qǐng)（專利權(quán)）人	航天歐華信息技術(shù)有限公司
代理機(jī)構(gòu)	深圳市輝泓專利代理有限公司	代理人	航天歐華信息技術(shù)有限公司
地址	518000廣東省深圳市南山區(qū)桃源街道學(xué)苑大道1001號(hào)南山智園A5棟8層
法律狀態(tài)	-

摘要

本發(fā)明提出一種基于合作式強(qiáng)化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對(duì)抗決策方法，其特征在于，包括如下步驟：定義智能體的狀態(tài)空間S＝{s1,s2,...,sn}；設(shè)定其動(dòng)作空間?。絳a1,a2,...,an}；設(shè)定智能體強(qiáng)化學(xué)習(xí)模型的值函數(shù)矩陣；使用動(dòng)作評(píng)估器計(jì)算當(dāng)前狀態(tài)st對(duì)應(yīng)的值函數(shù)序列通過基于模擬退火與softmax策略的動(dòng)作選擇器選擇相應(yīng)的動(dòng)作at；同時(shí)，智能體的狀態(tài)發(fā)生變化，轉(zhuǎn)移到下一狀態(tài)st+1。在執(zhí)行動(dòng)作at后，智能體從環(huán)境中獲得獎(jiǎng)勵(lì)信號(hào)rt；通過權(quán)重共享的方式可以降低經(jīng)驗(yàn)存儲(chǔ)的損耗，提高對(duì)抗決策效率。通過基于衰減函數(shù)的遷移學(xué)習(xí)方法使得智能體以逐漸遞減的概率復(fù)用先前經(jīng)驗(yàn)，遷移學(xué)習(xí)將先前訓(xùn)練得到的動(dòng)作評(píng)估器權(quán)重遷移到更多的對(duì)抗決策場(chǎng)景，提高了學(xué)習(xí)模型的泛化性。??

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩 内射 人妻

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻