一種基于最優(yōu)解的智能體殘障設(shè)備投放方法
基本信息
申請?zhí)?/td> | CN202111161240.6 | 申請日 | - |
公開(公告)號(hào) | CN114021775A | 公開(公告)日 | 2022-02-08 |
申請公布號(hào) | CN114021775A | 申請公布日 | 2022-02-08 |
分類號(hào) | G06Q10/04(2012.01)I;G06Q10/06(2012.01)I;G06Q50/26(2012.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 唐源;王魁;唐小艷;劉玲意 | 申請(專利權(quán))人 | 成都海天數(shù)聯(lián)科技有限公司 |
代理機(jī)構(gòu) | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 肖會(huì) |
地址 | 610000四川省成都市高新區(qū)天華一路99號(hào)B區(qū)7棟314、315號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于最優(yōu)解的智能體殘障設(shè)備投放方法,包括計(jì)算得到智能體選擇的動(dòng)作和Q值并進(jìn)行初始化操作;進(jìn)行總回合中的一個(gè)片段操作,將當(dāng)前狀態(tài)初始化為S0,在概率為ε時(shí)選擇最大Q值對應(yīng)的動(dòng)作,否則選擇一個(gè)隨機(jī)動(dòng)作,并執(zhí)行該動(dòng)作獲得獎(jiǎng)勵(lì)后進(jìn)入下一個(gè)狀態(tài);將當(dāng)前狀態(tài)、執(zhí)行的動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)作為一個(gè)四元組集合存入經(jīng)驗(yàn)池,并更新sum?tree的父節(jié)點(diǎn);判斷當(dāng)前Q值與最優(yōu)值之間的誤差是否在閾值范圍內(nèi),得到最終智能體選擇的動(dòng)作和Q值。本發(fā)明的優(yōu)點(diǎn)在于:獎(jiǎng)勵(lì)進(jìn)行分解,每一個(gè)智能體的獎(jiǎng)勵(lì)不僅包含自己的獎(jiǎng)勵(lì),還包括所有智能體共同的獎(jiǎng)勵(lì),提升了智能體之間的協(xié)作性,對智能體學(xué)習(xí)起到促進(jìn)作用同時(shí)能滿足優(yōu)化目標(biāo)。 |
