一種基于最優(yōu)解的智能體殘障設(shè)備投放方法

基本信息

申請?zhí)?/td> CN202111161240.6 申請日 -
公開(公告)號(hào) CN114021775A 公開(公告)日 2022-02-08
申請公布號(hào) CN114021775A 申請公布日 2022-02-08
分類號(hào) G06Q10/04(2012.01)I;G06Q10/06(2012.01)I;G06Q50/26(2012.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 唐源;王魁;唐小艷;劉玲意 申請(專利權(quán))人 成都海天數(shù)聯(lián)科技有限公司
代理機(jī)構(gòu) 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 代理人 肖會(huì)
地址 610000四川省成都市高新區(qū)天華一路99號(hào)B區(qū)7棟314、315號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于最優(yōu)解的智能體殘障設(shè)備投放方法,包括計(jì)算得到智能體選擇的動(dòng)作和Q值并進(jìn)行初始化操作;進(jìn)行總回合中的一個(gè)片段操作,將當(dāng)前狀態(tài)初始化為S0,在概率為ε時(shí)選擇最大Q值對應(yīng)的動(dòng)作,否則選擇一個(gè)隨機(jī)動(dòng)作,并執(zhí)行該動(dòng)作獲得獎(jiǎng)勵(lì)后進(jìn)入下一個(gè)狀態(tài);將當(dāng)前狀態(tài)、執(zhí)行的動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)作為一個(gè)四元組集合存入經(jīng)驗(yàn)池,并更新sum?tree的父節(jié)點(diǎn);判斷當(dāng)前Q值與最優(yōu)值之間的誤差是否在閾值范圍內(nèi),得到最終智能體選擇的動(dòng)作和Q值。本發(fā)明的優(yōu)點(diǎn)在于:獎(jiǎng)勵(lì)進(jìn)行分解,每一個(gè)智能體的獎(jiǎng)勵(lì)不僅包含自己的獎(jiǎng)勵(lì),還包括所有智能體共同的獎(jiǎng)勵(lì),提升了智能體之間的協(xié)作性,對智能體學(xué)習(xí)起到促進(jìn)作用同時(shí)能滿足優(yōu)化目標(biāo)。