一種可回溯的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練方法

基本信息

申請(qǐng)?zhí)?/td> CN202210096139.5 申請(qǐng)日 -
公開(公告)號(hào) CN114511096A 公開(公告)日 2022-05-17
申請(qǐng)公布號(hào) CN114511096A 申請(qǐng)公布日 2022-05-17
分類號(hào) G06N20/00(2019.01)I;G06K9/62(2022.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 尹學(xué)淵;邱良良 申請(qǐng)(專利權(quán))人 成都潛在人工智能科技有限公司
代理機(jī)構(gòu) 成都睿道專利代理事務(wù)所(普通合伙) 代理人 -
地址 610000四川省成都市高新區(qū)益州大道中段722號(hào)1棟1單元12層1210號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種可回溯的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練方法,包括如下步驟:創(chuàng)建預(yù)設(shè)長(zhǎng)度用于保存智能體的狀態(tài)、狀態(tài)映射的Cell、行為、獎(jiǎng)勵(lì)和done數(shù)據(jù)的字典;進(jìn)行數(shù)據(jù)探索,首先從字典中選擇Cell,并以被選擇的Cell作為目標(biāo),return選定的目標(biāo),以目標(biāo)作為新起點(diǎn),選擇新目標(biāo)進(jìn)行探索,并記錄return階段和探索階段遇到的所有狀態(tài)和行為,將所有狀態(tài)映射為Cell,并將所有狀態(tài)、所有Cell和行為更新到字典中;獲取數(shù)據(jù)探索收集到的所有Cell和行為數(shù)據(jù),基于強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí),并更新學(xué)習(xí)算法的參數(shù);本發(fā)明采用存檔的方式來(lái)記錄智能體到達(dá)過(guò)的所有狀態(tài),以目標(biāo)的方式引導(dǎo)智能體能夠回到存檔中的狀態(tài);智能體回到任意狀態(tài)后重新開始探索,理論上能探索到環(huán)境中所有的空間。