一種可回溯的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練方法
基本信息
申請(qǐng)?zhí)?/td> | CN202210096139.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114511096A | 公開(公告)日 | 2022-05-17 |
申請(qǐng)公布號(hào) | CN114511096A | 申請(qǐng)公布日 | 2022-05-17 |
分類號(hào) | G06N20/00(2019.01)I;G06K9/62(2022.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 尹學(xué)淵;邱良良 | 申請(qǐng)(專利權(quán))人 | 成都潛在人工智能科技有限公司 |
代理機(jī)構(gòu) | 成都睿道專利代理事務(wù)所(普通合伙) | 代理人 | - |
地址 | 610000四川省成都市高新區(qū)益州大道中段722號(hào)1棟1單元12層1210號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種可回溯的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練方法,包括如下步驟:創(chuàng)建預(yù)設(shè)長(zhǎng)度用于保存智能體的狀態(tài)、狀態(tài)映射的Cell、行為、獎(jiǎng)勵(lì)和done數(shù)據(jù)的字典;進(jìn)行數(shù)據(jù)探索,首先從字典中選擇Cell,并以被選擇的Cell作為目標(biāo),return選定的目標(biāo),以目標(biāo)作為新起點(diǎn),選擇新目標(biāo)進(jìn)行探索,并記錄return階段和探索階段遇到的所有狀態(tài)和行為,將所有狀態(tài)映射為Cell,并將所有狀態(tài)、所有Cell和行為更新到字典中;獲取數(shù)據(jù)探索收集到的所有Cell和行為數(shù)據(jù),基于強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí),并更新學(xué)習(xí)算法的參數(shù);本發(fā)明采用存檔的方式來(lái)記錄智能體到達(dá)過(guò)的所有狀態(tài),以目標(biāo)的方式引導(dǎo)智能體能夠回到存檔中的狀態(tài);智能體回到任意狀態(tài)后重新開始探索,理論上能探索到環(huán)境中所有的空間。 |
