基于強化學習的智能體路徑規(guī)劃方法、電子設備及介質
基本信息
申請?zhí)?/td> | CN202210106163.2 | 申請日 | - |
公開(公告)號 | CN114493013A | 公開(公告)日 | 2022-05-13 |
申請公布號 | CN114493013A | 申請公布日 | 2022-05-13 |
分類號 | G06Q10/04(2012.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 禹祎凡;付衛(wèi)婷 | 申請(專利權)人 | 浙江同善人工智能技術有限公司 |
代理機構 | 上??剖⒅R產權代理有限公司 | 代理人 | - |
地址 | 314113浙江省嘉興市嘉善縣大云鎮(zhèn)創(chuàng)業(yè)路555號E1幢 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于強化學習的智能體路徑規(guī)劃方法、電子設備及介質,方法包括:根據(jù)智能體采集的狀態(tài)信息,通過訓練好的目標網(wǎng)絡獲取智能體從當前位置到目標位置之間的動作;目標網(wǎng)絡的訓練過程包括:構建當前網(wǎng)絡,目標網(wǎng)絡和當前網(wǎng)絡均為深度Q值網(wǎng)絡,迭代執(zhí)行目標網(wǎng)絡更新步驟,該步驟包括:獲取智能體采集的狀態(tài)信息,進行數(shù)據(jù)預處理后存儲至記憶庫,根據(jù)優(yōu)先經(jīng)驗回放機制在記憶庫中選擇訓練樣本;選擇訓練樣本和動作,根據(jù)動作更改環(huán)境信息,獲取下一狀態(tài)的環(huán)境信息,根據(jù)TD?error訓練當前網(wǎng)絡,根據(jù)軟更新機制更新目標網(wǎng)絡,更新樣本的選中概率。與現(xiàn)有技術相比,本發(fā)明實現(xiàn)難度低,計算效率高,緩解了局部最優(yōu)問題。 |
