多智能體強化學習的決策方法及裝置
基本信息
申請?zhí)?/td> | CN202110225976.9 | 申請日 | - |
公開(公告)號 | CN112926746A | 公開(公告)日 | 2021-06-08 |
申請公布號 | CN112926746A | 申請公布日 | 2021-06-08 |
分類號 | G06N20/00 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 楊明珠;劉相偉;李卓犖 | 申請(專利權)人 | 昆山小眼探索信息科技有限公司 |
代理機構 | 北京中索知識產(chǎn)權代理有限公司 | 代理人 | 胡大成 |
地址 | 215323 江蘇省蘇州市昆山市張浦鎮(zhèn)尚明甸村村民委員會 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N多智能體強化學習的決策方法及裝置。所述方法包括:獲取第一智能體、第二智能體組的位置信息和動作信息;通過數(shù)據(jù)擬合模型將所述第一智能體、第二智能體組的位置信息和動作信息擬合為第一智能體?第二智能體組的位置?動作數(shù)據(jù)組集合;根據(jù)所述數(shù)據(jù)組集合信息并通過多智能體強化學習計算模型,計算由第一智能體與第二智能體組所組成的多智能體待配置的位置信息、動作信息;輸出所述多智能體待配置的動作狀態(tài)值;其中,所述第一智能體為多智能體集合中的目標智能體;所述第二智能體組為多智能體集合中第一智能體的補集。這樣,可以有效提升多智能體團隊及單個智能體的決策能力,且解決了因智能體數(shù)量增長帶來數(shù)據(jù)空間增大的問題。 |
