基于多智能體強化學(xué)習(xí)的目標(biāo)探測與分配方法及裝置
基本信息
申請?zhí)?/td> | CN202010959038.7 | 申請日 | - |
公開(公告)號 | CN112131786A | 公開(公告)日 | 2020-12-25 |
申請公布號 | CN112131786A | 申請公布日 | 2020-12-25 |
分類號 | G06F30/27(2020.01)I;G06F119/14(2020.01)N | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 伊山;魏曉龍;鹿?jié)?黃謙;齊智敏;蔡春曉;趙昊;張帥;亢原平 | 申請(專利權(quán))人 | 航天科工系統(tǒng)仿真科技(北京)有限公司 |
代理機構(gòu) | 北京細(xì)軟智谷知識產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人 | 中國人民解放軍軍事科學(xué)院評估論證研究中心;航天科工系統(tǒng)仿真科技(北京)有限公司 |
地址 | 100089北京市海淀區(qū)廂紅旗東門外1號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于多智能體強化學(xué)習(xí)的目標(biāo)探測與分配方法及裝置,包括構(gòu)建作戰(zhàn)行為模型和強化學(xué)習(xí)訓(xùn)練環(huán)境;采用強化學(xué)習(xí)訓(xùn)練環(huán)境對所述作戰(zhàn)行為模型進行訓(xùn)練至模型收斂,獲取人工智能行為模型;采用作戰(zhàn)仿真引擎對所述人工智能行為模型進行訓(xùn)練,輸出優(yōu)化模型。本發(fā)明將強化學(xué)習(xí)算法MADDPG集成到兵棋推演系統(tǒng)中,構(gòu)建從簡單到復(fù)雜的仿真環(huán)境,優(yōu)化強化學(xué)習(xí)收斂速度,有效的解決了兵棋推演系統(tǒng)中智能體優(yōu)化收斂速度的問題。?? |
