基于多智能體強化學(xué)習(xí)的目標(biāo)探測與分配方法及裝置

基本信息

申請?zhí)?/td> CN202010959038.7 申請日 -
公開(公告)號 CN112131786A 公開(公告)日 2020-12-25
申請公布號 CN112131786A 申請公布日 2020-12-25
分類號 G06F30/27(2020.01)I;G06F119/14(2020.01)N 分類 計算;推算;計數(shù);
發(fā)明人 伊山;魏曉龍;鹿?jié)?黃謙;齊智敏;蔡春曉;趙昊;張帥;亢原平 申請(專利權(quán))人 航天科工系統(tǒng)仿真科技(北京)有限公司
代理機構(gòu) 北京細(xì)軟智谷知識產(chǎn)權(quán)代理有限責(zé)任公司 代理人 中國人民解放軍軍事科學(xué)院評估論證研究中心;航天科工系統(tǒng)仿真科技(北京)有限公司
地址 100089北京市海淀區(qū)廂紅旗東門外1號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于多智能體強化學(xué)習(xí)的目標(biāo)探測與分配方法及裝置,包括構(gòu)建作戰(zhàn)行為模型和強化學(xué)習(xí)訓(xùn)練環(huán)境;采用強化學(xué)習(xí)訓(xùn)練環(huán)境對所述作戰(zhàn)行為模型進行訓(xùn)練至模型收斂,獲取人工智能行為模型;采用作戰(zhàn)仿真引擎對所述人工智能行為模型進行訓(xùn)練,輸出優(yōu)化模型。本發(fā)明將強化學(xué)習(xí)算法MADDPG集成到兵棋推演系統(tǒng)中,構(gòu)建從簡單到復(fù)雜的仿真環(huán)境,優(yōu)化強化學(xué)習(xí)收斂速度,有效的解決了兵棋推演系統(tǒng)中智能體優(yōu)化收斂速度的問題。??