增強(qiáng)交通模擬器真實(shí)性的逆強(qiáng)化學(xué)習(xí)方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202110625802.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113221469A | 公開(公告)日 | 2021-08-06 |
申請(qǐng)公布號(hào) | CN113221469A | 申請(qǐng)公布日 | 2021-08-06 |
分類號(hào) | G06F30/27;G06N20/00 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 薛貴榮 | 申請(qǐng)(專利權(quán))人 | 上海天壤智能科技有限公司 |
代理機(jī)構(gòu) | 上海段和段律師事務(wù)所 | 代理人 | 黃磊;郭國中 |
地址 | 201100 上海市閔行區(qū)劍川路951號(hào)5幢1層(集中登記地) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種增強(qiáng)交通模擬器真實(shí)性的逆強(qiáng)化學(xué)習(xí)方法及系統(tǒng),包括:通過生成器初始化一個(gè)軌跡動(dòng)作策略;結(jié)合當(dāng)前環(huán)境,生成多個(gè)智能體的軌跡數(shù)據(jù);將軌跡數(shù)據(jù)與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合,將混合軌跡數(shù)據(jù)輸入判別器,訓(xùn)練判別器區(qū)分專家軌跡數(shù)據(jù),訓(xùn)練的目標(biāo)是最大化獎(jiǎng)勵(lì)函數(shù);將獎(jiǎng)勵(lì)函數(shù)輸入生成器,生成器得到新的軌跡動(dòng)作策略;用新的軌跡動(dòng)作策略生成多個(gè)智能體的軌跡數(shù)據(jù),并與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合及訓(xùn)練判別器,直至收斂;交通模擬器根據(jù)最終的獎(jiǎng)勵(lì)函數(shù)和軌跡動(dòng)作策略進(jìn)行交通模擬。本發(fā)明能夠推斷真實(shí)世界車輛的獎(jiǎng)勵(lì)函數(shù),它使我們能夠在不同的交通環(huán)境下優(yōu)化策略,具有良好的可擴(kuò)展能力。 |
