增強(qiáng)交通模擬器真實(shí)性的逆強(qiáng)化學(xué)習(xí)方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202110625802.1 申請(qǐng)日 -
公開(公告)號(hào) CN113221469A 公開(公告)日 2021-08-06
申請(qǐng)公布號(hào) CN113221469A 申請(qǐng)公布日 2021-08-06
分類號(hào) G06F30/27;G06N20/00 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 薛貴榮 申請(qǐng)(專利權(quán))人 上海天壤智能科技有限公司
代理機(jī)構(gòu) 上海段和段律師事務(wù)所 代理人 黃磊;郭國中
地址 201100 上海市閔行區(qū)劍川路951號(hào)5幢1層(集中登記地)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種增強(qiáng)交通模擬器真實(shí)性的逆強(qiáng)化學(xué)習(xí)方法及系統(tǒng),包括:通過生成器初始化一個(gè)軌跡動(dòng)作策略;結(jié)合當(dāng)前環(huán)境,生成多個(gè)智能體的軌跡數(shù)據(jù);將軌跡數(shù)據(jù)與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合,將混合軌跡數(shù)據(jù)輸入判別器,訓(xùn)練判別器區(qū)分專家軌跡數(shù)據(jù),訓(xùn)練的目標(biāo)是最大化獎(jiǎng)勵(lì)函數(shù);將獎(jiǎng)勵(lì)函數(shù)輸入生成器,生成器得到新的軌跡動(dòng)作策略;用新的軌跡動(dòng)作策略生成多個(gè)智能體的軌跡數(shù)據(jù),并與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合及訓(xùn)練判別器,直至收斂;交通模擬器根據(jù)最終的獎(jiǎng)勵(lì)函數(shù)和軌跡動(dòng)作策略進(jìn)行交通模擬。本發(fā)明能夠推斷真實(shí)世界車輛的獎(jiǎng)勵(lì)函數(shù),它使我們能夠在不同的交通環(huán)境下優(yōu)化策略,具有良好的可擴(kuò)展能力。