一種網(wǎng)絡(luò)訓(xùn)練的方法、控制方法以及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202111432347.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114118276A 公開(kāi)(公告)日 2022-03-01
申請(qǐng)公布號(hào) CN114118276A 申請(qǐng)公布日 2022-03-01
分類(lèi)號(hào) G06K9/62(2022.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 熊方舟;吳思雷;丁曙光;張羽;周奕達(dá);樊明宇;任冬淳 申請(qǐng)(專(zhuān)利權(quán))人 北京觸達(dá)無(wú)界科技有限公司
代理機(jī)構(gòu) 北京曼威知識(shí)產(chǎn)權(quán)代理有限公司 代理人 方志煒
地址 101399北京市順義區(qū)高麗營(yíng)鎮(zhèn)文化營(yíng)村北(臨空二路1號(hào)科技創(chuàng)新功能區(qū))
法律狀態(tài) -

摘要

摘要 本說(shuō)明書(shū)公開(kāi)了一種網(wǎng)絡(luò)訓(xùn)練的方法、控制方法以及裝置,首先,獲取訓(xùn)練樣本。其次,將訓(xùn)練樣本輸入到策略網(wǎng)絡(luò)中,得到采集設(shè)備在第一歷史時(shí)刻需要執(zhí)行的第一行駛策略,并確定第一行駛策略對(duì)應(yīng)的評(píng)價(jià)值。而后,基于第一行駛策略,確定采集設(shè)備在第二歷史時(shí)刻需要執(zhí)行的第二行駛策略,并確定第二行駛策略對(duì)應(yīng)的評(píng)價(jià)值,以及基于第一行駛策略,確定采集設(shè)備在第二歷史時(shí)刻對(duì)應(yīng)的懲罰值。最后,根據(jù)第二行駛策略對(duì)應(yīng)的評(píng)價(jià)值和懲罰值,確定針對(duì)第一行駛策略的期望評(píng)價(jià)值,并以第一行駛策略對(duì)應(yīng)的評(píng)價(jià)值向期望評(píng)價(jià)值逼近為優(yōu)化目標(biāo),對(duì)策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練。本方法可以降低了無(wú)人設(shè)備與周?chē)系K物發(fā)生碰撞的概率,保證了無(wú)人設(shè)備的安全行駛。