一種網(wǎng)絡(luò)訓(xùn)練的方法、控制方法以及裝置

基本信息

申請?zhí)?/td> CN202111432347.X 申請日 -
公開(公告)號 CN114118276A 公開(公告)日 2022-03-01
申請公布號 CN114118276A 申請公布日 2022-03-01
分類號 G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 熊方舟;吳思雷;丁曙光;張羽;周奕達;樊明宇;任冬淳 申請(專利權(quán))人 北京觸達無界科技有限公司
代理機構(gòu) 北京曼威知識產(chǎn)權(quán)代理有限公司 代理人 方志煒
地址 101399北京市順義區(qū)高麗營鎮(zhèn)文化營村北(臨空二路1號科技創(chuàng)新功能區(qū))
法律狀態(tài) -

摘要

摘要 本說明書公開了一種網(wǎng)絡(luò)訓(xùn)練的方法、控制方法以及裝置,首先,獲取訓(xùn)練樣本。其次,將訓(xùn)練樣本輸入到策略網(wǎng)絡(luò)中,得到采集設(shè)備在第一歷史時刻需要執(zhí)行的第一行駛策略,并確定第一行駛策略對應(yīng)的評價值。而后,基于第一行駛策略,確定采集設(shè)備在第二歷史時刻需要執(zhí)行的第二行駛策略,并確定第二行駛策略對應(yīng)的評價值,以及基于第一行駛策略,確定采集設(shè)備在第二歷史時刻對應(yīng)的懲罰值。最后,根據(jù)第二行駛策略對應(yīng)的評價值和懲罰值,確定針對第一行駛策略的期望評價值,并以第一行駛策略對應(yīng)的評價值向期望評價值逼近為優(yōu)化目標(biāo),對策略網(wǎng)絡(luò)進行訓(xùn)練。本方法可以降低了無人設(shè)備與周圍障礙物發(fā)生碰撞的概率,保證了無人設(shè)備的安全行駛。