一種網(wǎng)絡(luò)訓(xùn)練的方法、控制方法以及裝置
基本信息
申請?zhí)?/td> | CN202111432347.X | 申請日 | - |
公開(公告)號 | CN114118276A | 公開(公告)日 | 2022-03-01 |
申請公布號 | CN114118276A | 申請公布日 | 2022-03-01 |
分類號 | G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 熊方舟;吳思雷;丁曙光;張羽;周奕達;樊明宇;任冬淳 | 申請(專利權(quán))人 | 北京觸達無界科技有限公司 |
代理機構(gòu) | 北京曼威知識產(chǎn)權(quán)代理有限公司 | 代理人 | 方志煒 |
地址 | 101399北京市順義區(qū)高麗營鎮(zhèn)文化營村北(臨空二路1號科技創(chuàng)新功能區(qū)) | ||
法律狀態(tài) | - |
摘要
摘要 | 本說明書公開了一種網(wǎng)絡(luò)訓(xùn)練的方法、控制方法以及裝置,首先,獲取訓(xùn)練樣本。其次,將訓(xùn)練樣本輸入到策略網(wǎng)絡(luò)中,得到采集設(shè)備在第一歷史時刻需要執(zhí)行的第一行駛策略,并確定第一行駛策略對應(yīng)的評價值。而后,基于第一行駛策略,確定采集設(shè)備在第二歷史時刻需要執(zhí)行的第二行駛策略,并確定第二行駛策略對應(yīng)的評價值,以及基于第一行駛策略,確定采集設(shè)備在第二歷史時刻對應(yīng)的懲罰值。最后,根據(jù)第二行駛策略對應(yīng)的評價值和懲罰值,確定針對第一行駛策略的期望評價值,并以第一行駛策略對應(yīng)的評價值向期望評價值逼近為優(yōu)化目標(biāo),對策略網(wǎng)絡(luò)進行訓(xùn)練。本方法可以降低了無人設(shè)備與周圍障礙物發(fā)生碰撞的概率,保證了無人設(shè)備的安全行駛。 |
