一種基于深度確定性策略梯度的自適應(yīng)控制方法
基本信息
申請?zhí)?/td> | CN202011297651.3 | 申請日 | - |
公開(公告)號 | CN112597693A | 公開(公告)日 | 2021-04-02 |
申請公布號 | CN112597693A | 申請公布日 | 2021-04-02 |
分類號 | G06F30/27;G06N3/08;G06K9/62;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 盧旺;孟凡石;孫繼澤 | 申請(專利權(quán))人 | 沈陽航盛科技有限責(zé)任公司 |
代理機(jī)構(gòu) | 廣東良馬律師事務(wù)所 | 代理人 | 劉海杰 |
地址 | 110000 遼寧省沈陽市皇姑區(qū)塔灣街40號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于深度確定性策略梯度的自適應(yīng)控制方法,依據(jù)真實(shí)系統(tǒng)特性構(gòu)建的仿真訓(xùn)練環(huán)境;構(gòu)建狀態(tài)(觀測量),回報(bào)函數(shù),截止條件,動作;構(gòu)建深度確定性策略梯度方法的critic網(wǎng)絡(luò)、actor網(wǎng)絡(luò)和相應(yīng)的目標(biāo)網(wǎng)絡(luò),通過與仿真訓(xùn)練環(huán)境的試錯交互進(jìn)行訓(xùn)練;使用actor網(wǎng)絡(luò)訓(xùn)練結(jié)果作為該系統(tǒng)的控制器。本發(fā)明將深度強(qiáng)化學(xué)習(xí)方法應(yīng)用于控制器設(shè)計(jì),介紹該方法的實(shí)施步驟,通過離線仿真訓(xùn)練,達(dá)到控制器要求后移植到真實(shí)環(huán)境中,實(shí)現(xiàn)非線性系統(tǒng)自適應(yīng)控制。 |
