久久99精品久久久国产女明星,国产区在线观看视频播放专区,内射精品少妇一二三

請輸入想查詢的關(guān)鍵字

查詢

退出

會員

商務(wù)合作

瀏覽歷史

清除

首頁/ 廣州優(yōu)策科技有限公司/ 專利詳情

一種強化學(xué)習(xí)訓(xùn)練方法及基于強化學(xué)習(xí)的決策方法

基本信息

申請?zhí)?/td>	CN202011451511.7	申請日	-
公開（公告）號	CN112580801A	公開（公告）日	2021-03-30
申請公布號	CN112580801A	申請公布日	2021-03-30
分類號	G06N3/08(2006.01)I;G06N3/04(2006.01)I	分類	計算；推算；計數(shù);
發(fā)明人	劉震;王闖;周興;李華	申請（專利權(quán)）人	廣州優(yōu)策科技有限公司
代理機構(gòu)	北京三聚陽光知識產(chǎn)權(quán)代理有限公司	代理人	李紅團
地址	511457廣東省廣州市南沙區(qū)南沙街進港大道8號1107房
法律狀態(tài)	-

摘要

本發(fā)明提供一種強化學(xué)習(xí)訓(xùn)練方法及基于強化學(xué)習(xí)的決策方法，其中，強化學(xué)習(xí)模型訓(xùn)練方法，包括如下步驟：獲取多組歷史狀態(tài)數(shù)據(jù)；將每一組歷史狀態(tài)數(shù)據(jù)輸入至強化學(xué)習(xí)模型，得到初步?jīng)Q策數(shù)據(jù)；將所述每一組歷史狀態(tài)數(shù)據(jù)和所述初步?jīng)Q策數(shù)據(jù)輸入至預(yù)先建立的貝葉斯神經(jīng)網(wǎng)絡(luò)模型，得到狀態(tài)變化量以及獎勵值，所述狀態(tài)量變化值為當前狀態(tài)數(shù)據(jù)與下一狀態(tài)數(shù)據(jù)的差值；根據(jù)所述每一組歷史狀態(tài)數(shù)據(jù)以及對應(yīng)的初步?jīng)Q策數(shù)據(jù)、狀態(tài)變化量以及獎勵值更新所述強化學(xué)習(xí)模型的模型參數(shù)。通過實施本發(fā)明，能夠增加強化學(xué)習(xí)模型訓(xùn)練樣本量，提高強化學(xué)習(xí)效果，提高動態(tài)決策規(guī)劃結(jié)果的準確性。??

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩 内射 人妻

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻