基于深度強化學習對銀行風險定價的優(yōu)化方法和裝置
基本信息
申請?zhí)?/td> | CN202011486443.8 | 申請日 | - |
公開(公告)號 | CN112488826A | 公開(公告)日 | 2021-03-12 |
申請公布號 | CN112488826A | 申請公布日 | 2021-03-12 |
分類號 | G06N3/08(2006.01)I;G06Q40/02(2012.01)I;G06Q10/06(2012.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 段行健;田春明;曹然 | 申請(專利權)人 | 北京逸風金科軟件有限公司 |
代理機構 | 北京匯捷知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 于鵬 |
地址 | 100083北京市西城區(qū)阜成門外大街31號4層421A | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開提供了基于深度強化學習對銀行風險定價的優(yōu)化方法,對動作值函數(shù)網(wǎng)絡參數(shù)和策略網(wǎng)絡參數(shù)進行初始化;通過現(xiàn)有初始化的網(wǎng)絡與銀行模擬環(huán)境進行交互,完成初始化經(jīng)驗回放;通過均勻分布在經(jīng)驗回放池中采樣,獲取訓練樣本;通過動作值函數(shù)網(wǎng)絡和策略網(wǎng)絡的損失函數(shù)對當前網(wǎng)絡的參數(shù)進行更新;經(jīng)過多輪訓練,通過預設的更新方式,將當前網(wǎng)絡的參數(shù)復制到目標網(wǎng)絡中以完成對銀行風險定價的優(yōu)化操作。該方法能夠用沙盤模擬平臺的仿真銀行模擬環(huán)境,基于深度強化學習算法進行模型訓練,得到可應用于真實銀行經(jīng)營和場景的模型,并推測出系統(tǒng)性風險約束下銀行最優(yōu)的風險定價。本公開還涉及基于深度強化學習對銀行風險定價的優(yōu)化裝置。?? |
