智能體訓(xùn)練方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

基本信息

申請?zhí)?/td> CN202010901910.2 申請日 -
公開(公告)號(hào) CN112036578A 公開(公告)日 2020-12-04
申請公布號(hào) CN112036578A 申請公布日 2020-12-04
分類號(hào) G06N20/00;G06N3/08;G06F8/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李焱;覃小春;李佶學(xué) 申請(專利權(quán))人 成都數(shù)字天空科技有限公司
代理機(jī)構(gòu) 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 代理人 成都數(shù)字天空科技有限公司
地址 610041 四川省成都市高新區(qū)中國(四川)自由貿(mào)易試驗(yàn)區(qū)成都天華二路219號(hào)7棟6層
法律狀態(tài) -

摘要

摘要 本申請涉及人工智能技術(shù)領(lǐng)域,提供一種智能體訓(xùn)練方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。其中,智能體訓(xùn)練方法包括:接收第一算法側(cè)發(fā)起的第一動(dòng)作執(zhí)行請求;向第一環(huán)境側(cè)發(fā)送作為第一環(huán)境側(cè)之前發(fā)起的第一動(dòng)作獲取請求的返回結(jié)果的第一動(dòng)作,以使第一環(huán)境側(cè)執(zhí)行第一動(dòng)作;接收第一環(huán)境側(cè)發(fā)起的第二動(dòng)作獲取請求;向第一算法側(cè)發(fā)送作為第一動(dòng)作執(zhí)行請求的返回結(jié)果的第二狀態(tài),以使第一算法側(cè)根據(jù)第二狀態(tài)更新智能體,并獲取更新后的智能體選擇出的第二動(dòng)作,第二動(dòng)作為第一算法側(cè)之后要發(fā)起的第二動(dòng)作執(zhí)行請求中攜帶的動(dòng)作。該方法使得算法設(shè)計(jì)人員和環(huán)境開發(fā)人員都可以按照自己習(xí)慣的邏輯進(jìn)行程序開發(fā),因此顯著提高了算法和環(huán)境開發(fā)的效率。