旅游場(chǎng)景強(qiáng)化學(xué)習(xí)模擬環(huán)境構(gòu)建方法、系統(tǒng)、設(shè)備和介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202010649717.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111814050A 公開(kāi)(公告)日 2020-10-23
申請(qǐng)公布號(hào) CN111814050A 申請(qǐng)公布日 2020-10-23
分類(lèi)號(hào) G06F16/9535(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王育添;江文斌;李健 申請(qǐng)(專(zhuān)利權(quán))人 上海攜程國(guó)際旅行社有限公司
代理機(jī)構(gòu) 上海弼興律師事務(wù)所 代理人 薛琦;林嵩
地址 200335上海市長(zhǎng)寧區(qū)金鐘路968號(hào)16號(hào)樓10F
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種旅游場(chǎng)景強(qiáng)化學(xué)習(xí)模擬環(huán)境構(gòu)建方法、系統(tǒng)、設(shè)備和介質(zhì),其中旅游場(chǎng)景強(qiáng)化學(xué)習(xí)模擬環(huán)境構(gòu)建方法包括以下步驟:抽取用戶(hù)對(duì)旅游產(chǎn)品的歷史行為數(shù)據(jù);對(duì)歷史行為數(shù)據(jù)進(jìn)行session劃分;獎(jiǎng)勵(lì)函數(shù)確定和用戶(hù)行為模型估計(jì);輸出模擬環(huán)境。通過(guò)旅游場(chǎng)景強(qiáng)化學(xué)習(xí)模擬環(huán)境的構(gòu)建,智能體可以在一個(gè)類(lèi)似真實(shí)的旅游平臺(tái)上,與虛擬用戶(hù)進(jìn)行多輪交互。在交互過(guò)程中,根據(jù)用戶(hù)行為反饋不斷更新策略,使智能體收斂到生成匹配用戶(hù)動(dòng)態(tài)偏好的最優(yōu)策略。模擬環(huán)境中的模型訓(xùn)練將有助于減少線(xiàn)上的探索成本,為線(xiàn)上強(qiáng)化學(xué)習(xí)模型提供良好的初始化。??