基于樣本比率懸殊時(shí)改進(jìn)模型預(yù)測(cè)準(zhǔn)確率的方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201810294658.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN108764271A 公開(kāi)(公告)日 2018-11-06
申請(qǐng)公布號(hào) CN108764271A 申請(qǐng)公布日 2018-11-06
分類號(hào) G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王聯(lián)軍;徐勐;馬平男;王有兵 申請(qǐng)(專利權(quán))人 杭州雅拓信息技術(shù)有限公司
代理機(jī)構(gòu) 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 施敬勃
地址 310003 浙江省杭州市下城區(qū)新華路266號(hào)571室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開(kāi)了一種基于樣本比率懸殊時(shí)改進(jìn)模型預(yù)測(cè)準(zhǔn)確率的方法和系統(tǒng)。包括1)學(xué)習(xí)數(shù)據(jù)的預(yù)處理:通過(guò)供模型學(xué)習(xí)的所有數(shù)據(jù)進(jìn)行抽樣,將得到的抽樣數(shù)據(jù)集與目標(biāo)變量為1的數(shù)據(jù)拼成新的供模型學(xué)習(xí)的樣本集;2)建立學(xué)習(xí)模型:將供模型學(xué)習(xí)的樣本集做為模型學(xué)習(xí)集,供模型學(xué)習(xí),得到學(xué)習(xí)好的模型;3)應(yīng)用模型:將預(yù)測(cè)集變量放入學(xué)習(xí)好的模型,進(jìn)行預(yù)測(cè),獲得樣本預(yù)測(cè)label值;4)返回步驟1)進(jìn)行多次循環(huán),并標(biāo)記每次循環(huán)獲得的預(yù)測(cè)label值;5)重新標(biāo)記:當(dāng)n個(gè)label值中為1的占比大于β時(shí)將該樣本標(biāo)記為1,確認(rèn)為正樣本。本申請(qǐng)能排除偶然性將負(fù)樣本誤判為正樣本的情況,從而提高改進(jìn)模型預(yù)測(cè)準(zhǔn)確率。