一種基于采樣頻率優(yōu)化的主動學(xué)習(xí)短文本分類方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202010669590.2 申請日 -
公開(公告)號 CN111897912B 公開(公告)日 2021-04-06
申請公布號 CN111897912B 申請公布日 2021-04-06
分類號 G06N3/08(2006.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 朱其立;沈李斌;廖千姿;顧鈺儀;趙迎功;吳海華 申請(專利權(quán))人 上海樂言科技股份有限公司
代理機(jī)構(gòu) 上海專利商標(biāo)事務(wù)所有限公司 代理人 施浩
地址 200050上海市長寧區(qū)長寧路1033號聯(lián)通大廈19樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于采樣頻率優(yōu)化的主動學(xué)習(xí)短文本分類方法和系統(tǒng),拓寬主動學(xué)習(xí)優(yōu)化方向,提供業(yè)界廣泛使用的簡單有效的優(yōu)化框架。其技術(shù)方案為:文本分類器學(xué)習(xí)已標(biāo)注數(shù)據(jù);基于文本分類器的學(xué)習(xí)結(jié)果對未標(biāo)注數(shù)據(jù)進(jìn)行采樣評估并選出最有價(jià)值數(shù)據(jù);對選出數(shù)據(jù)進(jìn)行手動標(biāo)注并加入到已標(biāo)注數(shù)據(jù)中,重復(fù)上述步驟直到迭代次數(shù)達(dá)到上限或準(zhǔn)確度達(dá)標(biāo)。在采樣評估過程中,對已標(biāo)注數(shù)據(jù),根據(jù)其所屬類別進(jìn)行分類,統(tǒng)計(jì)每種類別已標(biāo)注的數(shù)據(jù)量,得到各自的采樣頻率數(shù)據(jù);對未標(biāo)注數(shù)據(jù),對未標(biāo)注數(shù)據(jù)先進(jìn)行評估得到初始評估分值及其預(yù)測結(jié)果類別,然后根據(jù)預(yù)測結(jié)果類別獲取對應(yīng)的采樣頻率數(shù)據(jù),基于初始評估分值和對應(yīng)類別的采樣頻率數(shù)據(jù)得到最終評估分值。??