一種基于采樣頻率優(yōu)化的主動學習短文本分類方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202010669590.2 申請日 -
公開(公告)號 CN111897912B 公開(公告)日 2021-04-06
申請公布號 CN111897912B 申請公布日 2021-04-06
分類號 G06N3/08(2006.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 朱其立;沈李斌;廖千姿;顧鈺儀;趙迎功;吳海華 申請(專利權(quán))人 上海樂言科技股份有限公司
代理機構(gòu) 上海專利商標事務(wù)所有限公司 代理人 施浩
地址 200050上海市長寧區(qū)長寧路1033號聯(lián)通大廈19樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于采樣頻率優(yōu)化的主動學習短文本分類方法和系統(tǒng),拓寬主動學習優(yōu)化方向,提供業(yè)界廣泛使用的簡單有效的優(yōu)化框架。其技術(shù)方案為:文本分類器學習已標注數(shù)據(jù);基于文本分類器的學習結(jié)果對未標注數(shù)據(jù)進行采樣評估并選出最有價值數(shù)據(jù);對選出數(shù)據(jù)進行手動標注并加入到已標注數(shù)據(jù)中,重復(fù)上述步驟直到迭代次數(shù)達到上限或準確度達標。在采樣評估過程中,對已標注數(shù)據(jù),根據(jù)其所屬類別進行分類,統(tǒng)計每種類別已標注的數(shù)據(jù)量,得到各自的采樣頻率數(shù)據(jù);對未標注數(shù)據(jù),對未標注數(shù)據(jù)先進行評估得到初始評估分值及其預(yù)測結(jié)果類別,然后根據(jù)預(yù)測結(jié)果類別獲取對應(yīng)的采樣頻率數(shù)據(jù),基于初始評估分值和對應(yīng)類別的采樣頻率數(shù)據(jù)得到最終評估分值。??