一種基于采樣頻率優(yōu)化的主動學習短文本分類方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202010669590.2 | 申請日 | - |
公開(公告)號 | CN111897912B | 公開(公告)日 | 2021-04-06 |
申請公布號 | CN111897912B | 申請公布日 | 2021-04-06 |
分類號 | G06N3/08(2006.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 朱其立;沈李斌;廖千姿;顧鈺儀;趙迎功;吳海華 | 申請(專利權(quán))人 | 上海樂言科技股份有限公司 |
代理機構(gòu) | 上海專利商標事務(wù)所有限公司 | 代理人 | 施浩 |
地址 | 200050上海市長寧區(qū)長寧路1033號聯(lián)通大廈19樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了基于采樣頻率優(yōu)化的主動學習短文本分類方法和系統(tǒng),拓寬主動學習優(yōu)化方向,提供業(yè)界廣泛使用的簡單有效的優(yōu)化框架。其技術(shù)方案為:文本分類器學習已標注數(shù)據(jù);基于文本分類器的學習結(jié)果對未標注數(shù)據(jù)進行采樣評估并選出最有價值數(shù)據(jù);對選出數(shù)據(jù)進行手動標注并加入到已標注數(shù)據(jù)中,重復(fù)上述步驟直到迭代次數(shù)達到上限或準確度達標。在采樣評估過程中,對已標注數(shù)據(jù),根據(jù)其所屬類別進行分類,統(tǒng)計每種類別已標注的數(shù)據(jù)量,得到各自的采樣頻率數(shù)據(jù);對未標注數(shù)據(jù),對未標注數(shù)據(jù)先進行評估得到初始評估分值及其預(yù)測結(jié)果類別,然后根據(jù)預(yù)測結(jié)果類別獲取對應(yīng)的采樣頻率數(shù)據(jù),基于初始評估分值和對應(yīng)類別的采樣頻率數(shù)據(jù)得到最終評估分值。?? |
