一種基于采樣頻率優(yōu)化的主動(dòng)學(xué)習(xí)短文本分類方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202010669590.2 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111897912A | 公開(kāi)(公告)日 | 2020-11-06 |
申請(qǐng)公布號(hào) | CN111897912A | 申請(qǐng)公布日 | 2020-11-06 |
分類號(hào) | G06F16/33(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 朱其立;沈李斌;廖千姿;顧鈺儀;趙迎功;吳海華 | 申請(qǐng)(專利權(quán))人 | 上海樂(lè)言科技股份有限公司 |
代理機(jī)構(gòu) | 上海專利商標(biāo)事務(wù)所有限公司 | 代理人 | 施浩 |
地址 | 200050上海市長(zhǎng)寧區(qū)長(zhǎng)寧路1033號(hào)聯(lián)通大廈16樓/18樓/19樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了基于采樣頻率優(yōu)化的主動(dòng)學(xué)習(xí)短文本分類方法和系統(tǒng),拓寬主動(dòng)學(xué)習(xí)優(yōu)化方向,提供業(yè)界廣泛使用的簡(jiǎn)單有效的優(yōu)化框架。其技術(shù)方案為:文本分類器學(xué)習(xí)已標(biāo)注數(shù)據(jù);基于文本分類器的學(xué)習(xí)結(jié)果對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行采樣評(píng)估并選出最有價(jià)值數(shù)據(jù);對(duì)選出數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)注并加入到已標(biāo)注數(shù)據(jù)中,重復(fù)上述步驟直到迭代次數(shù)達(dá)到上限或準(zhǔn)確度達(dá)標(biāo)。在采樣評(píng)估過(guò)程中,對(duì)已標(biāo)注數(shù)據(jù),根據(jù)其所屬類別進(jìn)行分類,統(tǒng)計(jì)每種類別已標(biāo)注的數(shù)據(jù)量,得到各自的采樣頻率數(shù)據(jù);對(duì)未標(biāo)注數(shù)據(jù),對(duì)未標(biāo)注數(shù)據(jù)先進(jìn)行評(píng)估得到初始評(píng)估分值及其預(yù)測(cè)結(jié)果類別,然后根據(jù)預(yù)測(cè)結(jié)果類別獲取對(duì)應(yīng)的采樣頻率數(shù)據(jù),基于初始評(píng)估分值和對(duì)應(yīng)類別的采樣頻率數(shù)據(jù)得到最終評(píng)估分值。?? |
