文本分類樣本的構(gòu)建方法和文本分類模型的訓(xùn)練方法

基本信息

申請?zhí)?/td> CN202011593010.2 申請日 -
公開(公告)號 CN112711660A 公開(公告)日 2021-04-27
申請公布號 CN112711660A 申請公布日 2021-04-27
分類號 G06F16/34;G06F16/35;G06F40/258;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 唐永鵬;劉碩凌;梁植斌;李正非;徐思文 申請(專利權(quán))人 易方達基金管理有限公司
代理機構(gòu) 北京英特普羅知識產(chǎn)權(quán)代理有限公司 代理人 程超
地址 519000 廣東省珠海市橫琴新區(qū)寶華路6號105室-42891(集中辦公區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了文本分類樣本的構(gòu)建方法和文本分類模型的訓(xùn)練方法。該方法包括:獲取訓(xùn)練文本集;將訓(xùn)練文本轉(zhuǎn)化為輸入向量;對訓(xùn)練文本集中一定數(shù)量的訓(xùn)練文本進行分類結(jié)果標(biāo)注得到訓(xùn)練樣本集;通過訓(xùn)練樣本集對預(yù)訓(xùn)練模型進行訓(xùn)練,得到對應(yīng)一級標(biāo)簽的第一分類模型和對應(yīng)二級標(biāo)簽的第二分類模型;獲取訓(xùn)練文本集中訓(xùn)練樣本集之外的訓(xùn)練文本,作為擴充文本;將擴充文本對應(yīng)的輸入向量分別輸入至第一分類模型和第二分類模型,得到一級標(biāo)簽概率向量和二級標(biāo)簽概率向量;計算二級標(biāo)簽概率向量中每個元素與一級標(biāo)簽概率向量中對應(yīng)元素的乘積;根據(jù)該乘積確定擴充文本對應(yīng)的分類結(jié)果,以對訓(xùn)練樣本集進行擴充。通過本發(fā)明,能夠?qū)崿F(xiàn)樣本的快速標(biāo)注。