文本分類樣本的構建方法和文本分類模型的訓練方法

基本信息

申請?zhí)?/td> CN202011593010.2 申請日 -
公開(公告)號 CN112711660A 公開(公告)日 2021-04-27
申請公布號 CN112711660A 申請公布日 2021-04-27
分類號 G06F16/34;G06F16/35;G06F40/258;G06K9/62 分類 計算;推算;計數;
發(fā)明人 唐永鵬;劉碩凌;梁植斌;李正非;徐思文 申請(專利權)人 易方達基金管理有限公司
代理機構 北京英特普羅知識產權代理有限公司 代理人 程超
地址 519000 廣東省珠海市橫琴新區(qū)寶華路6號105室-42891(集中辦公區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了文本分類樣本的構建方法和文本分類模型的訓練方法。該方法包括:獲取訓練文本集;將訓練文本轉化為輸入向量;對訓練文本集中一定數量的訓練文本進行分類結果標注得到訓練樣本集;通過訓練樣本集對預訓練模型進行訓練,得到對應一級標簽的第一分類模型和對應二級標簽的第二分類模型;獲取訓練文本集中訓練樣本集之外的訓練文本,作為擴充文本;將擴充文本對應的輸入向量分別輸入至第一分類模型和第二分類模型,得到一級標簽概率向量和二級標簽概率向量;計算二級標簽概率向量中每個元素與一級標簽概率向量中對應元素的乘積;根據該乘積確定擴充文本對應的分類結果,以對訓練樣本集進行擴充。通過本發(fā)明,能夠實現樣本的快速標注。