一種針對粗粒度文本分類的數據動態(tài)標注方法及裝置

基本信息

申請?zhí)?/td> CN201910568651.3 申請日 -
公開(公告)號 CN110287324A 公開(公告)日 2019-09-27
申請公布號 CN110287324A 申請公布日 2019-09-27
分類號 G06F16/35;G06K9/62 分類 計算;推算;計數;
發(fā)明人 顧凌云;嚴涵;王洪陽 申請(專利權)人 成都冰鑒信息科技有限公司
代理機構 常州佰業(yè)騰飛專利代理事務所(普通合伙) 代理人 成都冰鑒信息科技有限公司
地址 610041 四川省成都市高新區(qū)天府五街200號3號樓A棟1001室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種針對粗粒度文本分類的數據動態(tài)標注方法及裝置,其中方法包括:按照標簽類別比例均衡標注數據;構建文本TF?IDF詞頻矩陣;使用卡方分布進行特征篩選得到訓練數據集;使用機器學習算法對訓練數據集進行訓練,得到初始模型;獲取測試數據集,利用初始模型對測試數據集中的第一預設數據量的數據進行標注,得到預測標注數據;獲取按照標簽類別分別抽取預測標注數據中的第二預設條數進行審核得到的與各個數據標注標簽對應的數據;將與各個數據標注標簽對應的數據加入到訓練數據集中,使用機器學習算法對訓練數據集進行訓練得到修正模型;判斷訓練數據量是否滿足第二預設數據量,不滿足繼續(xù)執(zhí)行上述流程;滿足存儲修正模型為預測模型。