一種多分類模型訓練方法、系統及裝置
基本信息
申請?zhí)?/td> | CN201911363343.3 | 申請日 | - |
公開(公告)號 | CN113051462A | 公開(公告)日 | 2021-06-29 |
申請公布號 | CN113051462A | 申請公布日 | 2021-06-29 |
分類號 | G06F16/9535;G06F16/35 | 分類 | 計算;推算;計數; |
發(fā)明人 | 張劍;駱起峰;程剛;王昕;劉軼;黃石磊;楊大明 | 申請(專利權)人 | 深圳市北科瑞聲科技股份有限公司 |
代理機構 | 深圳市萬商天勤知識產權事務所(普通合伙) | 代理人 | 羅建平 |
地址 | 518000 廣東省深圳市南山區(qū)高新區(qū)南區(qū)深港產學研基地大樓西座四樓W406室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種多分類模型訓練方法、系統及裝置。方法包括數據預處理步驟,分類步驟和聚類步驟;數據預處理步驟對采集的新聞數據進行初步處理,均衡處理,劃分為訓練集和測試集,進行分詞處理,構建為帶有類別標簽的格式;分類步驟構建文本分類模型,對訓練集中的文本數據進行訓練,得到分類器;使用分類器測試每個測試子集,將測試準確度小于閾值的公司篩選出來構建一個列表;聚類步驟找出列表中每個公司的文本數據,轉換為向量,對向量進行聚類,訓練得到二元分類模型。相對于傳統的機器學習方法,本發(fā)明方案可以使分類的效果越來越好;而相對于深度模型的方法,本發(fā)明方案對數據的依賴比現有技術低。 |
