一種基于訓練集循環(huán)擴充的文本多分類的方法
基本信息
申請?zhí)?/td> | CN201610535646.9 | 申請日 | - |
公開(公告)號 | CN107590156A | 公開(公告)日 | 2018-01-16 |
申請公布號 | CN107590156A | 申請公布日 | 2018-01-16 |
分類號 | G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李雪鵬;田昊樞;毛智愚;歐高炎 | 申請(專利權(quán))人 | 北京至信普林科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 100085 北京市海淀區(qū)西北旺東路10號院東區(qū)5號樓六層603 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及文本多分類系統(tǒng)技術(shù)領(lǐng)域,特別涉及一種基于機器學習的應(yīng)用程序分類的方法。通過應(yīng)用循環(huán)擴充訓練集,以提高使用計算機進行文本多分類的分類效果。具體技術(shù)方案包括:使用文本信息的標題以及文本信息內(nèi)容綜合考慮方案進行文本多分類的方法;構(gòu)建關(guān)鍵詞、停用詞詞典的方法;用人工添加規(guī)則的方法提高小類別分類的效果。在使用同等數(shù)量的正確分類結(jié)論(人工標注的正確結(jié)論),循環(huán)擴充訓練集的方法可以有效提升利用計算機進行文本多酚類的準確率。同時,該方法的分類效率遠高于人工分類。 |
