一種MapReduce并行化大數據文本分類方法

基本信息

申請?zhí)?/td> CN201510297189.X 申請日 -
公開(公告)號 CN104866606B 公開(公告)日 2019-02-01
申請公布號 CN104866606B 申請公布日 2019-02-01
分類號 G06F16/35 分類 計算;推算;計數;
發(fā)明人 朱信忠;徐慧英;趙建民;陳遠超 申請(專利權)人 浙江師大計海新技術有限公司
代理機構 杭州千克知識產權代理有限公司 代理人 趙芳
地址 321000 浙江省金華市婺城區(qū)丹光西路239號5幢2單元602室
法律狀態(tài) -

摘要

摘要 一種MapReduce并行化大數據文本分類方法,包括如下步驟:第一步:建立用于文本分類的基準測試數據集,進行數據預處理,包括分詞、去停用詞、詞根還原;將該基準測試數據集隨機劃分為訓練文本和測試文本,將所述基準測試數據集采用向量空間模型建立文本表示模型;第二步:根據上述文本表示模型采用CDMT對所述基準測試數據集進行特征選擇;第三步:采用貝葉斯分類器對所述基準測試數據集進行訓練學習,得到分類結果。本發(fā)明提供一種分類性能良好、區(qū)分度較高的MapReduce并行化大數據文本分類方法。