一種MapReduce并行化大數(shù)據(jù)文本分類方法
基本信息
申請?zhí)?/td> | CN201510297189.X | 申請日 | - |
公開(公告)號 | CN104866606A | 公開(公告)日 | 2015-08-26 |
申請公布號 | CN104866606A | 申請公布日 | 2015-08-26 |
分類號 | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 朱信忠;徐慧英;趙建民;陳遠(yuǎn)超 | 申請(專利權(quán))人 | 浙江師大計(jì)海新技術(shù)有限公司 |
代理機(jī)構(gòu) | 杭州金道專利代理有限公司 | 代理人 | 趙芳 |
地址 | 321000 浙江省金華市婺城區(qū)丹光西路239號5幢2單元602室 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種MapReduce并行化大數(shù)據(jù)文本分類方法,包括如下步驟:第一步:建立用于文本分類的基準(zhǔn)測試數(shù)據(jù)集,進(jìn)行數(shù)據(jù)預(yù)處理,包括分詞、去停用詞、詞根還原;將該基準(zhǔn)測試數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練文本和測試文本,將所述基準(zhǔn)測試數(shù)據(jù)集采用向量空間模型建立文本表示模型;第二步:根據(jù)上述文本表示模型采用CDMT對所述基準(zhǔn)測試數(shù)據(jù)集進(jìn)行特征選擇;第三步:采用貝葉斯分類器對所述基準(zhǔn)測試數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí),得到分類結(jié)果。本發(fā)明提供一種分類性能良好、區(qū)分度較高的MapReduce并行化大數(shù)據(jù)文本分類方法。 |
