一種面向文本大數(shù)據(jù)的中文分詞方法

基本信息

申請(qǐng)?zhí)?/td> CN201410711771.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104408034B 公開(kāi)(公告)日 2017-03-22
申請(qǐng)公布號(hào) CN104408034B 申請(qǐng)公布日 2017-03-22
分類號(hào) G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 徐濤;鄒復(fù)好;周可;唐小蔓;鄭勝;張勝;陳進(jìn)才;李春花 申請(qǐng)(專利權(quán))人 武漢數(shù)為科技有限公司
代理機(jī)構(gòu) 武漢東喻專利代理事務(wù)所(普通合伙) 代理人 宋業(yè)斌
地址 430074 湖北省武漢市東湖高新技術(shù)開(kāi)發(fā)區(qū)高新大道999號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種面向文本大數(shù)據(jù)的中文分詞方法,屬于自然語(yǔ)言處理領(lǐng)域。其特征在于所述方法包括以下步驟:(1)對(duì)本地海量數(shù)據(jù)文件進(jìn)行分解處理,形成數(shù)據(jù)塊;(2)對(duì)分解后的數(shù)據(jù)塊文件進(jìn)行Map化處理,得到以偏移量為Key,文本內(nèi)容為Value的<Key,Value>鍵值對(duì);(3)通過(guò)一系列的分詞處理,獲得最終的分詞結(jié)果,并且得到以偏移量為Key,分詞結(jié)果為Value的<Key,Value>鍵值對(duì),作為Map函數(shù)的輸出;(4)對(duì)Map函數(shù)得到的<Key,Value>鍵值對(duì)進(jìn)行Reduce處理,Reduce函數(shù)得到原始文件與分詞結(jié)果文件對(duì)應(yīng)<Key,Value>鍵值對(duì)的索引文件,并將最終結(jié)果匯總寫(xiě)入到HDFS。該方法在文本大數(shù)據(jù)情況下,保證了分詞準(zhǔn)確率的同時(shí),并且極大的提高了系統(tǒng)的吞吐率以及中文分詞的效率,具有極高的實(shí)用價(jià)值。