一種基于中文分詞識(shí)別不規(guī)則垃圾短信的方法
基本信息
申請(qǐng)?zhí)?/td> | CN201210533577.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN103874033B | 公開(kāi)(公告)日 | 2017-11-24 |
申請(qǐng)公布號(hào) | CN103874033B | 申請(qǐng)公布日 | 2017-11-24 |
分類號(hào) | H04W4/14(2009.01)I;H04M1/725(2006.01)I;G06F17/27(2006.01)I | 分類 | 電通信技術(shù); |
發(fā)明人 | 肖克華 | 申請(qǐng)(專利權(quán))人 | 上海粱江通信系統(tǒng)股份有限公司 |
代理機(jī)構(gòu) | 上海兆豐知識(shí)產(chǎn)權(quán)代理事務(wù)所(有限合伙) | 代理人 | 上海粱江通信系統(tǒng)股份有限公司 |
地址 | 200070 上海市閘北區(qū)天目中路585號(hào)1109室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于中文分詞識(shí)別不規(guī)則垃圾短信的方法,對(duì)于同一短信,依據(jù)短信的內(nèi)容,先按照正常的橫向讀取進(jìn)行中文分詞,根據(jù)分詞結(jié)果的單詞個(gè)數(shù)計(jì)算權(quán)重。再根據(jù)不規(guī)則短信必須控制每行短信字符數(shù)的特點(diǎn),判定不規(guī)則短信內(nèi)容的范圍,對(duì)不規(guī)則排列短信內(nèi)容范圍內(nèi)的字符采取豎向轉(zhuǎn)換為橫向排列,然后進(jìn)行中文分詞,根據(jù)總體的分詞結(jié)果的單詞個(gè)數(shù)計(jì)算權(quán)重。然后根據(jù)兩次權(quán)重比較,判斷此短信是正常排列的短信,還是不規(guī)則排列的短信。進(jìn)而依據(jù)排列的類型,再采用內(nèi)容分析匹配關(guān)鍵字,識(shí)別是否垃圾短信,進(jìn)而避免了垃圾短信的漏判,提高垃圾短信的查全率和查準(zhǔn)率。 |
