一種基于統(tǒng)計(jì)模型識(shí)別短信文本模版的方法、設(shè)備及介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202010434799.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111597806A 公開(kāi)(公告)日 2020-08-28
申請(qǐng)公布號(hào) CN111597806A 申請(qǐng)公布日 2020-08-28
分類(lèi)號(hào) G06F40/279(2020.01)I;G06F40/194(2020.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 元方;唐小波;宋爭(zhēng)光;黃建輝;黃春霞 申請(qǐng)(專(zhuān)利權(quán))人 上海創(chuàng)藍(lán)云智信息科技股份有限公司
代理機(jī)構(gòu) 成都智言知識(shí)產(chǎn)權(quán)代理有限公司 代理人 胡文莉
地址 201600上海市松江區(qū)中創(chuàng)路68號(hào)19幢
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及文本信息識(shí)別技術(shù)領(lǐng)域,尤其是一種基于統(tǒng)計(jì)模型識(shí)別短信文本模版的方法、設(shè)備及介質(zhì),本發(fā)明從短信文本內(nèi)容去反推短信文本模板,通過(guò)先收集相似模板的短信文本再做后續(xù)處理,在進(jìn)行兩兩對(duì)比時(shí)先獲取兩條短信中共同的字符;再按公共字符在兩文本中出現(xiàn)的順序進(jìn)行順序提取,最后只比較上一步的字符;這樣做有如下好處:1)不用全文匹配,省時(shí)省力;2)只用選擇重點(diǎn)區(qū)域比較,更有針對(duì)性;3)因?yàn)槭峭荒0?,所以必定模板字符同時(shí)出現(xiàn)在原文中。由于本發(fā)明是基于規(guī)則的短信文本模板匹配,短信文本模板識(shí)別的正確性很高。本發(fā)明還可以減少短信的存儲(chǔ)空間,達(dá)到約1:10000的存儲(chǔ)空間優(yōu)化。??