一種基于統(tǒng)計模型識別短信文本模版的方法、設備及介質(zhì)

基本信息

申請?zhí)?/td> CN202010434799.0 申請日 -
公開(公告)號 CN111597806A 公開(公告)日 2020-08-28
申請公布號 CN111597806A 申請公布日 2020-08-28
分類號 G06F40/279(2020.01)I;G06F40/194(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 元方;唐小波;宋爭光;黃建輝;黃春霞 申請(專利權(quán))人 上海創(chuàng)藍云智信息科技股份有限公司
代理機構(gòu) 成都智言知識產(chǎn)權(quán)代理有限公司 代理人 胡文莉
地址 201600上海市松江區(qū)中創(chuàng)路68號19幢
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及文本信息識別技術(shù)領(lǐng)域,尤其是一種基于統(tǒng)計模型識別短信文本模版的方法、設備及介質(zhì),本發(fā)明從短信文本內(nèi)容去反推短信文本模板,通過先收集相似模板的短信文本再做后續(xù)處理,在進行兩兩對比時先獲取兩條短信中共同的字符;再按公共字符在兩文本中出現(xiàn)的順序進行順序提取,最后只比較上一步的字符;這樣做有如下好處:1)不用全文匹配,省時省力;2)只用選擇重點區(qū)域比較,更有針對性;3)因為是同一模板,所以必定模板字符同時出現(xiàn)在原文中。由于本發(fā)明是基于規(guī)則的短信文本模板匹配,短信文本模板識別的正確性很高。本發(fā)明還可以減少短信的存儲空間,達到約1:10000的存儲空間優(yōu)化。??