一種基于統(tǒng)計模型識別短信文本模版的方法、設備及介質(zhì)
基本信息
申請?zhí)?/td> | CN202010434799.0 | 申請日 | - |
公開(公告)號 | CN111597806A | 公開(公告)日 | 2020-08-28 |
申請公布號 | CN111597806A | 申請公布日 | 2020-08-28 |
分類號 | G06F40/279(2020.01)I;G06F40/194(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 元方;唐小波;宋爭光;黃建輝;黃春霞 | 申請(專利權(quán))人 | 上海創(chuàng)藍云智信息科技股份有限公司 |
代理機構(gòu) | 成都智言知識產(chǎn)權(quán)代理有限公司 | 代理人 | 胡文莉 |
地址 | 201600上海市松江區(qū)中創(chuàng)路68號19幢 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及文本信息識別技術(shù)領(lǐng)域,尤其是一種基于統(tǒng)計模型識別短信文本模版的方法、設備及介質(zhì),本發(fā)明從短信文本內(nèi)容去反推短信文本模板,通過先收集相似模板的短信文本再做后續(xù)處理,在進行兩兩對比時先獲取兩條短信中共同的字符;再按公共字符在兩文本中出現(xiàn)的順序進行順序提取,最后只比較上一步的字符;這樣做有如下好處:1)不用全文匹配,省時省力;2)只用選擇重點區(qū)域比較,更有針對性;3)因為是同一模板,所以必定模板字符同時出現(xiàn)在原文中。由于本發(fā)明是基于規(guī)則的短信文本模板匹配,短信文本模板識別的正確性很高。本發(fā)明還可以減少短信的存儲空間,達到約1:10000的存儲空間優(yōu)化。?? |
