文本信息處理方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202010248972.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111460827B | 公開(公告)日 | 2020-12-15 |
申請(qǐng)公布號(hào) | CN111460827B | 申請(qǐng)公布日 | 2020-12-15 |
分類號(hào) | G06F40/295;G06K9/62;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄔國(guó)銳;李楊 | 申請(qǐng)(專利權(quán))人 | 北京愛咔咔信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京致科知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北京愛咔咔信息技術(shù)有限公司 |
地址 | 100085 北京市海淀區(qū)上地四街8號(hào)樓502-6 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種文本信息處理方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。本發(fā)明的方法,通過(guò)預(yù)先采用與所述待處理文本的類型對(duì)應(yīng)的糾錯(cuò)訓(xùn)練集訓(xùn)練得到的糾錯(cuò)模型,對(duì)待處理文本進(jìn)行糾錯(cuò)處理,得到所述待處理文本的至少一個(gè)糾正文本,實(shí)現(xiàn)對(duì)待處理文本中的字形錯(cuò)誤等進(jìn)行糾正;通過(guò)預(yù)先采用與所述待處理文本的類型對(duì)應(yīng)的結(jié)構(gòu)化特征訓(xùn)練集訓(xùn)練得到的命名實(shí)體識(shí)別模型,提取所述糾正文本的結(jié)構(gòu)化特征,并將所述糾正文本的結(jié)構(gòu)化特征與可信數(shù)據(jù)集中各個(gè)標(biāo)準(zhǔn)文本信息的結(jié)構(gòu)化特征進(jìn)行匹配,確定與所述糾正文本對(duì)應(yīng)的標(biāo)準(zhǔn)文本信息,實(shí)現(xiàn)進(jìn)一步地通過(guò)結(jié)構(gòu)化特征對(duì)糾正文本中存在的命名實(shí)體錯(cuò)誤進(jìn)行糾正,提高了文本信息識(shí)別的準(zhǔn)確率。 |
