基于漢字筆畫的漢語短文本相似度檢測方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201910877967.0 申請日 -
公開(公告)號 CN110674859A 公開(公告)日 2020-01-10
申請公布號 CN110674859A 申請公布日 2020-01-10
分類號 G06K9/62(2006.01); G06K9/68(2006.01); G06K9/20(2006.01) 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王路; 王穎娜; 張金生; 魏俊華 申請(專利權(quán))人 智陽網(wǎng)絡(luò)技術(shù)(上海)有限公司
代理機(jī)構(gòu) 上海宏京知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 智陽網(wǎng)絡(luò)技術(shù)(上海)有限公司
地址 201802 上海市嘉定區(qū)銀翔路655號610室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了人工智能自然語言處理技術(shù)領(lǐng)域的基于漢字筆畫的漢語短文本相似度檢測方法及系統(tǒng),包括:一、判斷當(dāng)前輸入漢字是否屬于筆畫筆順編碼庫;二、在步驟一中輸入的漢字位于筆畫筆順編碼庫中時(shí),直接對OCR生成文本與源文件進(jìn)行編碼;三、在步驟一中輸入的漢字在筆畫筆順編碼庫中缺失時(shí),先構(gòu)建該漢字的筆畫筆順編碼,然后將構(gòu)建的筆畫筆順編碼加入到筆畫筆順編碼庫中,再對OCR生成文本與源文件進(jìn)行編碼;四、計(jì)算OCR生成文本與源文件之間的相似性。本發(fā)明能夠大幅改善OCR生成文本的質(zhì)量,通過筆畫筆順信息計(jì)算短文本的相似性推測OCR生成文本的源文本,并利用源文本對OCR生成文本進(jìn)行修復(fù);提高了漢語短文本分類的精度,改善漢語短文本的分類效果。