基于漢字筆畫的漢語短文本相似度檢測方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201910877967.0 | 申請日 | - |
公開(公告)號 | CN110674859A | 公開(公告)日 | 2020-01-10 |
申請公布號 | CN110674859A | 申請公布日 | 2020-01-10 |
分類號 | G06K9/62(2006.01); G06K9/68(2006.01); G06K9/20(2006.01) | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王路; 王穎娜; 張金生; 魏俊華 | 申請(專利權(quán))人 | 智陽網(wǎng)絡(luò)技術(shù)(上海)有限公司 |
代理機(jī)構(gòu) | 上海宏京知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 智陽網(wǎng)絡(luò)技術(shù)(上海)有限公司 |
地址 | 201802 上海市嘉定區(qū)銀翔路655號610室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了人工智能自然語言處理技術(shù)領(lǐng)域的基于漢字筆畫的漢語短文本相似度檢測方法及系統(tǒng),包括:一、判斷當(dāng)前輸入漢字是否屬于筆畫筆順編碼庫;二、在步驟一中輸入的漢字位于筆畫筆順編碼庫中時(shí),直接對OCR生成文本與源文件進(jìn)行編碼;三、在步驟一中輸入的漢字在筆畫筆順編碼庫中缺失時(shí),先構(gòu)建該漢字的筆畫筆順編碼,然后將構(gòu)建的筆畫筆順編碼加入到筆畫筆順編碼庫中,再對OCR生成文本與源文件進(jìn)行編碼;四、計(jì)算OCR生成文本與源文件之間的相似性。本發(fā)明能夠大幅改善OCR生成文本的質(zhì)量,通過筆畫筆順信息計(jì)算短文本的相似性推測OCR生成文本的源文本,并利用源文本對OCR生成文本進(jìn)行修復(fù);提高了漢語短文本分類的精度,改善漢語短文本的分類效果。 |
