基于漢字筆畫的漢語短文本相似度檢測方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201910877967.0 | 申請日 | - |
公開(公告)號 | CN110674859A | 公開(公告)日 | 2020-01-10 |
申請公布號 | CN110674859A | 申請公布日 | 2020-01-10 |
分類號 | G06K9/62(2006.01); G06K9/68(2006.01); G06K9/20(2006.01) | 分類 | 計算;推算;計數; |
發(fā)明人 | 王路; 王穎娜; 張金生; 魏俊華 | 申請(專利權)人 | 智陽網絡技術(上海)有限公司 |
代理機構 | 上海宏京知識產權代理事務所(普通合伙) | 代理人 | 智陽網絡技術(上海)有限公司 |
地址 | 201802 上海市嘉定區(qū)銀翔路655號610室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了人工智能自然語言處理技術領域的基于漢字筆畫的漢語短文本相似度檢測方法及系統(tǒng),包括:一、判斷當前輸入漢字是否屬于筆畫筆順編碼庫;二、在步驟一中輸入的漢字位于筆畫筆順編碼庫中時,直接對OCR生成文本與源文件進行編碼;三、在步驟一中輸入的漢字在筆畫筆順編碼庫中缺失時,先構建該漢字的筆畫筆順編碼,然后將構建的筆畫筆順編碼加入到筆畫筆順編碼庫中,再對OCR生成文本與源文件進行編碼;四、計算OCR生成文本與源文件之間的相似性。本發(fā)明能夠大幅改善OCR生成文本的質量,通過筆畫筆順信息計算短文本的相似性推測OCR生成文本的源文本,并利用源文本對OCR生成文本進行修復;提高了漢語短文本分類的精度,改善漢語短文本的分類效果。 |
