一種錯別字檢測方法及裝置
基本信息
申請?zhí)?/td> | CN202110459221.5 | 申請日 | - |
公開(公告)號 | CN112883717A | 公開(公告)日 | 2021-06-01 |
申請公布號 | CN112883717A | 申請公布日 | 2021-06-01 |
分類號 | G06F40/232;G06F40/211;G06F40/289;G16H10/60 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 胡文;陳聯(lián)忠;胡可云 | 申請(專利權(quán))人 | 北京嘉和海森健康科技有限公司 |
代理機(jī)構(gòu) | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人 | 李偉 |
地址 | 100085 北京市海淀區(qū)上地信息產(chǎn)業(yè)基地開拓路7號1幢二層2208室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N錯別字檢測方法及裝置,應(yīng)用于中文電子病歷中錯別字的識別,該方法通過獲取待檢測文本,并對所述待檢測文本進(jìn)行分句處理,得到至少一個待處理文本;根據(jù)N?gram語言模型,對每個所述待處理文本進(jìn)行打分,得到每個所述待處理文本對應(yīng)的分?jǐn)?shù);將每個所述待處理文本對應(yīng)的分?jǐn)?shù)與預(yù)設(shè)閾值進(jìn)行比較;當(dāng)所述待處理文本對應(yīng)的分?jǐn)?shù)小于預(yù)設(shè)閾值時,確定所述待檢測文本中存在錯別字,并定位錯別字的位置。本申請基于2gram,3gram組合打分,對待檢測文本中的字符進(jìn)行錯別字檢測,可高速有效對醫(yī)學(xué)語料數(shù)據(jù)進(jìn)行錯別字檢測,為后續(xù)產(chǎn)品的研發(fā)打下基礎(chǔ);另外,對于不同的數(shù)據(jù)環(huán)境,可以使用閾值搜索方法調(diào)整閾值標(biāo)準(zhǔn),適用性強(qiáng)。 |
