基于實(shí)體的詞法檢查方法與裝置和計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202010677539.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111651978A | 公開(kāi)(公告)日 | 2020-09-11 |
申請(qǐng)公布號(hào) | CN111651978A | 申請(qǐng)公布日 | 2020-09-11 |
分類號(hào) | G06F40/253(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李勇斌;鄭海濤;馮勤宇;趙從志;盧炳干 | 申請(qǐng)(專利權(quán))人 | 深圳市智搜信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 深圳市精英專利事務(wù)所 | 代理人 | 深圳市智搜信息技術(shù)有限公司 |
地址 | 518000廣東省深圳市南山區(qū)西麗街道新東路1號(hào)清華信息港科研樓9樓905 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于實(shí)體的詞法檢查方法與裝置和計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),方法包括:計(jì)算相鄰三個(gè)詞的詞級(jí)N?Gram得分,和相鄰三個(gè)字的字級(jí)N?Gram得分;通過(guò)計(jì)算詞級(jí)N?Gram得分與字級(jí)N?Gram得分的平均絕對(duì)離差,將值大于閾值的字詞初步識(shí)別為錯(cuò)誤字詞,創(chuàng)建錯(cuò)誤字詞集;統(tǒng)計(jì)所述錯(cuò)誤字詞并創(chuàng)建候選集合,將所述候選集合中的候選字詞分別按照順序代入原文,替換之前的錯(cuò)別字詞;對(duì)組合成的新文本進(jìn)行分詞、分字,使用詞級(jí)N?Gram計(jì)算詞級(jí)的句子困惑度,使用字級(jí)N?Gram計(jì)算字級(jí)的句子困惑度,計(jì)算句子的字詞平均困惑度;對(duì)所述候選集合的候選字詞計(jì)算困惑度之后,與原句子的困惑度進(jìn)行比較,選取最小困惑度的候選字詞作為最佳候選字詞。?? |
