文本糾錯方法、裝置、電子設備及計算機可讀存儲介質
基本信息
申請?zhí)?/td> | CN202111026986.6 | 申請日 | - |
公開(公告)號 | CN113705203A | 公開(公告)日 | 2021-11-26 |
申請公布號 | CN113705203A | 申請公布日 | 2021-11-26 |
分類號 | G06F40/232(2020.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I | 分類 | 計算;推算;計數; |
發(fā)明人 | 董慧智;王曉平;金明;孟令波;陳琪琪 | 申請(專利權)人 | 上海極鏈科技發(fā)展集團有限公司 |
代理機構 | 北京超凡宏宇專利代理事務所(特殊普通合伙) | 代理人 | 楊奇松 |
地址 | 202150上海市崇明區(qū)中興鎮(zhèn)汲浜公路39號21號樓1103室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N文本糾錯方法、裝置、電子設備及計算機可讀存儲介質,屬于數據處理技術的領域,該文本糾錯方法包括:對待處理文本進行分詞,得到分詞結果,并將分詞結果中連續(xù)的孤立字單元進行拼接得到變體詞,再查詢預先構建的變體詞庫中是否包含所述變體詞,若不包含,則對待處理文本中的變體詞進行掩膜得到掩碼文本,采用掩碼語言模型,對掩碼文本中的掩碼區(qū)域進行預測,得到多個預測詞,接著判斷各預測詞中是否存在與變體詞匹配的預測詞,若是,則將掩碼文本中的變體詞替換為該匹配的預測詞,以得到糾錯后的文本,結合變體詞庫中變體詞查詢和掩碼語言模型的預測,實現雙重糾錯,從而能夠提高對文本的糾錯效果。 |
