文本糾錯方法、裝置、電子設備及計算機可讀存儲介質

基本信息

申請?zhí)?/td> CN202111026986.6 申請日 -
公開(公告)號 CN113705203A 公開(公告)日 2021-11-26
申請公布號 CN113705203A 申請公布日 2021-11-26
分類號 G06F40/232(2020.01)I;G06F40/216(2020.01)I;G06F40/289(2020.01)I 分類 計算;推算;計數;
發(fā)明人 董慧智;王曉平;金明;孟令波;陳琪琪 申請(專利權)人 上海極鏈科技發(fā)展集團有限公司
代理機構 北京超凡宏宇專利代理事務所(特殊普通合伙) 代理人 楊奇松
地址 202150上海市崇明區(qū)中興鎮(zhèn)汲浜公路39號21號樓1103室
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N文本糾錯方法、裝置、電子設備及計算機可讀存儲介質,屬于數據處理技術的領域,該文本糾錯方法包括:對待處理文本進行分詞,得到分詞結果,并將分詞結果中連續(xù)的孤立字單元進行拼接得到變體詞,再查詢預先構建的變體詞庫中是否包含所述變體詞,若不包含,則對待處理文本中的變體詞進行掩膜得到掩碼文本,采用掩碼語言模型,對掩碼文本中的掩碼區(qū)域進行預測,得到多個預測詞,接著判斷各預測詞中是否存在與變體詞匹配的預測詞,若是,則將掩碼文本中的變體詞替換為該匹配的預測詞,以得到糾錯后的文本,結合變體詞庫中變體詞查詢和掩碼語言模型的預測,實現雙重糾錯,從而能夠提高對文本的糾錯效果。