一種文本語料生成方法、裝置、設(shè)備及介質(zhì)
基本信息
申請?zhí)?/td> | CN202011627584.7 | 申請日 | - |
公開(公告)號 | CN114692642A | 公開(公告)日 | 2022-07-01 |
申請公布號 | CN114692642A | 申請公布日 | 2022-07-01 |
分類號 | G06F40/30(2020.01)I;G06F40/211(2020.01)I;G06F40/279(2020.01)I;G06F40/44(2020.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 康兵兵;蔣卓;劉太路;林紹令 | 申請(專利權(quán))人 | 北京獵戶星空科技有限公司 |
代理機(jī)構(gòu) | 北京同達(dá)信恒知識產(chǎn)權(quán)代理有限公司 | 代理人 | - |
地址 | 100025北京市朝陽區(qū)姚家園南路一號惠通時代廣場8號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種文本語料生成方法、裝置、設(shè)備及介質(zhì),用以解決現(xiàn)有基于預(yù)設(shè)的泛化規(guī)則,生成的泛化文本質(zhì)量差,不利于后續(xù)基于該文本語料進(jìn)行模型訓(xùn)練的問題。由于本發(fā)明實(shí)施例在生成文本語料對應(yīng)的目標(biāo)泛化文本時,是基于預(yù)先訓(xùn)練完成的至少一個文本泛化模型、解碼網(wǎng)絡(luò)以及該文本語料確定的,使獲取的泛化文本更加貼近自然語言,且解碼網(wǎng)絡(luò)在對每個第一概率序列進(jìn)行解碼時,不僅根據(jù)該第一概率序列,還根據(jù)已解碼出的第一字符,使得該第一概率序列解碼出的第二字符可以考慮前后文的語義、語序等信息,確定泛化文本,后續(xù)根據(jù)解碼得到的泛化文本,確定該文本語料對應(yīng)的目標(biāo)泛化文本會更加的準(zhǔn)確。 |
