訓練文本數(shù)據(jù)的擴增方法、裝置及電子設備
基本信息
申請?zhí)?/td> | CN202210094683.6 | 申請日 | - |
公開(公告)號 | CN114118068B | 公開(公告)日 | 2022-04-29 |
申請公布號 | CN114118068B | 申請公布日 | 2022-04-29 |
分類號 | G06F40/237(2020.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉志敏;徐亮;李蒙 | 申請(專利權)人 | 北京淇瑀信息科技有限公司 |
代理機構(gòu) | 北京清誠知識產(chǎn)權代理有限公司 | 代理人 | 何懷燕 |
地址 | 100012北京市朝陽區(qū)雙營路11號院3號樓2層4單元207 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請涉及一種訓練文本數(shù)據(jù)的擴增方法、裝置、電子設備及計算機可讀介質(zhì)。該方法包括:獲取任務描述數(shù)據(jù)、標簽描述集合、樣例文本集合;將所述任務描述數(shù)據(jù)、所述標簽描述集合、所述樣例文本集合拼接生成任務標簽文本集合;將所述任務標簽文本集合輸入預訓練過的語言模型中,生成多個擴增樣例文本;通過所述多個擴增樣例文本集合生成訓練文本數(shù)據(jù);利用所述訓練文本數(shù)據(jù)對機器學習模型進行模型訓練。本申請能夠方便快捷的生成大量的用于自然語言模型訓練的文本數(shù)據(jù)、節(jié)省人力時間和成本,而且生成的文本數(shù)據(jù)多樣性高,提高下游模型的訓練效果,提升用戶數(shù)據(jù)安全度。 |
