訓練文本數(shù)據(jù)的擴增方法、裝置及電子設備

基本信息

申請?zhí)?/td> CN202210094683.6 申請日 -
公開(公告)號 CN114118068B 公開(公告)日 2022-04-29
申請公布號 CN114118068B 申請公布日 2022-04-29
分類號 G06F40/237(2020.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 劉志敏;徐亮;李蒙 申請(專利權)人 北京淇瑀信息科技有限公司
代理機構(gòu) 北京清誠知識產(chǎn)權代理有限公司 代理人 何懷燕
地址 100012北京市朝陽區(qū)雙營路11號院3號樓2層4單元207
法律狀態(tài) -

摘要

摘要 本申請涉及一種訓練文本數(shù)據(jù)的擴增方法、裝置、電子設備及計算機可讀介質(zhì)。該方法包括:獲取任務描述數(shù)據(jù)、標簽描述集合、樣例文本集合;將所述任務描述數(shù)據(jù)、所述標簽描述集合、所述樣例文本集合拼接生成任務標簽文本集合;將所述任務標簽文本集合輸入預訓練過的語言模型中,生成多個擴增樣例文本;通過所述多個擴增樣例文本集合生成訓練文本數(shù)據(jù);利用所述訓練文本數(shù)據(jù)對機器學習模型進行模型訓練。本申請能夠方便快捷的生成大量的用于自然語言模型訓練的文本數(shù)據(jù)、節(jié)省人力時間和成本,而且生成的文本數(shù)據(jù)多樣性高,提高下游模型的訓練效果,提升用戶數(shù)據(jù)安全度。