文本數(shù)據(jù)增強(qiáng)處理方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202110151190.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112883724A | 公開(公告)日 | 2021-06-01 |
申請(qǐng)公布號(hào) | CN112883724A | 申請(qǐng)公布日 | 2021-06-01 |
分類號(hào) | G06F40/284;G06N3/04;G06N3/08 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 蔡薇;汪偉 | 申請(qǐng)(專利權(quán))人 | 虎博網(wǎng)絡(luò)技術(shù)(上海)有限公司 |
代理機(jī)構(gòu) | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) | 代理人 | 徐麗 |
地址 | 200050 上海市長(zhǎng)寧區(qū)宣化路3號(hào)二層2561室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)?zhí)峁┮环N文本數(shù)據(jù)增強(qiáng)處理方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì),通過將待處理的文本數(shù)據(jù)導(dǎo)入預(yù)先訓(xùn)練得到的識(shí)別模型,以獲得文本數(shù)據(jù)包含的各個(gè)詞匯的詞標(biāo)簽,其中,詞標(biāo)簽可表征詞匯對(duì)文本數(shù)據(jù)的句標(biāo)簽是否產(chǎn)生影響,而識(shí)別模型為利用包含多個(gè)訓(xùn)練文本的訓(xùn)練集訓(xùn)練得到。再根據(jù)各個(gè)詞匯的詞標(biāo)簽對(duì)文本數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,將轉(zhuǎn)換前后的文本數(shù)據(jù)添加至訓(xùn)練集中,再基于訓(xùn)練集對(duì)識(shí)別模型進(jìn)行訓(xùn)練,得到滿足預(yù)設(shè)要求的識(shí)別模型。該方案可結(jié)合詞標(biāo)簽所表征的詞匯對(duì)于文本整體的影響進(jìn)行轉(zhuǎn)換處理,有針對(duì)性地進(jìn)行文本增強(qiáng)處理,可滿足文本增強(qiáng)處理的具體需求,有效提高模型的泛化性。 |
