文本數(shù)據(jù)增強處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202110151190.7 申請日 -
公開(公告)號 CN112883724A 公開(公告)日 2021-06-01
申請公布號 CN112883724A 申請公布日 2021-06-01
分類號 G06F40/284;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 蔡薇;汪偉 申請(專利權(quán))人 虎博網(wǎng)絡(luò)技術(shù)(上海)有限公司
代理機構(gòu) 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 代理人 徐麗
地址 200050 上海市長寧區(qū)宣化路3號二層2561室
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N文本數(shù)據(jù)增強處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì),通過將待處理的文本數(shù)據(jù)導入預先訓練得到的識別模型,以獲得文本數(shù)據(jù)包含的各個詞匯的詞標簽,其中,詞標簽可表征詞匯對文本數(shù)據(jù)的句標簽是否產(chǎn)生影響,而識別模型為利用包含多個訓練文本的訓練集訓練得到。再根據(jù)各個詞匯的詞標簽對文本數(shù)據(jù)進行轉(zhuǎn)換處理,將轉(zhuǎn)換前后的文本數(shù)據(jù)添加至訓練集中,再基于訓練集對識別模型進行訓練,得到滿足預設(shè)要求的識別模型。該方案可結(jié)合詞標簽所表征的詞匯對于文本整體的影響進行轉(zhuǎn)換處理,有針對性地進行文本增強處理,可滿足文本增強處理的具體需求,有效提高模型的泛化性。