遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別數(shù)據(jù)的降噪方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202011564259.0 申請(qǐng)日 -
公開(公告)號(hào) CN114757190A 公開(公告)日 2022-07-15
申請(qǐng)公布號(hào) CN114757190A 申請(qǐng)公布日 2022-07-15
分類號(hào) G06F40/295(2020.01)I;G06K9/62(2022.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張文凱;韓先培;孫樂;劉匯丹;魏志成;懷寶興;袁晶 申請(qǐng)(專利權(quán))人 華為云計(jì)算技術(shù)有限公司
代理機(jī)構(gòu) 北京中博世達(dá)專利商標(biāo)代理有限公司 代理人 -
地址 550025貴州省貴陽市貴安新區(qū)黔中大道交興功路華為云數(shù)據(jù)中心
法律狀態(tài) -

摘要

摘要 本申請(qǐng)實(shí)施例提供一種遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別數(shù)據(jù)的降噪方法及裝置,涉及自然語言處理領(lǐng)域,能夠提升降噪性能。該方法包括:獲取多個(gè)標(biāo)注語料集以及該多個(gè)標(biāo)注語料集各自的總體噪聲率,一個(gè)標(biāo)注語料集包含多個(gè)標(biāo)注語料,該多個(gè)標(biāo)注語料是對(duì)多個(gè)語料進(jìn)行命名實(shí)體標(biāo)注得到的結(jié)果;然后將該多個(gè)標(biāo)注語料集作為訓(xùn)練集,基于該多個(gè)標(biāo)注語料集各自的總體噪聲率,訓(xùn)練得到目標(biāo)神經(jīng)網(wǎng)絡(luò)模型;并基于目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,確定第一標(biāo)注語料集包含的多個(gè)標(biāo)注語料的置信度;以及根據(jù)第一標(biāo)注語料集包含的多個(gè)標(biāo)注語料的置信度以及第一標(biāo)注語料集的總體噪聲率,確定第一標(biāo)注語料集中的噪聲語料,并且刪除第一標(biāo)注語料集中的噪聲語料。