遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別數(shù)據(jù)的降噪方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN202011564259.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114757190A | 公開(公告)日 | 2022-07-15 |
申請(qǐng)公布號(hào) | CN114757190A | 申請(qǐng)公布日 | 2022-07-15 |
分類號(hào) | G06F40/295(2020.01)I;G06K9/62(2022.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張文凱;韓先培;孫樂;劉匯丹;魏志成;懷寶興;袁晶 | 申請(qǐng)(專利權(quán))人 | 華為云計(jì)算技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京中博世達(dá)專利商標(biāo)代理有限公司 | 代理人 | - |
地址 | 550025貴州省貴陽市貴安新區(qū)黔中大道交興功路華為云數(shù)據(jù)中心 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)實(shí)施例提供一種遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別數(shù)據(jù)的降噪方法及裝置,涉及自然語言處理領(lǐng)域,能夠提升降噪性能。該方法包括:獲取多個(gè)標(biāo)注語料集以及該多個(gè)標(biāo)注語料集各自的總體噪聲率,一個(gè)標(biāo)注語料集包含多個(gè)標(biāo)注語料,該多個(gè)標(biāo)注語料是對(duì)多個(gè)語料進(jìn)行命名實(shí)體標(biāo)注得到的結(jié)果;然后將該多個(gè)標(biāo)注語料集作為訓(xùn)練集,基于該多個(gè)標(biāo)注語料集各自的總體噪聲率,訓(xùn)練得到目標(biāo)神經(jīng)網(wǎng)絡(luò)模型;并基于目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,確定第一標(biāo)注語料集包含的多個(gè)標(biāo)注語料的置信度;以及根據(jù)第一標(biāo)注語料集包含的多個(gè)標(biāo)注語料的置信度以及第一標(biāo)注語料集的總體噪聲率,確定第一標(biāo)注語料集中的噪聲語料,并且刪除第一標(biāo)注語料集中的噪聲語料。 |
