一種語(yǔ)料預(yù)處理方法、語(yǔ)料預(yù)標(biāo)注方法及電子設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN201811036054.8 申請(qǐng)日 -
公開(公告)號(hào) CN109446300B 公開(公告)日 2021-04-20
申請(qǐng)公布號(hào) CN109446300B 申請(qǐng)公布日 2021-04-20
分類號(hào) G06F16/332(2019.01)I;G06F16/35(2019.01)I;G06F40/295(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 林志偉;肖龍?jiān)?蔡振華;李稀敏;劉曉葳;譚玉坤 申請(qǐng)(專利權(quán))人 廈門快商通信息技術(shù)有限公司
代理機(jī)構(gòu) 廈門仕誠(chéng)聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 樂珠秀
地址 361007福建省廈門市思明區(qū)嘉禾路267號(hào)9樓902室B區(qū)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及自然語(yǔ)言處理技術(shù),提供了一種語(yǔ)料預(yù)處理的方法,所述方法包含步驟:分別對(duì)各語(yǔ)料進(jìn)行向量化處理,獲得所述語(yǔ)料的文本向量;基于所述語(yǔ)料的文本向量進(jìn)行聚類,從所述語(yǔ)料中確定出專用語(yǔ)料;對(duì)所述專用語(yǔ)料進(jìn)行命名實(shí)體識(shí)別,確定出所述專用語(yǔ)料中包含的命名實(shí)體;基于目標(biāo)命名實(shí)體對(duì)所述專用語(yǔ)料進(jìn)行分類;分別從各所述分類的所述專用語(yǔ)料中抽取第一預(yù)設(shè)數(shù)量的所述專用語(yǔ)料,作為所述預(yù)處理結(jié)果。基于本實(shí)施例所提供的方法,可通過(guò)對(duì)原始語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,以剔除大量重復(fù)的目標(biāo)語(yǔ)料,供后續(xù)人工標(biāo)注或其他處理,從而可大幅度的減少重復(fù)的人工處理工作。??