一種語(yǔ)料標(biāo)注方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201811206272.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109522415A 公開(kāi)(公告)日 2021-06-01
申請(qǐng)公布號(hào) CN109522415A 申請(qǐng)公布日 2021-06-01
分類號(hào) G06F16/36;G06F17/27;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 林志偉;肖龍?jiān)?蔡振華;李稀敏;劉曉葳;譚玉坤 申請(qǐng)(專利權(quán))人 廈門(mén)快商通信息技術(shù)有限公司
代理機(jī)構(gòu) 廈門(mén)仕誠(chéng)聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 樂(lè)珠秀
地址 361007 福建省廈門(mén)市思明區(qū)嘉禾路267號(hào)9樓902室B區(qū)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種語(yǔ)料標(biāo)注方法及裝置,其通過(guò)對(duì)待處理的語(yǔ)料進(jìn)行向量化處理,得到所述語(yǔ)料的文本向量;根據(jù)所述語(yǔ)料的文本向量,利用DBSCAN聚類算法對(duì)所述語(yǔ)料進(jìn)行聚類處理,得到長(zhǎng)尾類語(yǔ)料和待標(biāo)注類語(yǔ)料;對(duì)于所述長(zhǎng)尾類語(yǔ)料,返回再次聚類處理;對(duì)于所述待標(biāo)注類語(yǔ)料,則進(jìn)行設(shè)置標(biāo)簽,得到標(biāo)注語(yǔ)料;最后將所有的標(biāo)注語(yǔ)料進(jìn)行合并,得到最終標(biāo)注好的語(yǔ)料,無(wú)需多次調(diào)整聚類數(shù)量,算法更簡(jiǎn)單,標(biāo)注效率更高,可靠性更好。