一種語料標(biāo)注方法及裝置

基本信息

申請?zhí)?/td> CN201811206272.1 申請日 -
公開(公告)號 CN109522415B 公開(公告)日 2021-06-01
申請公布號 CN109522415B 申請公布日 2021-06-01
分類號 G06F16/36(2019.01)I;G06K9/62(2006.01)I;G06F40/295(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 林志偉;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤 申請(專利權(quán))人 廈門快商通信息技術(shù)有限公司
代理機構(gòu) 廈門仕誠聯(lián)合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 樂珠秀
地址 361007福建省廈門市思明區(qū)嘉禾路267號9樓902室B區(qū)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種語料標(biāo)注方法及裝置,其通過對待處理的語料進行向量化處理,得到所述語料的文本向量;根據(jù)所述語料的文本向量,利用DBSCAN聚類算法對所述語料進行聚類處理,得到長尾類語料和待標(biāo)注類語料;對于所述長尾類語料,返回再次聚類處理;對于所述待標(biāo)注類語料,則進行設(shè)置標(biāo)簽,得到標(biāo)注語料;最后將所有的標(biāo)注語料進行合并,得到最終標(biāo)注好的語料,無需多次調(diào)整聚類數(shù)量,算法更簡單,標(biāo)注效率更高,可靠性更好。??