一種語料標(biāo)注方法及裝置
基本信息
申請?zhí)?/td> | CN201811206272.1 | 申請日 | - |
公開(公告)號 | CN109522415B | 公開(公告)日 | 2021-06-01 |
申請公布號 | CN109522415B | 申請公布日 | 2021-06-01 |
分類號 | G06F16/36(2019.01)I;G06K9/62(2006.01)I;G06F40/295(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 林志偉;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(專利權(quán))人 | 廈門快商通信息技術(shù)有限公司 |
代理機構(gòu) | 廈門仕誠聯(lián)合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 樂珠秀 |
地址 | 361007福建省廈門市思明區(qū)嘉禾路267號9樓902室B區(qū) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種語料標(biāo)注方法及裝置,其通過對待處理的語料進行向量化處理,得到所述語料的文本向量;根據(jù)所述語料的文本向量,利用DBSCAN聚類算法對所述語料進行聚類處理,得到長尾類語料和待標(biāo)注類語料;對于所述長尾類語料,返回再次聚類處理;對于所述待標(biāo)注類語料,則進行設(shè)置標(biāo)簽,得到標(biāo)注語料;最后將所有的標(biāo)注語料進行合并,得到最終標(biāo)注好的語料,無需多次調(diào)整聚類數(shù)量,算法更簡單,標(biāo)注效率更高,可靠性更好。?? |
