一種語(yǔ)料標(biāo)注方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201811206272.1 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN109522415A | 公開(kāi)(公告)日 | 2021-06-01 |
申請(qǐng)公布號(hào) | CN109522415A | 申請(qǐng)公布日 | 2021-06-01 |
分類號(hào) | G06F16/36;G06F17/27;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 林志偉;肖龍?jiān)?蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(qǐng)(專利權(quán))人 | 廈門(mén)快商通信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 廈門(mén)仕誠(chéng)聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 樂(lè)珠秀 |
地址 | 361007 福建省廈門(mén)市思明區(qū)嘉禾路267號(hào)9樓902室B區(qū) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種語(yǔ)料標(biāo)注方法及裝置,其通過(guò)對(duì)待處理的語(yǔ)料進(jìn)行向量化處理,得到所述語(yǔ)料的文本向量;根據(jù)所述語(yǔ)料的文本向量,利用DBSCAN聚類算法對(duì)所述語(yǔ)料進(jìn)行聚類處理,得到長(zhǎng)尾類語(yǔ)料和待標(biāo)注類語(yǔ)料;對(duì)于所述長(zhǎng)尾類語(yǔ)料,返回再次聚類處理;對(duì)于所述待標(biāo)注類語(yǔ)料,則進(jìn)行設(shè)置標(biāo)簽,得到標(biāo)注語(yǔ)料;最后將所有的標(biāo)注語(yǔ)料進(jìn)行合并,得到最終標(biāo)注好的語(yǔ)料,無(wú)需多次調(diào)整聚類數(shù)量,算法更簡(jiǎn)單,標(biāo)注效率更高,可靠性更好。 |
