一種基于相似度匹配的文本分類方法

基本信息

申請?zhí)?/td> CN201810704164.0 申請日 -
公開(公告)號 CN109033212B 公開(公告)日 2021-09-07
申請公布號 CN109033212B 申請公布日 2021-09-07
分類號 G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F40/194(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 向湘杰 申請(專利權(quán))人 東莞市華睿電子科技有限公司
代理機(jī)構(gòu) 北京酷愛智慧知識產(chǎn)權(quán)代理有限公司 代理人 王海文
地址 200000上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗區(qū)環(huán)科路999弄7號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于相似度匹配的文本分類方法,通過服務(wù)器接收用戶上傳的待分類的第一文本,對所述第一文本進(jìn)行詞頻統(tǒng)計,將詞頻統(tǒng)計結(jié)果輸入分類模型,通過分類模型識別出其所屬的第一級文本類別;根據(jù)所述第一級文本類別,獲取服務(wù)器中所述第一級文本類別下所對應(yīng)的多個第二文本;服務(wù)器依次計算第一文本與各個第二文本之間的相似度;判斷計算出的相似度最大值是否超出預(yù)設(shè)閾值;若超出,則將第一文本歸類到相似度最大值所對應(yīng)的第二文本所屬的第二級文本類別;否則,將第一文本歸類到未識別文本集中。本發(fā)明公開的文本分類方法,在現(xiàn)有技術(shù)的基礎(chǔ)上,增加了相似文本匹配的步驟,提高了文本分類的效率和準(zhǔn)確性。