一種基于相似度匹配的文本分類方法
基本信息
申請(qǐng)?zhí)?/td> | CN201810704164.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN109033212B | 公開(kāi)(公告)日 | 2021-09-07 |
申請(qǐng)公布號(hào) | CN109033212B | 申請(qǐng)公布日 | 2021-09-07 |
分類號(hào) | G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F40/194(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 向湘杰 | 申請(qǐng)(專利權(quán))人 | 東莞市華睿電子科技有限公司 |
代理機(jī)構(gòu) | 北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王海文 |
地址 | 200000上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)環(huán)科路999弄7號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于相似度匹配的文本分類方法,通過(guò)服務(wù)器接收用戶上傳的待分類的第一文本,對(duì)所述第一文本進(jìn)行詞頻統(tǒng)計(jì),將詞頻統(tǒng)計(jì)結(jié)果輸入分類模型,通過(guò)分類模型識(shí)別出其所屬的第一級(jí)文本類別;根據(jù)所述第一級(jí)文本類別,獲取服務(wù)器中所述第一級(jí)文本類別下所對(duì)應(yīng)的多個(gè)第二文本;服務(wù)器依次計(jì)算第一文本與各個(gè)第二文本之間的相似度;判斷計(jì)算出的相似度最大值是否超出預(yù)設(shè)閾值;若超出,則將第一文本歸類到相似度最大值所對(duì)應(yīng)的第二文本所屬的第二級(jí)文本類別;否則,將第一文本歸類到未識(shí)別文本集中。本發(fā)明公開(kāi)的文本分類方法,在現(xiàn)有技術(shù)的基礎(chǔ)上,增加了相似文本匹配的步驟,提高了文本分類的效率和準(zhǔn)確性。 |
