一種基于短文本相似度的稅務(wù)商品編碼分類(lèi)方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201711085221.3 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107862046A | 公開(kāi)(公告)日 | 2018-03-30 |
申請(qǐng)公布號(hào) | CN107862046A | 申請(qǐng)公布日 | 2018-03-30 |
分類(lèi)號(hào) | G06F17/30;G06F17/27 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 龐勝民;王濤;孫科武;林文輝;高哲;張浩 | 申請(qǐng)(專(zhuān)利權(quán))人 | 寧波愛(ài)信諾航天信息有限公司 |
代理機(jī)構(gòu) | 寧波高新區(qū)核心力專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 寧波愛(ài)信諾航天信息有限公司;航天信息股份有限公司 |
地址 | 315000 浙江省寧波市高新區(qū)光華路299弄14幢34、35號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于短文本相似度的稅務(wù)商品編碼分類(lèi)方法及系統(tǒng),所述方法包括:獲取樣本數(shù)據(jù);對(duì)樣本數(shù)據(jù)進(jìn)行分詞;獲得擴(kuò)展詞;計(jì)算KL差異熵,以獲得待分類(lèi)稅務(wù)商品編碼與已有類(lèi)別之間的差異度,根據(jù)所述差異度完成所述分類(lèi)。本發(fā)明對(duì)商品文本信息進(jìn)行具體分類(lèi),分為本體詞和擴(kuò)展詞,本體詞通過(guò)應(yīng)用先進(jìn)的分詞技術(shù)對(duì)商品的短文本進(jìn)行中文分詞獲得,擴(kuò)展詞集合包括索引詞和縮略詞,擴(kuò)展詞利用外部搜索引擎獲得。本發(fā)明擴(kuò)充了待分類(lèi)詞語(yǔ)集合后,利用KL差別熵計(jì)算模型來(lái)計(jì)算待分類(lèi)詞語(yǔ)已有類(lèi)別之間的差異度,改進(jìn)了該計(jì)算模型,同時(shí)引入了平滑參數(shù),在計(jì)算其條件詞頻與反詞頻、條件概率等值時(shí),防止分母出現(xiàn)0的情況,此外也提高了相似度計(jì)算的效率。 |
