一種基于短文本相似度的稅務(wù)商品編碼分類(lèi)方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201711085221.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107862046A 公開(kāi)(公告)日 2018-03-30
申請(qǐng)公布號(hào) CN107862046A 申請(qǐng)公布日 2018-03-30
分類(lèi)號(hào) G06F17/30;G06F17/27 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 龐勝民;王濤;孫科武;林文輝;高哲;張浩 申請(qǐng)(專(zhuān)利權(quán))人 寧波愛(ài)信諾航天信息有限公司
代理機(jī)構(gòu) 寧波高新區(qū)核心力專(zhuān)利代理事務(wù)所(普通合伙) 代理人 寧波愛(ài)信諾航天信息有限公司;航天信息股份有限公司
地址 315000 浙江省寧波市高新區(qū)光華路299弄14幢34、35號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于短文本相似度的稅務(wù)商品編碼分類(lèi)方法及系統(tǒng),所述方法包括:獲取樣本數(shù)據(jù);對(duì)樣本數(shù)據(jù)進(jìn)行分詞;獲得擴(kuò)展詞;計(jì)算KL差異熵,以獲得待分類(lèi)稅務(wù)商品編碼與已有類(lèi)別之間的差異度,根據(jù)所述差異度完成所述分類(lèi)。本發(fā)明對(duì)商品文本信息進(jìn)行具體分類(lèi),分為本體詞和擴(kuò)展詞,本體詞通過(guò)應(yīng)用先進(jìn)的分詞技術(shù)對(duì)商品的短文本進(jìn)行中文分詞獲得,擴(kuò)展詞集合包括索引詞和縮略詞,擴(kuò)展詞利用外部搜索引擎獲得。本發(fā)明擴(kuò)充了待分類(lèi)詞語(yǔ)集合后,利用KL差別熵計(jì)算模型來(lái)計(jì)算待分類(lèi)詞語(yǔ)已有類(lèi)別之間的差異度,改進(jìn)了該計(jì)算模型,同時(shí)引入了平滑參數(shù),在計(jì)算其條件詞頻與反詞頻、條件概率等值時(shí),防止分母出現(xiàn)0的情況,此外也提高了相似度計(jì)算的效率。