一種數(shù)據(jù)資源的信息目錄主題庫分類方法

基本信息

申請?zhí)?/td> CN202110659501.0 申請日 -
公開(公告)號 CN113342975A 公開(公告)日 2021-09-03
申請公布號 CN113342975A 申請公布日 2021-09-03
分類號 G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06K9/62(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳白雪;張律;楊洋;吳胤杰;周國棟;汪濤 申請(專利權(quán))人 江蘇卓易信息科技股份有限公司
代理機(jī)構(gòu) 無錫知初知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 高春濤
地址 214205江蘇省無錫市宜興市新街街道興業(yè)路298號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種數(shù)據(jù)資源的信息目錄主題庫分類方法,涉及大數(shù)據(jù)管理技術(shù)領(lǐng)域。包括以下步驟:1)采集數(shù)據(jù)資源的信息目錄樣本作為樣本數(shù)據(jù);2)對樣本數(shù)據(jù)進(jìn)行標(biāo)記,標(biāo)記所用標(biāo)簽為擬定的主題庫名稱;3)基于自然語言處理方法將標(biāo)簽進(jìn)行向量化處理,基于機(jī)器學(xué)習(xí)方法訓(xùn)練分類模型,使用分類模型進(jìn)行數(shù)據(jù)資源的信息目錄主題庫分類,劃分主題庫;4)調(diào)整樣本數(shù)據(jù)內(nèi)容和標(biāo)簽類別,優(yōu)化分類模型。本申請結(jié)合自然語言處理的方法,將劃分主題庫轉(zhuǎn)化為文本分類問題,不需要人工去總結(jié)標(biāo)簽體系規(guī)則,能夠批量對主題庫進(jìn)行分類,提高了資源的有效利用率。同時(shí)結(jié)合本問題的特點(diǎn)對文本特征做了改造,相比改造之前分類的準(zhǔn)確性得到顯著提升。