一種數(shù)據(jù)資源的信息目錄主題庫分類方法
基本信息
申請?zhí)?/td> | CN202110659501.0 | 申請日 | - |
公開(公告)號 | CN113342975A | 公開(公告)日 | 2021-09-03 |
申請公布號 | CN113342975A | 申請公布日 | 2021-09-03 |
分類號 | G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳白雪;張律;楊洋;吳胤杰;周國棟;汪濤 | 申請(專利權(quán))人 | 上海百之敖信息科技有限公司 |
代理機構(gòu) | 無錫知初知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 高春濤 |
地址 | 214205江蘇省無錫市宜興市新街街道興業(yè)路298號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種數(shù)據(jù)資源的信息目錄主題庫分類方法,涉及大數(shù)據(jù)管理技術(shù)領(lǐng)域。包括以下步驟:1)采集數(shù)據(jù)資源的信息目錄樣本作為樣本數(shù)據(jù);2)對樣本數(shù)據(jù)進行標記,標記所用標簽為擬定的主題庫名稱;3)基于自然語言處理方法將標簽進行向量化處理,基于機器學(xué)習(xí)方法訓(xùn)練分類模型,使用分類模型進行數(shù)據(jù)資源的信息目錄主題庫分類,劃分主題庫;4)調(diào)整樣本數(shù)據(jù)內(nèi)容和標簽類別,優(yōu)化分類模型。本申請結(jié)合自然語言處理的方法,將劃分主題庫轉(zhuǎn)化為文本分類問題,不需要人工去總結(jié)標簽體系規(guī)則,能夠批量對主題庫進行分類,提高了資源的有效利用率。同時結(jié)合本問題的特點對文本特征做了改造,相比改造之前分類的準確性得到顯著提升。 |
