一種基于相空間的檔案分類方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202110153675.X 申請日 -
公開(公告)號 CN113254634A 公開(公告)日 2021-08-13
申請公布號 CN113254634A 申請公布日 2021-08-13
分類號 G06F16/35;G06K9/62;G06K9/00;G06N3/04 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 蘇衛(wèi)衛(wèi);黃瑞;衣秀;張成;黃軍陽 申請(專利權(quán))人 天津德爾塔科技有限公司
代理機(jī)構(gòu) 天津市尚儀知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 鄧琳
地址 300384 天津市濱海新區(qū)高新區(qū)華苑產(chǎn)業(yè)區(qū)工華道2號8號樓-1-3
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于相空間的檔案分類方法及系統(tǒng),所述檔案分類方法包括以下步驟:采用文本分析技術(shù)和OCR技術(shù)讀取檔案內(nèi)容;采用關(guān)鍵詞抽取技術(shù)自動抽取檔案關(guān)鍵詞;針對檔案文本采用word2vec提取特征,構(gòu)建文本向量,同時考慮文本全局向量權(quán)重和自身關(guān)鍵詞權(quán)重;采用聚類技術(shù)對檔案數(shù)據(jù)進(jìn)行壓縮;采用支撐向量機(jī)文本分類技術(shù)根據(jù)檔案內(nèi)容建立檔案分類模型,利用測試數(shù)據(jù)對模型進(jìn)行評估,根據(jù)模型測試結(jié)果對模型進(jìn)行調(diào)優(yōu);應(yīng)用檔案分類模型對未知類別檔案數(shù)據(jù)進(jìn)行類別劃分。本發(fā)明解決了傳統(tǒng)的檔案管理技術(shù)無法對各類檔案文本的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合分析的技術(shù)問題,大大節(jié)省了人力。