一種基于相空間的檔案分類方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110153675.X | 申請日 | - |
公開(公告)號 | CN113254634A | 公開(公告)日 | 2021-08-13 |
申請公布號 | CN113254634A | 申請公布日 | 2021-08-13 |
分類號 | G06F16/35;G06K9/62;G06K9/00;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 蘇衛(wèi)衛(wèi);黃瑞;衣秀;張成;黃軍陽 | 申請(專利權(quán))人 | 天津德爾塔科技有限公司 |
代理機(jī)構(gòu) | 天津市尚儀知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 鄧琳 |
地址 | 300384 天津市濱海新區(qū)高新區(qū)華苑產(chǎn)業(yè)區(qū)工華道2號8號樓-1-3 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于相空間的檔案分類方法及系統(tǒng),所述檔案分類方法包括以下步驟:采用文本分析技術(shù)和OCR技術(shù)讀取檔案內(nèi)容;采用關(guān)鍵詞抽取技術(shù)自動抽取檔案關(guān)鍵詞;針對檔案文本采用word2vec提取特征,構(gòu)建文本向量,同時考慮文本全局向量權(quán)重和自身關(guān)鍵詞權(quán)重;采用聚類技術(shù)對檔案數(shù)據(jù)進(jìn)行壓縮;采用支撐向量機(jī)文本分類技術(shù)根據(jù)檔案內(nèi)容建立檔案分類模型,利用測試數(shù)據(jù)對模型進(jìn)行評估,根據(jù)模型測試結(jié)果對模型進(jìn)行調(diào)優(yōu);應(yīng)用檔案分類模型對未知類別檔案數(shù)據(jù)進(jìn)行類別劃分。本發(fā)明解決了傳統(tǒng)的檔案管理技術(shù)無法對各類檔案文本的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合分析的技術(shù)問題,大大節(jié)省了人力。 |
