一種基于多項(xiàng)式事件模型的文檔分類方法、系統(tǒng)

基本信息

申請?zhí)?/td> CN201910401554.5 申請日 -
公開(公告)號 CN112035657A 公開(公告)日 2020-12-04
申請公布號 CN112035657A 申請公布日 2020-12-04
分類號 G06F16/35;G06F40/284 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 田艷梅 申請(專利權(quán))人 四川亞歐瑞智科技有限公司
代理機(jī)構(gòu) 上海宏京知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 四川亞歐瑞智科技有限公司
地址 610000 四川省成都市高新區(qū)(西區(qū))天全路200號2號樓10層1001號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于多項(xiàng)式事件模型的文檔分類方法,涉及電子檔案自動并庫軟件系統(tǒng),所述方法包括以下步驟:S1:從未分類的歷史文檔庫隨機(jī)抽取樣本作為訓(xùn)練集,對訓(xùn)練集中的歷史文檔進(jìn)行分詞,形成歷史詞匯列表集;S2:基于預(yù)設(shè)關(guān)鍵詞詞典,對所述歷史詞匯列表進(jìn)行數(shù)學(xué)建模,將歷史詞匯列表轉(zhuǎn)換成歷史數(shù)學(xué)向量集以進(jìn)行運(yùn)算;S3:構(gòu)建分類器的數(shù)學(xué)模型,并利用所述歷史數(shù)學(xué)向量集對分類器的數(shù)學(xué)模型進(jìn)行訓(xùn)練,獲得模型參數(shù)值,生成分類器;S4:將生成的分類器應(yīng)用在待分類文檔中,對待分類文檔進(jìn)行自動分類,得到分類結(jié)果。用于解決現(xiàn)有技術(shù)中文檔分類耗費(fèi)大量的人力物力、資金,分類質(zhì)量得不到保證,不具備可推廣性的技術(shù)問題。