一種文本分類模型的確定方法
基本信息
申請(qǐng)?zhí)?/td> | CN201510924971.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN105574105B | 公開(公告)日 | 2019-05-28 |
申請(qǐng)公布號(hào) | CN105574105B | 申請(qǐng)公布日 | 2019-05-28 |
分類號(hào) | G06F16/35(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 劉鵬 | 申請(qǐng)(專利權(quán))人 | 中國(guó)建設(shè)銀行股份有限公司北京中關(guān)村分行 |
代理機(jī)構(gòu) | 北京品源專利代理有限公司 | 代理人 | 北京銳安科技有限公司 |
地址 | 100044 北京市海淀區(qū)西小口路66號(hào)中關(guān)村東升科技園北領(lǐng)地B-2號(hào)樓七層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種文本分類模型的確定方法,包括:獲取包含多個(gè)文本的樣本數(shù)據(jù),并對(duì)所述樣本數(shù)據(jù)進(jìn)行預(yù)處理;對(duì)所述樣本數(shù)據(jù)中各個(gè)詞進(jìn)行時(shí)間密度的分?jǐn)?shù)計(jì)算,得到所述樣本數(shù)據(jù)中各個(gè)詞的時(shí)間密度的分?jǐn)?shù);所述時(shí)間密度的分?jǐn)?shù)表征包含對(duì)應(yīng)詞的文本在時(shí)間維度上的分布與對(duì)應(yīng)詞在時(shí)間維度上的分布的綜合信息;根據(jù)所述樣本數(shù)據(jù)中各個(gè)詞的時(shí)間密度的分?jǐn)?shù),提取所述樣本數(shù)據(jù)中的特征詞;根據(jù)預(yù)設(shè)的分類算法、提取的特征詞及所述樣本數(shù)據(jù),確定用于判斷待分類文本類別的分類模型。本發(fā)明解決樣本數(shù)據(jù)在時(shí)間維度上分布不均勻時(shí)導(dǎo)致的文本分類性能下降的問題。 |
