一種基于文本挖掘的金融類逾期短信智能判別方法

基本信息

申請?zhí)?/td> CN201610951973.2 申請日 -
公開(公告)號 CN106547738B 公開(公告)日 2019-05-07
申請公布號 CN106547738B 申請公布日 2019-05-07
分類號 G06F17/27(2006.01)I; G06Q40/02(2012.01)I 分類 計算;推算;計數(shù);
發(fā)明人 邱峰; 張滿才 申請(專利權(quán))人 北京億美軟通科技有限公司
代理機(jī)構(gòu) 北京永創(chuàng)新實(shí)專利事務(wù)所 代理人 北京億美軟通科技有限公司
地址 100025 北京市朝陽區(qū)四惠東通惠河畔創(chuàng)意文化產(chǎn)業(yè)園1131號君天大廈6層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于文本挖掘的金融類逾期短信智能判別方法,屬于文本數(shù)據(jù)挖掘領(lǐng)域。本發(fā)明方法主要包括:獲取短信文本進(jìn)行分詞,計算短信文本的相似度,提取短信模板;對短信模板抽樣標(biāo)注是否為金融逾期短信;對所有短信模板進(jìn)行分詞,挖掘新詞和領(lǐng)域詞組,形成新詞庫;用新詞庫對短信模板重新分詞,提取對逾期判別具有重要價值的分詞,組成特征向量空間;將標(biāo)注的短信模板作為訓(xùn)練數(shù)據(jù),采用支持向量機(jī)算法訓(xùn)練金融逾期分類器模型,訓(xùn)練好后輸入所有短信,進(jìn)行逾期分類判別。采用本發(fā)明方法,可以快速地從大量短信文本中提取金融逾期類相關(guān)的短信,從而為個人征信業(yè)務(wù)提供重要參考價值。