一種基于機(jī)器學(xué)習(xí)的中文郵件簽名提取方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201710928671.8 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107992508B | 公開(kāi)(公告)日 | 2021-11-30 |
申請(qǐng)公布號(hào) | CN107992508B | 申請(qǐng)公布日 | 2021-11-30 |
分類(lèi)號(hào) | G06F16/903(2019.01)I;G06F16/38(2019.01)I;G06N20/10(2019.01)I;G06K9/62(2006.01)I;G06Q10/10(2012.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 宋東旭;羅丁;楊浩 | 申請(qǐng)(專利權(quán))人 | 北京知道未來(lái)信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 余長(zhǎng)江 |
地址 | 100102北京市朝陽(yáng)區(qū)阜通東大街1號(hào)院3號(hào)樓1單元112102室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于機(jī)器學(xué)習(xí)的中文郵件簽名提取方法,包括以下步驟:通過(guò)正則切分方式,對(duì)待處理的中文郵件進(jìn)行簽名提取,獲取一部分簽名數(shù)據(jù);提取樣本簽名數(shù)據(jù)的行特征,將所述行特征輸入SVM進(jìn)行訓(xùn)練獲得訓(xùn)練模型;對(duì)于通過(guò)正則切分方式無(wú)法提取獲得簽名數(shù)據(jù)的中文郵件數(shù)據(jù),通過(guò)訓(xùn)練模型,識(shí)別中文郵件中的簽名行,對(duì)簽名行進(jìn)行合并后獲得另一部分簽名數(shù)據(jù)。能夠從中文郵件數(shù)據(jù)中準(zhǔn)確地提出發(fā)件人的個(gè)人信息,從而解決了在對(duì)郵件數(shù)據(jù)的數(shù)據(jù)挖掘中,經(jīng)常挖掘到郵箱就無(wú)法繼續(xù)深入的難題。且提取結(jié)果具有較高的準(zhǔn)確率,具有很高的泛用性。同時(shí)提供對(duì)應(yīng)上述方法的系統(tǒng)。 |
