一種基于機(jī)器學(xué)習(xí)的英文郵件簽名提取方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201710928672.2 申請日 -
公開(公告)號 CN107977399A 公開(公告)日 2018-05-01
申請公布號 CN107977399A 申請公布日 2018-05-01
分類號 G06F17/30;G06K9/62;G06Q10/10 分類 計算;推算;計數(shù);
發(fā)明人 宋東旭;羅丁;楊浩 申請(專利權(quán))人 北京知道未來信息技術(shù)有限公司
代理機(jī)構(gòu) 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 北京知道未來信息技術(shù)有限公司
地址 100102 北京市朝陽區(qū)阜通東大街1號院3號樓1單元112102室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于機(jī)器學(xué)習(xí)的英文郵件簽名提取方法,包括以下步驟:通過正則切分方式,對待處理的英文郵件進(jìn)行簽名提取,獲取一部分簽名數(shù)據(jù);提取樣本簽名數(shù)據(jù)的行特征,將所述行特征輸入SVM進(jìn)行訓(xùn)練獲得訓(xùn)練模型;所述行特征包括sender比對特征;對于通過正則切分方式無法提取獲得簽名數(shù)據(jù)的英文郵件數(shù)據(jù),通過訓(xùn)練模型,識別英文郵件中的簽名行,對簽名行進(jìn)行合并后獲得另一部分簽名數(shù)據(jù)。能夠從英文郵件數(shù)據(jù)中準(zhǔn)確地提出發(fā)件人的個人信息,從而解決了在對郵件數(shù)據(jù)的數(shù)據(jù)挖掘中,經(jīng)常挖掘到郵箱就無法繼續(xù)深入的難題。且提取結(jié)果具有較高的準(zhǔn)確率,具有很高的泛用性。同時提供對應(yīng)該方法的系統(tǒng)。