一種基于二元化的簡歷解析方法
基本信息
申請?zhí)?/td> | CN201910260863.5 | 申請日 | - |
公開(公告)號 | CN109948120A | 公開(公告)日 | 2019-06-28 |
申請公布號 | CN109948120A | 申請公布日 | 2019-06-28 |
分類號 | G06F17/21(2006.01)I; G06F17/22(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鐘實; 陳少燕; 潘志鋒 | 申請(專利權(quán))人 | 深圳市前海歡雀科技有限公司 |
代理機構(gòu) | 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 深圳市前海歡雀科技有限公司 |
地址 | 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于二元化的簡歷解析方法包括:批量讀入簡歷;把批量讀入簡歷的轉(zhuǎn)換成HTML以及TXT文本格式;判斷轉(zhuǎn)換成HTML格式的簡歷是否可以套用簡歷精確識別模板;根據(jù)正則表達式的方法,利用XPATH對轉(zhuǎn)化成HTML文本格式的簡歷信息進行解析,并對解析后的簡歷信息進行評分,判斷是否高于預定義的閾值;利用TensorFlow構(gòu)建的BI?LSTM?CRF機器學習模型進行簡歷信息命名實體提??;利用標簽字典及結(jié)合命名實體提取識別出簡歷信息,進行簡歷信息各個板塊切割;遍歷各個簡歷板塊內(nèi)容,利用數(shù)據(jù)鏈表存儲提取出的簡歷信息內(nèi)容;將經(jīng)過簡析的簡歷信息用JSON或XML結(jié)構(gòu)化數(shù)據(jù)進行存儲。本發(fā)明可以在有限的簡歷樣本的基礎(chǔ)上,實現(xiàn)對簡歷信息的精準識別。 |
