一種基于二元化的簡歷解析方法

基本信息

申請?zhí)?/td> CN201910260863.5 申請日 -
公開(公告)號 CN109948120A 公開(公告)日 2019-06-28
申請公布號 CN109948120A 申請公布日 2019-06-28
分類號 G06F17/21(2006.01)I; G06F17/22(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 鐘實; 陳少燕; 潘志鋒 申請(專利權(quán))人 深圳市前海歡雀科技有限公司
代理機構(gòu) 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 深圳市前海歡雀科技有限公司
地址 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于二元化的簡歷解析方法包括:批量讀入簡歷;把批量讀入簡歷的轉(zhuǎn)換成HTML以及TXT文本格式;判斷轉(zhuǎn)換成HTML格式的簡歷是否可以套用簡歷精確識別模板;根據(jù)正則表達式的方法,利用XPATH對轉(zhuǎn)化成HTML文本格式的簡歷信息進行解析,并對解析后的簡歷信息進行評分,判斷是否高于預定義的閾值;利用TensorFlow構(gòu)建的BI?LSTM?CRF機器學習模型進行簡歷信息命名實體提??;利用標簽字典及結(jié)合命名實體提取識別出簡歷信息,進行簡歷信息各個板塊切割;遍歷各個簡歷板塊內(nèi)容,利用數(shù)據(jù)鏈表存儲提取出的簡歷信息內(nèi)容;將經(jīng)過簡析的簡歷信息用JSON或XML結(jié)構(gòu)化數(shù)據(jù)進行存儲。本發(fā)明可以在有限的簡歷樣本的基礎(chǔ)上,實現(xiàn)對簡歷信息的精準識別。