一種基于二元化的簡(jiǎn)歷解析方法

基本信息

申請(qǐng)?zhí)?/td> CN201910260863.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109948120A 公開(kāi)(公告)日 2019-06-28
申請(qǐng)公布號(hào) CN109948120A 申請(qǐng)公布日 2019-06-28
分類(lèi)號(hào) G06F17/21(2006.01)I; G06F17/22(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鐘實(shí); 陳少燕; 潘志鋒 申請(qǐng)(專(zhuān)利權(quán))人 深圳市前海歡雀科技有限公司
代理機(jī)構(gòu) 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 深圳市前海歡雀科技有限公司
地址 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號(hào)A棟201室(入駐深圳市前海商務(wù)秘書(shū)有限公司)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于二元化的簡(jiǎn)歷解析方法包括:批量讀入簡(jiǎn)歷;把批量讀入簡(jiǎn)歷的轉(zhuǎn)換成HTML以及TXT文本格式;判斷轉(zhuǎn)換成HTML格式的簡(jiǎn)歷是否可以套用簡(jiǎn)歷精確識(shí)別模板;根據(jù)正則表達(dá)式的方法,利用XPATH對(duì)轉(zhuǎn)化成HTML文本格式的簡(jiǎn)歷信息進(jìn)行解析,并對(duì)解析后的簡(jiǎn)歷信息進(jìn)行評(píng)分,判斷是否高于預(yù)定義的閾值;利用TensorFlow構(gòu)建的BI?LSTM?CRF機(jī)器學(xué)習(xí)模型進(jìn)行簡(jiǎn)歷信息命名實(shí)體提??;利用標(biāo)簽字典及結(jié)合命名實(shí)體提取識(shí)別出簡(jiǎn)歷信息,進(jìn)行簡(jiǎn)歷信息各個(gè)板塊切割;遍歷各個(gè)簡(jiǎn)歷板塊內(nèi)容,利用數(shù)據(jù)鏈表存儲(chǔ)提取出的簡(jiǎn)歷信息內(nèi)容;將經(jīng)過(guò)簡(jiǎn)析的簡(jiǎn)歷信息用JSON或XML結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)。本發(fā)明可以在有限的簡(jiǎn)歷樣本的基礎(chǔ)上,實(shí)現(xiàn)對(duì)簡(jiǎn)歷信息的精準(zhǔn)識(shí)別。