一種基于深度學(xué)習(xí)的簡(jiǎn)歷解析方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202010728915.X 申請(qǐng)日 -
公開(公告)號(hào) CN111737969B 公開(公告)日 2020-10-02
申請(qǐng)公布號(hào) CN111737969B 申請(qǐng)公布日 2020-10-02
分類號(hào) G06F40/205(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 安永進(jìn);魯林;唐曉陽(yáng);閆慧強(qiáng) 申請(qǐng)(專利權(quán))人 北森云計(jì)算有限公司
代理機(jī)構(gòu) 成都九鼎天元知識(shí)產(chǎn)權(quán)代理有限公司 代理人 北森云計(jì)算有限公司
地址 610041四川省成都市高新區(qū)萃華路89號(hào)1棟1單元4001號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及電數(shù)字?jǐn)?shù)據(jù)處理技術(shù)領(lǐng)域,本發(fā)明公開了一種基于深度學(xué)習(xí)的簡(jiǎn)歷解析方法和系統(tǒng),該簡(jiǎn)歷解析方法包括富文本提取、文本清洗、文本排序、語(yǔ)句切分、語(yǔ)句分類、區(qū)塊識(shí)別、條目劃分和區(qū)塊內(nèi)字段值提取步驟,并在此過(guò)程中結(jié)合NLP、OCR和命名實(shí)體識(shí)別等技術(shù)對(duì)簡(jiǎn)歷特征進(jìn)行建模和規(guī)?;哪P陀?xùn)練。本發(fā)明從文本提取階段,就把樣式、位置等信息作為和文本同等重要的信息一并提取返回,并在后續(xù)分句、區(qū)塊和條目識(shí)別、類別映射等階段融入樣式信息,達(dá)到讓解析器像人一樣重點(diǎn)突出地閱讀簡(jiǎn)歷的目的,從而提升整體解析效果。??