一種基于深度學(xué)習(xí)的簡(jiǎn)歷解析方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202010728915.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111737969B | 公開(公告)日 | 2020-10-02 |
申請(qǐng)公布號(hào) | CN111737969B | 申請(qǐng)公布日 | 2020-10-02 |
分類號(hào) | G06F40/205(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 安永進(jìn);魯林;唐曉陽(yáng);閆慧強(qiáng) | 申請(qǐng)(專利權(quán))人 | 北森云計(jì)算有限公司 |
代理機(jī)構(gòu) | 成都九鼎天元知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北森云計(jì)算有限公司 |
地址 | 610041四川省成都市高新區(qū)萃華路89號(hào)1棟1單元4001號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及電數(shù)字?jǐn)?shù)據(jù)處理技術(shù)領(lǐng)域,本發(fā)明公開了一種基于深度學(xué)習(xí)的簡(jiǎn)歷解析方法和系統(tǒng),該簡(jiǎn)歷解析方法包括富文本提取、文本清洗、文本排序、語(yǔ)句切分、語(yǔ)句分類、區(qū)塊識(shí)別、條目劃分和區(qū)塊內(nèi)字段值提取步驟,并在此過(guò)程中結(jié)合NLP、OCR和命名實(shí)體識(shí)別等技術(shù)對(duì)簡(jiǎn)歷特征進(jìn)行建模和規(guī)?;哪P陀?xùn)練。本發(fā)明從文本提取階段,就把樣式、位置等信息作為和文本同等重要的信息一并提取返回,并在后續(xù)分句、區(qū)塊和條目識(shí)別、類別映射等階段融入樣式信息,達(dá)到讓解析器像人一樣重點(diǎn)突出地閱讀簡(jiǎn)歷的目的,從而提升整體解析效果。?? |
