一種PDF文件的信息抽取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201710067220.X 申請(qǐng)日 -
公開(公告)號(hào) CN106951400A 公開(公告)日 2017-07-14
申請(qǐng)公布號(hào) CN106951400A 申請(qǐng)公布日 2017-07-14
分類號(hào) G06F17/22 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 蘭任;馬超;張道泉;趙繼廣 申請(qǐng)(專利權(quán))人 北京順通行網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 代理人 北京因果樹網(wǎng)絡(luò)科技有限公司
地址 100080 北京市海淀區(qū)中關(guān)村創(chuàng)業(yè)大街昊海樓4層402室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種PDF文件的信息抽取方法及裝置,該方法為,針對(duì)PDF文件,分別將每一頁中的信息生成相應(yīng)的樹形結(jié)構(gòu);分別統(tǒng)計(jì)每一頁相應(yīng)的樹形結(jié)構(gòu)中每一個(gè)節(jié)點(diǎn)的信息,從每一頁中識(shí)別并抽取標(biāo)題、正文、圖表標(biāo)題和圖表結(jié)尾;進(jìn)行匯總,對(duì)標(biāo)題進(jìn)行等級(jí)劃分,并根據(jù)圖表標(biāo)題和圖表結(jié)尾對(duì)圖表進(jìn)行抽取,分別將正文、圖表映射到相應(yīng)的標(biāo)題和圖表標(biāo)題中,最終生成PDF文件的結(jié)構(gòu)化數(shù)據(jù),這樣,可以對(duì)PDF文件中的標(biāo)題、正文、圖表等進(jìn)行結(jié)構(gòu)化抽取,進(jìn)行精細(xì)解析和對(duì)圖表信息的有效抽取,為實(shí)現(xiàn)行業(yè)研報(bào)垂直領(lǐng)域的搜索、信息精確定位及內(nèi)容挖掘提供數(shù)據(jù)支持,極大的簡化了用戶分析研報(bào)內(nèi)容的時(shí)間。