一種PDF文件的信息抽取方法及裝置

基本信息

申請?zhí)?/td> CN201710067220.X 申請日 -
公開(公告)號 CN106951400A 公開(公告)日 2017-07-14
申請公布號 CN106951400A 申請公布日 2017-07-14
分類號 G06F17/22 分類 計算;推算;計數(shù);
發(fā)明人 蘭任;馬超;張道泉;趙繼廣 申請(專利權(quán))人 北京順通行網(wǎng)絡(luò)科技有限公司
代理機構(gòu) 北京同達信恒知識產(chǎn)權(quán)代理有限公司 代理人 北京因果樹網(wǎng)絡(luò)科技有限公司
地址 100080 北京市海淀區(qū)中關(guān)村創(chuàng)業(yè)大街昊海樓4層402室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種PDF文件的信息抽取方法及裝置,該方法為,針對PDF文件,分別將每一頁中的信息生成相應(yīng)的樹形結(jié)構(gòu);分別統(tǒng)計每一頁相應(yīng)的樹形結(jié)構(gòu)中每一個節(jié)點的信息,從每一頁中識別并抽取標題、正文、圖表標題和圖表結(jié)尾;進行匯總,對標題進行等級劃分,并根據(jù)圖表標題和圖表結(jié)尾對圖表進行抽取,分別將正文、圖表映射到相應(yīng)的標題和圖表標題中,最終生成PDF文件的結(jié)構(gòu)化數(shù)據(jù),這樣,可以對PDF文件中的標題、正文、圖表等進行結(jié)構(gòu)化抽取,進行精細解析和對圖表信息的有效抽取,為實現(xiàn)行業(yè)研報垂直領(lǐng)域的搜索、信息精確定位及內(nèi)容挖掘提供數(shù)據(jù)支持,極大的簡化了用戶分析研報內(nèi)容的時間。