一種PDF文件的信息抽取方法及裝置
基本信息
申請?zhí)?/td> | CN201710067220.X | 申請日 | - |
公開(公告)號 | CN106951400A | 公開(公告)日 | 2017-07-14 |
申請公布號 | CN106951400A | 申請公布日 | 2017-07-14 |
分類號 | G06F17/22 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 蘭任;馬超;張道泉;趙繼廣 | 申請(專利權(quán))人 | 北京順通行網(wǎng)絡(luò)科技有限公司 |
代理機構(gòu) | 北京同達信恒知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京因果樹網(wǎng)絡(luò)科技有限公司 |
地址 | 100080 北京市海淀區(qū)中關(guān)村創(chuàng)業(yè)大街昊海樓4層402室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種PDF文件的信息抽取方法及裝置,該方法為,針對PDF文件,分別將每一頁中的信息生成相應(yīng)的樹形結(jié)構(gòu);分別統(tǒng)計每一頁相應(yīng)的樹形結(jié)構(gòu)中每一個節(jié)點的信息,從每一頁中識別并抽取標題、正文、圖表標題和圖表結(jié)尾;進行匯總,對標題進行等級劃分,并根據(jù)圖表標題和圖表結(jié)尾對圖表進行抽取,分別將正文、圖表映射到相應(yīng)的標題和圖表標題中,最終生成PDF文件的結(jié)構(gòu)化數(shù)據(jù),這樣,可以對PDF文件中的標題、正文、圖表等進行結(jié)構(gòu)化抽取,進行精細解析和對圖表信息的有效抽取,為實現(xiàn)行業(yè)研報垂直領(lǐng)域的搜索、信息精確定位及內(nèi)容挖掘提供數(shù)據(jù)支持,極大的簡化了用戶分析研報內(nèi)容的時間。 |
