一種PDF文件的對象識別處理方法及裝置

基本信息

申請?zhí)?/td> CN201910549537.6 申請日 -
公開(公告)號 CN110363102A 公開(公告)日 2019-10-22
申請公布號 CN110363102A 申請公布日 2019-10-22
分類號 G06K9/00 分類 計算;推算;計數(shù);
發(fā)明人 羅彤;周占文;曹德亮;趙紅軍 申請(專利權)人 北京融匯金信信息技術有限公司
代理機構 北京路浩知識產權代理有限公司 代理人 北京融匯金信信息技術有限公司
地址 100036 北京市海淀區(qū)復興路21號海育大廈7層
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開了一種PDF文件的對象識別處理方法及裝置,方法包括:將PDF文件的當前頁面轉換為待識別圖像并進行灰度轉換處理、二值化處理和閉合處理,得到識別背景后的背景圖像;識別背景圖像中的表格和圖片,并根據(jù)識別到的表格和圖片對背景圖像進行自動化標記,得到標記圖像;將標記圖像輸入訓練好的深度學習模型中,得到深度學習模型輸出的帶有對象識別結果的識別圖像。通過對待識別圖像進行灰度轉換處理、二值化處理和閉合處理,進行圖像背景的識別;通過預設規(guī)則識別背景圖像中的表格和圖片并進行標記,最后通過訓練好的深度學習模型輸出的帶有對象識別結果的識別圖像,不僅快速簡單、節(jié)約了大量人工標注的人力成本,而且識別準確率高。