一種基于國產(chǎn)CPU實現(xiàn)公文版面分析的方法

基本信息

申請?zhí)?/td> CN202111318867.8 申請日 -
公開(公告)號 CN114140809A 公開(公告)日 2022-03-04
申請公布號 CN114140809A 申請公布日 2022-03-04
分類號 G06V30/414(2022.01)I;G06V30/42(2022.01)I;G06V30/19(2022.01)I;G06N3/04(2006.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 段京峰;董桂森;劉毅;李淑圣;盧則興 申請(專利權(quán))人 浪潮軟件集團(tuán)有限公司
代理機(jī)構(gòu) 濟(jì)南信達(dá)專利事務(wù)所有限公司 代理人 郗艷榮
地址 250100山東省濟(jì)南市高新區(qū)科航路2877號
法律狀態(tài) -

摘要

摘要 本發(fā)明特別涉及一種基于國產(chǎn)CPU實現(xiàn)公文版面分析的方法。該基于國產(chǎn)CPU實現(xiàn)公文版面分析的方法,對公文圖片進(jìn)行特征提取,并抹去公文文字特征信息,對抹去公文文字特征信息后的行提取行高、橫向起點和橫向終點三個特征形成二維張量,輸入已訓(xùn)練好的分類模型中,判斷公文文種;獲取到公文文種后,將圖片輸入針對該文種訓(xùn)練的檢測神經(jīng)網(wǎng)絡(luò),利用目標(biāo)檢測技術(shù)抓出公文域所在位置信息。該基于國產(chǎn)CPU實現(xiàn)公文版面分析的方法,能夠自動識別公文文種,抓取出公文中的公文域并進(jìn)行標(biāo)注分類,同時采用三種模型采用投票機(jī)制確定公文文種,將不同文種的公文圖片輸入不同的檢測神經(jīng)網(wǎng)絡(luò),大幅提高了公文版面分析的精準(zhǔn)度。