從研報(bào)中進(jìn)行關(guān)鍵信息提取方法及相關(guān)設(shè)備
基本信息
申請?zhí)?/td> | CN202110421724.3 | 申請日 | - |
公開(公告)號 | CN112990110A | 公開(公告)日 | 2021-06-18 |
申請公布號 | CN112990110A | 申請公布日 | 2021-06-18 |
分類號 | G06K9/00;G06K9/62;G06N3/04;G06N3/08 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 朱召文;李宜博;李鵬 | 申請(專利權(quán))人 | 數(shù)庫(上海)科技有限公司 |
代理機(jī)構(gòu) | 上海十蕙一蘭知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 劉秋蘭 |
地址 | 201112 上海市閔行區(qū)陳行路2388號9號樓8層801室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種從研報(bào)中進(jìn)行關(guān)鍵信息提取方法及相關(guān)設(shè)備。其中方法包括:獲取研報(bào)文件,型對研報(bào)文件進(jìn)行目標(biāo)檢測,得到目標(biāo)檢測結(jié)果,目標(biāo)檢測結(jié)果為多個(gè)目標(biāo)在研報(bào)文件中的位置及類別信息;解析研報(bào)文件,獲取研報(bào)文件內(nèi)每一頁中的字符信息,根據(jù)目標(biāo)檢測結(jié)果,將位于同一個(gè)目標(biāo)內(nèi)的字符進(jìn)行合并,得到文本信息和對應(yīng)的坐標(biāo)位置;通過預(yù)設(shè)的文本分類模型對文本信息進(jìn)行主題分類,對研報(bào)文件按主題分類進(jìn)行分類存儲(chǔ)和輸出。本發(fā)明可以對不同主題的研報(bào)文件進(jìn)行分類,通過對研報(bào)主題進(jìn)行分類,可以快速的篩選出自己所關(guān)注的研報(bào)類別,忽略不相關(guān)的研報(bào)。 |
