一種表格換行換頁的分析方法及裝置

基本信息

申請?zhí)?/td> CN201811304030.6 申請日 -
公開(公告)號 CN109460730A 公開(公告)日 2019-03-12
申請公布號 CN109460730A 申請公布日 2019-03-12
分類號 G06K9/00(2006.01)I; G06F16/332(2019.01)I; G06F16/36(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李鵬輝; 竺晨曦; 邱錫鵬 申請(專利權)人 上海犀語科技有限公司
代理機構 - 代理人 -
地址 200082 上海市楊浦區(qū)偉德路6號1005-18室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種表格換行換頁的分析方法,包括:通過專家經驗總結規(guī)則判斷明確的換行換頁情況;利用深度學習模型,獲取標注語料;根據(jù)標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并。實施上述方法的裝置,包括:用于通過專家經驗總結規(guī)則判斷明確的換行換頁情況的換行換頁情況判斷模塊;標注語料獲取模塊,用于利用深度學習模型,獲取標注語料的標注語料獲取模塊;用于根據(jù)標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并的單元格合并判斷模塊。本發(fā)明利用深度學習模型以挖掘表格中蘊含的語義信息,換行換頁場景中,能夠精確分析相鄰兩個單元格是否能夠合并的情況。