一種基于語義處理的表格片段鏈接復(fù)原方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202011621485.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112632927A | 公開(公告)日 | 2021-04-09 |
申請(qǐng)公布號(hào) | CN112632927A | 申請(qǐng)公布日 | 2021-04-09 |
分類號(hào) | G06F40/174;G06F40/30;G06F40/284;G06N3/04;G06N3/08 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 金鑫;李鵬輝 | 申請(qǐng)(專利權(quán))人 | 上海犀語科技有限公司 |
代理機(jī)構(gòu) | 上海樂泓專利代理事務(wù)所(普通合伙) | 代理人 | 蘇杰 |
地址 | 200082 上海市楊浦區(qū)偉德路6號(hào)1005-18室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明的一種基于語義處理的表格片段鏈接復(fù)原方法,具體包括如下步驟:S100、對(duì)表格進(jìn)行結(jié)構(gòu)化抽取得到表格片段;S200、對(duì)步驟S100抽取的表格片段進(jìn)行預(yù)處理;S300、采用LSTM深度學(xué)習(xí)模型學(xué)習(xí)表格上下文和表格內(nèi)數(shù)據(jù)的語義信息,來判斷相鄰表格片段是否應(yīng)該被鏈接;S400、對(duì)模型處理結(jié)果進(jìn)行規(guī)則校驗(yàn),對(duì)需要進(jìn)行鏈接的表格片段進(jìn)行復(fù)原。本實(shí)施例的方法利用LSTM深度學(xué)習(xí)模型進(jìn)行表示學(xué)習(xí),自動(dòng)化挖掘表格上下文和表格內(nèi)數(shù)據(jù)中所蘊(yùn)含的語義信息,實(shí)現(xiàn)對(duì)PDF文檔中的換行換頁場(chǎng)景下的表格片段是否應(yīng)該進(jìn)行鏈接復(fù)原的智能化識(shí)別,并對(duì)該組表格片段進(jìn)行鏈接復(fù)原。 |
