一種基于神經(jīng)網(wǎng)絡(luò)的PDF文檔內(nèi)容文本段落聚合的方法

基本信息

申請?zhí)?/td> CN201910201653.9 申請日 -
公開(公告)號(hào) CN109948518A 公開(公告)日 2019-06-28
申請公布號(hào) CN109948518A 申請公布日 2019-06-28
分類號(hào) G06K9/00(2006.01)I; G06K9/46(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 聶昱 申請(專利權(quán))人 武漢漢王數(shù)據(jù)技術(shù)有限公司
代理機(jī)構(gòu) 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 魏波
地址 430070 湖北省武漢市洪山區(qū)珞喻路33號(hào)中部創(chuàng)意大廈18樓1804
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡(luò)的PDF文檔內(nèi)容文本段落聚合的方法,通過定義一行文本的幾十個(gè)特征、把特征轉(zhuǎn)換為多維向量、生成樣本數(shù)據(jù)集、設(shè)計(jì)算法模型,持續(xù)訓(xùn)練模型,最后輸出訓(xùn)練好的算法模型。實(shí)現(xiàn)對輸入的兩行文本,使用此算法模型,準(zhǔn)確判斷是否這兩行文本應(yīng)該合并到同一個(gè)段落。本發(fā)明基于神經(jīng)網(wǎng)絡(luò)的人工智能技術(shù),研發(fā)應(yīng)用程序?qū)DF提取的行文字自動(dòng)聚合成段落,還原文字原本的句子和段落結(jié)構(gòu)信息,便于PDF內(nèi)容數(shù)據(jù)的重復(fù)利用;人工智能程序自動(dòng)聚合的效率是人工處理無法企及的,實(shí)現(xiàn)機(jī)器代替人工,節(jié)約人力成本、大幅提高效率。