一種基于抽取模板的網(wǎng)頁(yè)正文抽取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201810760576.6 申請(qǐng)日 -
公開(公告)號(hào) CN109033282B 公開(公告)日 2021-07-23
申請(qǐng)公布號(hào) CN109033282B 申請(qǐng)公布日 2021-07-23
分類號(hào) G06F16/9535(2019.01)I;G06N3/04(2006.01)N;G06K9/62(2006.01)N 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 董瑞朝;董新建;李貞 申請(qǐng)(專利權(quán))人 山東邦尼信息科技有限公司
代理機(jī)構(gòu) 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 梁斌
地址 250000山東省濟(jì)南市高新區(qū)新濼大街2008號(hào)銀荷大廈4-201-101
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于抽取模板的網(wǎng)頁(yè)正文抽取方法及裝置。所述方法包括:獲取待抽取正文信息的網(wǎng)頁(yè)的網(wǎng)頁(yè)信息,網(wǎng)頁(yè)的IP地址和網(wǎng)頁(yè)內(nèi)容;若判斷獲知抽取方式為模板抽取,則獲取網(wǎng)頁(yè)信息對(duì)應(yīng)的目標(biāo)抽取模板,目標(biāo)抽取模板中包括至少一個(gè)段起始信息和至少一個(gè)段結(jié)尾信息;根據(jù)段起始信息和段結(jié)尾信息對(duì)網(wǎng)頁(yè)進(jìn)行分段處理,獲得一個(gè)或多個(gè)網(wǎng)頁(yè)段;依次對(duì)各網(wǎng)頁(yè)段進(jìn)行字段抽取獲得每一網(wǎng)頁(yè)段對(duì)應(yīng)多個(gè)字段;利用數(shù)據(jù)庫(kù)中的字典對(duì)字段進(jìn)行字典映射獲得所述字典中與字段對(duì)應(yīng)的字典字段,將字段存入所述字典字段對(duì)應(yīng)的數(shù)據(jù)表中,以實(shí)現(xiàn)對(duì)所述網(wǎng)頁(yè)中正文的抽取。裝置用于執(zhí)行上述方法。本發(fā)明可以方便快速地獲取到網(wǎng)頁(yè)中的正文信息。