一種基于抽取模板的網(wǎng)頁正文抽取方法及裝置

基本信息

申請?zhí)?/td> CN201810760576.6 申請日 -
公開(公告)號 CN109033282A 公開(公告)日 2018-12-18
申請公布號 CN109033282A 申請公布日 2018-12-18
分類號 G06F17/30;G06N3/04;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 董瑞朝;董新建;李貞 申請(專利權)人 山東邦尼信息科技有限公司
代理機構 北京超凡志成知識產權代理事務所(普通合伙) 代理人 山東邦尼信息科技有限公司;董新建
地址 250000 山東省濟南市高新區(qū)新濼大街2008號銀荷大廈4-201-101
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于抽取模板的網(wǎng)頁正文抽取方法及裝置。所述方法包括:獲取待抽取正文信息的網(wǎng)頁的網(wǎng)頁信息,網(wǎng)頁的IP地址和網(wǎng)頁內容;若判斷獲知抽取方式為模板抽取,則獲取網(wǎng)頁信息對應的目標抽取模板,目標抽取模板中包括至少一個段起始信息和至少一個段結尾信息;根據(jù)段起始信息和段結尾信息對網(wǎng)頁進行分段處理,獲得一個或多個網(wǎng)頁段;依次對各網(wǎng)頁段進行字段抽取獲得每一網(wǎng)頁段對應多個字段;利用數(shù)據(jù)庫中的字典對字段進行字典映射獲得所述字典中與字段對應的字典字段,將字段存入所述字典字段對應的數(shù)據(jù)表中,以實現(xiàn)對所述網(wǎng)頁中正文的抽取。裝置用于執(zhí)行上述方法。本發(fā)明可以方便快速地獲取到網(wǎng)頁中的正文信息。