一種基于抽取模板的網(wǎng)頁(yè)正文抽取方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201810760576.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109033282B | 公開(公告)日 | 2021-07-23 |
申請(qǐng)公布號(hào) | CN109033282B | 申請(qǐng)公布日 | 2021-07-23 |
分類號(hào) | G06F16/9535(2019.01)I;G06N3/04(2006.01)N;G06K9/62(2006.01)N | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 董瑞朝;董新建;李貞 | 申請(qǐng)(專利權(quán))人 | 山東邦尼信息科技有限公司 |
代理機(jī)構(gòu) | 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 梁斌 |
地址 | 250000山東省濟(jì)南市高新區(qū)新濼大街2008號(hào)銀荷大廈4-201-101 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于抽取模板的網(wǎng)頁(yè)正文抽取方法及裝置。所述方法包括:獲取待抽取正文信息的網(wǎng)頁(yè)的網(wǎng)頁(yè)信息,網(wǎng)頁(yè)的IP地址和網(wǎng)頁(yè)內(nèi)容;若判斷獲知抽取方式為模板抽取,則獲取網(wǎng)頁(yè)信息對(duì)應(yīng)的目標(biāo)抽取模板,目標(biāo)抽取模板中包括至少一個(gè)段起始信息和至少一個(gè)段結(jié)尾信息;根據(jù)段起始信息和段結(jié)尾信息對(duì)網(wǎng)頁(yè)進(jìn)行分段處理,獲得一個(gè)或多個(gè)網(wǎng)頁(yè)段;依次對(duì)各網(wǎng)頁(yè)段進(jìn)行字段抽取獲得每一網(wǎng)頁(yè)段對(duì)應(yīng)多個(gè)字段;利用數(shù)據(jù)庫(kù)中的字典對(duì)字段進(jìn)行字典映射獲得所述字典中與字段對(duì)應(yīng)的字典字段,將字段存入所述字典字段對(duì)應(yīng)的數(shù)據(jù)表中,以實(shí)現(xiàn)對(duì)所述網(wǎng)頁(yè)中正文的抽取。裝置用于執(zhí)行上述方法。本發(fā)明可以方便快速地獲取到網(wǎng)頁(yè)中的正文信息。 |
