一種網(wǎng)頁信息提取方法、裝置及終端

基本信息

申請(qǐng)?zhí)?/td> CN201410483306.7 申請(qǐng)日 -
公開(公告)號(hào) CN104268192B 公開(公告)日 2018-08-07
申請(qǐng)公布號(hào) CN104268192B 申請(qǐng)公布日 2018-08-07
分類號(hào) G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鄺銳強(qiáng) 申請(qǐng)(專利權(quán))人 廣州獵豹網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 廣州三環(huán)專利商標(biāo)代理有限公司 代理人 廣州獵豹網(wǎng)絡(luò)科技有限公司
地址 510623 廣東省廣州市天河區(qū)華夏路26號(hào)雅居樂中心第15層自編07、08A單元
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例公開了一種網(wǎng)頁信息提取方法,包括:解析網(wǎng)頁信息并生成得到所述網(wǎng)頁信息的標(biāo)簽樹,所述標(biāo)簽樹包括多個(gè)節(jié)點(diǎn),所述標(biāo)簽樹的各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)于所述網(wǎng)頁信息中的一個(gè)內(nèi)容分塊;獲取預(yù)先建立的網(wǎng)頁信息詞庫,所述網(wǎng)頁信息詞庫包括多種類型的詞語集合,所述詞語集合中的各個(gè)詞語分別對(duì)應(yīng)一個(gè)權(quán)值;根據(jù)所述預(yù)先建立的網(wǎng)頁信息詞庫,通過遍歷所述網(wǎng)頁信息的標(biāo)簽樹獲取所述網(wǎng)頁信息的正文內(nèi)容塊;根據(jù)所述網(wǎng)頁信息的正文內(nèi)容塊,對(duì)所述網(wǎng)頁信息中的至少一個(gè)內(nèi)容元素進(jìn)行提取。本發(fā)明實(shí)施例還公開了網(wǎng)頁信息提取裝置及終端。采用本發(fā)明實(shí)施例,可以網(wǎng)頁信息的提取速度。