一種網(wǎng)頁信息提取方法、裝置及終端
基本信息
申請(qǐng)?zhí)?/td> | CN201410483306.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN104268192B | 公開(公告)日 | 2018-08-07 |
申請(qǐng)公布號(hào) | CN104268192B | 申請(qǐng)公布日 | 2018-08-07 |
分類號(hào) | G06F17/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄺銳強(qiáng) | 申請(qǐng)(專利權(quán))人 | 廣州獵豹網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 廣州三環(huán)專利商標(biāo)代理有限公司 | 代理人 | 廣州獵豹網(wǎng)絡(luò)科技有限公司 |
地址 | 510623 廣東省廣州市天河區(qū)華夏路26號(hào)雅居樂中心第15層自編07、08A單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實(shí)施例公開了一種網(wǎng)頁信息提取方法,包括:解析網(wǎng)頁信息并生成得到所述網(wǎng)頁信息的標(biāo)簽樹,所述標(biāo)簽樹包括多個(gè)節(jié)點(diǎn),所述標(biāo)簽樹的各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)于所述網(wǎng)頁信息中的一個(gè)內(nèi)容分塊;獲取預(yù)先建立的網(wǎng)頁信息詞庫,所述網(wǎng)頁信息詞庫包括多種類型的詞語集合,所述詞語集合中的各個(gè)詞語分別對(duì)應(yīng)一個(gè)權(quán)值;根據(jù)所述預(yù)先建立的網(wǎng)頁信息詞庫,通過遍歷所述網(wǎng)頁信息的標(biāo)簽樹獲取所述網(wǎng)頁信息的正文內(nèi)容塊;根據(jù)所述網(wǎng)頁信息的正文內(nèi)容塊,對(duì)所述網(wǎng)頁信息中的至少一個(gè)內(nèi)容元素進(jìn)行提取。本發(fā)明實(shí)施例還公開了網(wǎng)頁信息提取裝置及終端。采用本發(fā)明實(shí)施例,可以網(wǎng)頁信息的提取速度。 |
