一種網(wǎng)頁內(nèi)容提取方法

基本信息

申請?zhí)?/td> CN201811479503.6 申請日 -
公開(公告)號 CN109635219A 公開(公告)日 2019-04-16
申請公布號 CN109635219A 申請公布日 2019-04-16
分類號 G06F16/958(2019.01)I; G06F16/951(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 賈顯伏; 葉偉強 申請(專利權(quán))人 云孚科技(北京)有限公司
代理機構(gòu) 北京世譽鑫誠專利代理事務所(普通合伙) 代理人 孫國棟
地址 100085 北京市海淀區(qū)上地信息路2號(北京實創(chuàng)高科技發(fā)展總公司2-2號D棟1-8層)一層D100-0705室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開的網(wǎng)頁內(nèi)容提取方法,涉及數(shù)據(jù)分析技術(shù)領域,通過過濾網(wǎng)頁內(nèi)容中標簽為script及css的節(jié)點,生成基于DOM樹的第一節(jié)點集合,從第一節(jié)點集合中提取標簽包含文本的節(jié)點,生成基于DOM樹的第二節(jié)點集合,對第二節(jié)點集合中的各個節(jié)點進行過濾,生成基于DOM樹的第三節(jié)點集合,遍歷第三節(jié)點集合中的各個節(jié)點,依據(jù)設定的計分公式,分別計算各個節(jié)點的得分并生成得分集合,從得分集合中獲取分數(shù)最高的節(jié)點,從所述節(jié)點中提取文本,節(jié)省了大量人力成本、提高了效率及通用性,解決了現(xiàn)有技術(shù)存在的人力成本高、效率低及通用性不強的缺陷。