一種網(wǎng)頁內(nèi)容提取方法
基本信息
申請?zhí)?/td> | CN201811479503.6 | 申請日 | - |
公開(公告)號 | CN109635219A | 公開(公告)日 | 2019-04-16 |
申請公布號 | CN109635219A | 申請公布日 | 2019-04-16 |
分類號 | G06F16/958(2019.01)I; G06F16/951(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 賈顯伏; 葉偉強 | 申請(專利權(quán))人 | 云孚科技(北京)有限公司 |
代理機構(gòu) | 北京世譽鑫誠專利代理事務所(普通合伙) | 代理人 | 孫國棟 |
地址 | 100085 北京市海淀區(qū)上地信息路2號(北京實創(chuàng)高科技發(fā)展總公司2-2號D棟1-8層)一層D100-0705室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開的網(wǎng)頁內(nèi)容提取方法,涉及數(shù)據(jù)分析技術(shù)領域,通過過濾網(wǎng)頁內(nèi)容中標簽為script及css的節(jié)點,生成基于DOM樹的第一節(jié)點集合,從第一節(jié)點集合中提取標簽包含文本的節(jié)點,生成基于DOM樹的第二節(jié)點集合,對第二節(jié)點集合中的各個節(jié)點進行過濾,生成基于DOM樹的第三節(jié)點集合,遍歷第三節(jié)點集合中的各個節(jié)點,依據(jù)設定的計分公式,分別計算各個節(jié)點的得分并生成得分集合,從得分集合中獲取分數(shù)最高的節(jié)點,從所述節(jié)點中提取文本,節(jié)省了大量人力成本、提高了效率及通用性,解決了現(xiàn)有技術(shù)存在的人力成本高、效率低及通用性不強的缺陷。 |
